V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
alexapollo
V2EX  ›  程序员

NLP 领域学术界进展: 2017

  •  
  •   alexapollo ·
    geekan · 2017-09-18 00:14:23 +08:00 · 3825 次点击
    这是一个创建于 2627 天前的主题,其中的信息可能已经有所发展或是发生改变。

    原文发表于我的博客: NLP 领域学术界进展:2017

    前一段听了 Manning 的分享,结合现实场景,这里做一次目前 NLP 学术界进展的 review

    NLP 领域学术界进展

    实际上,近年来 NLP/CV/大数据领域的学术界和工业界基本已经不分家了,学术界能做到的,只要不脱离工业太远(基础性改造),基本上就会在工业界得到应用。

    图上大部分都表达为标注任务,做有监督学习都可以直接解决,特殊的,翻译类任务会作为文本对齐(序列化有监督学习)来解决,而 QA/Dialog 目前也没有摆脱标注样本训练的过程。

    图上出现的比较有意思的几点:

    • WSD:语义消歧,似乎是一个简单的事情,实际上非常难做,最主要是即不可能有充足的样本,且也没有一个 teacher,进行 lifelong-learning,而只能靠 KB、词典进行消歧。用词典进行消歧往往会受限于词典本身的约束(看一个词条并不能看懂),而对互联网知识直接进行(半监督)学习又很容易出错,没有一个体系化的收敛方法。
    • Summarization:文本生成至今仍然是一个很难的问题,一方面是 GAN 在 NLP 下应用仍然有比较强的限制,另一方面是 NLP 的生成式任务很难有一个好的评价方法。近年来强化学习+GAN 在 NLP 上有一些应用,但仍然不成熟。

    图上没有出现的比较有意思的点:

    • 互联网知识结构化:如何将互联网知识完全的结构化,并让机器完全的理解?
    • 机器语言:如何让机器之间进行交流,能互相进行信息的补充与互学习?
    • 专业领域建模:数学、物理、化学、计算机等专业领域进行建模,如自动化的 debug (据说已经有准确率达到~80%的自动化程序 debugger )

    Manning 表示 2017 是 NLP+Attention+BiLSTM 的一年,相信 2018 是 GAN+RL+NLP 的一年,不知明年是否有闲,可以发些文章

    注:很多东西没有介绍,感兴趣的 V 友可以留言交流

    11 条回复    2017-09-18 10:08:50 +08:00
    alexapollo
        1
    alexapollo  
    OP
       2017-09-18 00:24:36 +08:00
    举个例子:比如 V2EX 文章底部的几个词,就是一个标准的 keyphrase extraction
    它最难的一个点就是很难确定评判标准,是一个比较主观的事情,像这里如果能提一个 Manning,就很有意思

    而 entity linking 可以将 Manning 链接到 Stanford 的 Christopher Manning 教授,更进一步的靠近了现实知识
    HowardMei
        2
    HowardMei  
       2017-09-18 00:36:52 +08:00 via Android
    woodfish
        3
    woodfish  
       2017-09-18 00:38:07 +08:00
    有网上视频吗,求一个分享
    alexapollo
        4
    alexapollo  
    OP
       2017-09-18 00:43:10 +08:00
    @HowardMei 语义分析是一个比较广泛的概念,专利分析比较相关的领域应该是 Information extraction,也即把里面的信息提取出来结构化,这个领域已经有很多工业手段,也有一些比较新的研究(正如上文的 Attention )

    你可以讲讲你的场景,看看有什么可以帮助你的
    alexapollo
        5
    alexapollo  
    OP
       2017-09-18 00:46:57 +08:00
    @woodfish 我的没有,推荐可以看看 Stanford CS 224n 的课程:cs224n.stanford.edu
    HowardMei
        6
    HowardMei  
       2017-09-18 01:20:48 +08:00 via Android
    @alexapollo 仅仅提取是不够的,要做交叉关联分析查重查新,能发现竞争对手专利布局模式,最好还能自动生成高通过率的专利申请文本。
    AntiGameZ
        7
    AntiGameZ  
       2017-09-18 05:13:16 +08:00 via iPhone
    你说的图里没有提到的部分,应该就是语义网和本体论的部分吧(semantic web & ontologies)

    最近上课在看论文,云里雾里的。
    alexapollo
        8
    alexapollo  
    OP
       2017-09-18 09:25:07 +08:00
    @HowardMei 点可能很多,比如查重,就是一个 text match 问题,这里由于有对抗(替换相近词),所以考虑引入词向量就能解决不少问题
    alexapollo
        9
    alexapollo  
    OP
       2017-09-18 09:26:03 +08:00
    @AntiGameZ semantic web 是另外一个努力的方向,和这个方向还不大一样,而且现在 kg 也基本替代 sw 成为事实标准了
    Morriaty
        10
    Morriaty  
       2017-09-18 09:42:18 +08:00
    Text Similarity 已经算已解决问题了吗!!
    alexapollo
        11
    alexapollo  
    OP
       2017-09-18 10:08:50 +08:00
    @Morriaty 你看横向的事情(一部分是可演进的),后面是 translation,paraphrase
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5985 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:44 · PVG 10:44 · LAX 18:44 · JFK 21:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.