当前制约自然语言处理的瓶颈是通用知识库吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 2588 天前的主题，其中的信息可能已经有所发展或是发生改变。

个人觉得 nlp 的首要难点，在于准确地描述词汇的含义。

像 word2vec 这样的词向量，无非是根据词的自然距离，算出某些维度下词的关联程度。

这种关联是模糊且不稳定的。

自然语言的背景知识比较稀疏，靠统计学方法，很难做到面面俱到。

例如一个训练内涵段子的模型，很多情况下笑话的背景知识并不在段子文本中，而是人们日常生活中获得的知识。这样的知识应该很难通过统计模型去学习的吧。

如果有一个较为准确的先验知识图谱，像词典一样把词汇及各式知识关联起来。对当前的自然语言理解，是否一个较大的提高呢。

知识

关联

段子

自然

5 条回复 • 2018-03-18 18:32:15 +08:00

zhangysh1995

2018-03-14 23:56:19 +08:00 via Android

是人类对自身语言系统的理解吧。技术层面问题不大。

inflationaaron

2018-03-15 07:50:42 +08:00 via iPad

常识是通用 AI 必须的，但就现有 NLP 的研究方向而言作用不大

enenaaa

2018-03-15 09:41:48 +08:00

@zhangysh1995 就像汉字的顺序不影响阅读一样。我觉得语言的理解重点是描述词汇在上下文中的准确含义。当然，语言和图像不太一样，词汇相似并不一定代表意思相似，这部分也是很大的问题。

@inflationaaron 我了一些语言生成的文章介绍，好多都需要先验知识的介入才能获得更好的结果。例如写诗，需要先控制整体脉路，保证意思连贯。例如淘宝的自动生成推荐语，也是基于一个丰富的知识图谱。那么反过来，如果有更多的通用一点的先验知识，对其他类型的任务（比如分类，问答）是否有提升效果呢。

cszhiyue

2018-03-15 10:46:01 +08:00

你需要的是知识图谱

taurenshaman

2018-03-18 18:32:15 +08:00

我在做一个通用型的知识图谱： http://www.chuci.info
向维基致敬，每条知识都有一个 URI 可以访问到