个人觉得 nlp 的首要难点, 在于准确地描述词汇的含义。
像 word2vec 这样的词向量, 无非是根据词的自然距离,算出某些维度下词的关联程度。
这种关联是模糊且不稳定的。
自然语言的背景知识比较稀疏,靠统计学方法, 很难做到面面俱到。
例如一个训练内涵段子的模型, 很多情况下笑话的背景知识并不在段子文本中, 而是人们日常生活中获得的知识。这样的知识应该很难通过统计模型去学习的吧。
如果有一个较为准确的先验知识图谱, 像词典一样把词汇及各式知识关联起来。对当前的自然语言理解, 是否一个较大的提高呢。
1
zhangysh1995 2018-03-14 23:56:19 +08:00 via Android
是人类对自身语言系统的理解吧。技术层面问题不大。
|
2
inflationaaron 2018-03-15 07:50:42 +08:00 via iPad
常识是通用 AI 必须的,但就现有 NLP 的研究方向而言作用不大
|
3
enenaaa OP @zhangysh1995 就像汉字的顺序不影响阅读一样。我觉得语言的理解重点是描述词汇在上下文中的准确含义。当然, 语言和图像不太一样, 词汇相似并不一定代表意思相似, 这部分也是很大的问题。
@inflationaaron 我了一些语言生成的文章介绍,好多都需要先验知识的介入才能获得更好的结果。例如写诗, 需要先控制整体脉路,保证意思连贯。例如淘宝的自动生成推荐语, 也是基于一个丰富的知识图谱。 那么反过来, 如果有更多的通用一点的先验知识, 对其他类型的任务(比如分类,问答)是否有提升效果呢。 |
4
cszhiyue 2018-03-15 10:46:01 +08:00
你需要的是知识图谱
|
5
taurenshaman 2018-03-18 18:32:15 +08:00 1
我在做一个通用型的知识图谱: http://www.chuci.info
向维基致敬,每条知识都有一个 URI 可以访问到 |