V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
domty
V2EX  ›  Java

像微信和淘宝那种自动回复机器人是怎么实现的

  •  
  •   domty · 2016-03-22 14:37:29 +08:00 · 8026 次点击
    这是一个创建于 3174 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需要做一个类似功能的机器人客服, 现在的需求比较简单,我这有一串问答列表。只要能根据关键字回复相应的答案就行。 所以现在怎么搞,找个 nlp 服务提供商把挨个问题的关键字提取出来?再放到数据库里做匹配?

    本来上午花了几个钟头找合适的云服务提供商的,奈何提供的服务远大于目前的需求。试用次数不多,过量就得付费试用了,感觉成本太高。

    11 条回复    2018-09-25 19:07:22 +08:00
    qcloud
        1
    qcloud  
       2016-03-22 15:23:13 +08:00 via iPhone
    图灵机器人
    qcloud
        2
    qcloud  
       2016-03-22 15:25:25 +08:00 via iPhone
    lcj2class
        3
    lcj2class  
       2016-03-22 16:09:07 +08:00 via iPhone
    可以用 es 呀
    Wenwei
        4
    Wenwei  
       2016-03-22 16:13:53 +08:00
    可以用 elasticsearch 搭个搜索引擎啊。
    jugelizi
        5
    jugelizi  
       2016-03-22 16:14:12 +08:00
    那不就是全文检索类似的嘛 分词去查权重高的就解决了啊
    domty
        6
    domty  
    OP
       2016-03-22 16:35:36 +08:00
    @qcloud
    非常不好用,它把它自己的知识库和我给的 Q&A 合起来了。
    问我 Q&A 的关键字回复的都不是我想要的答案
    menc
        7
    menc  
       2016-03-22 16:46:25 +08:00   ❤️ 1
    @domty

    自己用一些简单的 NLP 方法来做,分词配上 TF-IDF ,或者手动修改下 idf 提升下权值。
    或者自己做一个 reinforcement learning 的框架你自己多试几次就好了。


    如果不想尝试机器学习方法,推荐用哈工大的 ltp ,有 python wrapper , pip install pyltp ,下载他们放在百度网盘里的训练好的模型大概 2G ,就可以自己来做 NER , POS 等等内容了
    domty
        8
    domty  
    OP
       2016-03-22 17:01:30 +08:00
    @menc
    我是尽量避免使用机器学习类的东西,因为我手头的数据样本只有不到 20 条问答,加起来不到 1000 字的水平。
    像上机器学习模型或者楼上连分布式的全文搜索引擎都出来了,觉得这样搞有点大炮打蚊子的感觉。

    我个人的思路是给问题做分词提取关键词然后加权,然后往数据库一放做关键字检索取权值最大的做答案回复就好了。但是两个关键的问题就是怎么分词和怎么给关键字权级。
    menc
        9
    menc  
       2016-03-22 17:07:42 +08:00   ❤️ 1
    @domty
    - tf-idf 赋权做空间向量模型对 FAQ 的库做下余弦距离
    - 句法依存树找关键词和 LAT


    走 old-school qa system 那一套,我本科毕设就做的这个
    murmur
        10
    murmur  
       2016-03-22 17:12:23 +08:00
    其实最简单的就是一个 lucene 配置一下分词机制去一下停用词 就能用了
    821579877
        11
    821579877  
       2018-09-25 19:07:22 +08:00 via iPhone
    不知道楼主最后做了没...我最近也想做个类似的呢,不知道楼主有没有啥方案可以分享一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1195 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 18:29 · PVG 02:29 · LAX 10:29 · JFK 13:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.