V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
sinex
V2EX  ›  分享创造

MidSearch:一个基于 ChatGPT 的文档搜索引擎

  •  1
     
  •   sinex · 319 天前 · 2677 次点击
    这是一个创建于 319 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    如果大家做过开源项目或者在公司内部为其他部门提供服务,就会发现一个问题,很多用户并不会好好看文档而是直接咨询答疑人员。这种情况可能是用户的信息检索能力有限,也有可能是文档组织混乱,难以供用户检索。因此,如果能够将文档投喂给 ChatGPT ,让 ChatGPT 生成答案,能够大大减少答疑人员的工作量。

    基于文档的聊天机器人方案其实已经有很多了,包括但是不限于 Langchain 、LlamaIndex 、闻达,遗憾的是无法满足下面的需求:

    • API:提供基于 HTTP 的 API 就能够将服务端和文档更新脚本部署在不同的机器
    • 支持删除:删除操作需要给每个文档设置唯一 ID ,所以他们实际上没办法支持删除文档
    • 问题记录:记录下用户提问、用户对回答的评价、生成回答使用的上下文,方便后续优化文档

    项目介绍

    项目起名为 MidSearch ( https://github.com/gorse-io/midsearch ),意思为从聊天机器人到搜索引擎的中间件。MidSearch 的工作量和其他 ChatDocs 产品没有什么区别。首先将文档导入到 Postgres 中,文档给会被分割并向量化。当收到用户提问的时候,首先将问题向量化,在 Postgres 中找到向量距离最近的几篇文档,最后将文档和问题发给 ChatGPT 生成最终的回答。

    目前文档类型支持 Markdown ,机器人支持 Discord 和 Telegram ,后续会更多的文件类型和机器人。

    演示

    程序员做饭指南

    如果将程序员做饭指南( https://github.com/Anduin2017/HowToCook )导入到 MidSearch 中,就可以得到一个菜谱机器人(Telegram:@how_to_cook_bot)。搭建菜谱机器人的方法参考文章如何搭建一个菜谱机器人

    可以使用按钮对回答进行评价。

    管理后台

    管理后台可以查看用户对于回答的评价统计、浏览回答记录、管理文档。

    8 条回复    2023-05-16 10:05:27 +08:00
    justincnn
        1
    justincnn  
       319 天前   ❤️ 1
    这个太棒了,期待 lz 更新新版本,我献上了第一星
    Aloento
        2
    Aloento  
       319 天前   ❤️ 1
    这个太棒了,期待 lz 更新新版本,我献上了第二星
    blankmiss
        3
    blankmiss  
       319 天前
    这两个小号?
    sinex
        4
    sinex  
    OP
       319 天前 via Android
    @blankmiss 可能他们是 AI😂
    haozes
        5
    haozes  
       318 天前
    感觉不错的 idea
    poupoo
        6
    poupoo  
       318 天前
    我看行 很有盼头
    sinex
        8
    sinex  
    OP
       317 天前
    @ganbuliao 类似的产品是很多的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1372 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 17:38 · PVG 01:38 · LAX 10:38 · JFK 13:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.