V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
a526796017
V2EX  ›  程序员

全文检索+AI 的疑惑

  •  
  •   a526796017 · 40 天前 · 3445 次点击
    这是一个创建于 40 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在调研全文检索和 AI 如何进行结合,
    目前只是用过市面上的 AI 模型,没有深入了解过,请教下各位懂行的大佬
    目前的场景:
    目前有一亿辆车,不同车牌,不同品牌,不同颜色,不同车型
    现有实现逻辑:
    通过代码进行采集车辆数据,然后录入 elasticsearch 引擎中,然后进行组合查询
    如果引入 AI 的话,能否做到,通过对话的方式将需要过滤的车子信息获取到,
    例如:
    问 AI:给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息,并通过 excel 导出
    然后 AI 将数据搜索后进行导出

    疑惑:
    1 、现在有没有这种 AI 模型?
    2 、如果没有这种 AI 模型,那么有没有办法自己训练出来?
    3 、自己训练的话有没有什么业内可行的方案?
    31 条回复    2025-02-12 16:11:41 +08:00
    cheng6563
        1
    cheng6563  
       40 天前
    你可以让 LLM 优化搜索关键字
    lekai63
        2
    lekai63  
       40 天前 via iPhone
    你把数据库字段给 ai 让 ai 生成 sql 通过 functioncall 取数返回
    a526796017
        3
    a526796017  
    OP
       40 天前
    @cheng6563 这样训练的模型回答的会不会出现不准确的数据?
    @lekai63 就是底层还是通过 SQL ?有没有将这些数据直接训练到模型的方式?
    iyiluo
        4
    iyiluo  
       40 天前
    已经有了,ERP 行业很多企业在做这一块,原理大概是通过大模型 function call 去调用 elasticsearch 接口,返回结构化数据
    zonde306
        5
    zonde306  
       40 天前 via Android   ❤️ 1
    随便选个智商在线的 LLM 就行,不需要特定模型,除非需要用图片来搜索才需要多模态的
    这种一般用 Agent 实现,向 LLM 提问,然后 LLM 调用工具,查询数据库,再让 Agent 执行查询生成表格文件
    iyiluo
        6
    iyiluo  
       40 天前   ❤️ 1
    我猜你是想让 AI 直接输出搜索结果,这是不可能实现的,现在的大模型只存储了一堆权重的数字,他的输出是根据概率,随便找找一篇大模型原理讲解看看就知道了
    bixinhaner
        7
    bixinhaner  
       40 天前
    "给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息",感觉这个需求是 AI+SQL 的场景?让 LLM 根据语言要求生成 sql ,再访问数据库查询出来准确信息
    a526796017
        8
    a526796017  
    OP
       40 天前
    @iyiluo 懂了,就是大量的数据查询最终到底层还是得用数据库这类工具才能进行处理,看来目前还没有符合我需求的 AI 产品
    KingHL
        9
    KingHL  
       40 天前
    纯 AI 不能做到对长尾记忆的准确性,无法精确搜索,我理解你这个合理的是让 ai 辅助做查询转换,最终查询数据还是在 es 中。或者可以试下 RAG 方案
    ChoateYao
        10
    ChoateYao  
       40 天前
    这是 知识库 的功能,将你的数据向量化,提问的时候先搜索你的数据,在将你的数据喂给 Ai ,让 Ai 重新总结并输出。
    CodeAllen
        11
    CodeAllen  
       40 天前
    AI 是黑盒系统,不稳定的系统,数据分析,尤其是需求明确的分析,是通过 AI 构建稳定的脚本或者后台服务进行准确的数据查询拿到确定的结果,而不是让 AI 在记忆中自己查询,AI 本身的幻觉问题就没法解决,类比人类就是认知偏差或者需求理解偏差,人都会记错或者理解错哪怕 AI 呢。
    AI 、服务、数据,这三个本来就是独立的,各自迭代升级。
    mightybruce
        12
    mightybruce  
       40 天前
    你这个属于多模态大模型交互,不存在直接就能用的模型,一定是要和你的系统本身写好的 API 接口交互的,
    你的想法错误,那么现在有没有类似的交互模型例子,是有的,比如 openai 出的 operator, 国内智谱的 glm-pc, 你训练就不要想了,你自己做不到的,基于国内 cogagent 的几个小模型 做一些 GUI 界面交互 是可行的,不过你先多研究研究吧。
    312ybj
        13
    312ybj  
       40 天前
    通过指令模型,将你输入的“给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息” 推理出特定的槽位信息:省份 颜色 品牌 , 在得到信息去数据库检索, 能做的就是收集指令数据,进行训练,然后进行 case 回归
    mightybruce
        14
    mightybruce  
       40 天前   ❤️ 1
    前面的多数人的回答基本都是答复所问, 有能力开发的用 cogagent , 没能力的问问 glm-pc 合作。
    annilq
        15
    annilq  
       40 天前
    应该是可以的,而且现在大模型都有 Tool Call 功能,也有些 text-to-sql 模型
    或者也可以看看 claude 出的 mcp 协议例子,可以直连 sql 的,但是查出的数据的准确性和提示词关系很大
    hss01248
        16
    hss01248  
       40 天前
    你就说快不快吧....
    hss01248
        17
    hss01248  
       40 天前
    @hss01248 回复错帖子了...
    JoJoWuBeHumble
        18
    JoJoWuBeHumble  
       40 天前
    @a526796017 因为你对数据要求百分百准确,function call 反而是靠谱的方式。
    fano
        19
    fano  
       40 天前
    你需要调用大模型构建 Agent ,dify.ai 等工具就是满足这类需求的。
    自然语言的问题提交给 AI ,AI 理解后返回调用 ES API 的参数,本地程序执行,获得执行结果。
    可以参考 Google 的 Agent 白皮书。

    https://ppc.land/content/files/2025/01/Newwhitepaper_Agents2.pdf
    Haku
        20
    Haku  
       40 天前
    不要通过 AI 进行这种需要准确数据统计的活。
    你可以让 AI 通过写代码的方式去查询你需要的条件。哪怕不写 SQL ,直接写 python 、c++、java 然后运行去查都比让他全文检索靠谱。
    siaronwang
        21
    siaronwang  
       40 天前
    textToSql
    visper
        22
    visper  
       40 天前
    不行的。大模型做不到你说的那种。合适的方式是让它根据用户的话给你生成 sql,或者说查询条件,通过 json 返回来再通过程序调用数据库或者 es.
    iyaozhen
        23
    iyaozhen  
       40 天前
    你这个场景专业说法叫 text to sql ,算是比较成熟了 https://python.langchain.com/docs/tutorials/sql_qa/
    farah9
        24
    farah9  
       40 天前 via iPhone
    高看 llm 了,先了解下原理吧。
    zoharSoul
        25
    zoharSoul  
       40 天前
    这就是正常的向量搜索啊
    amlee
        26
    amlee  
       40 天前 via Android
    你这种场景如果结合 llm 做就是 function call ,es 都没必要,直接关系型数据库就行了
    datoujiejie221
        27
    datoujiejie221  
       40 天前 via iPhone
    你这不就是 chatbi 的智能问数功能吗?可以看看腾讯开源的 chatbi 项目 https://github.com/tencentmusic/supersonic
    huzhizhao
        28
    huzhizhao  
       40 天前
    function call 会靠谱不少
    LLM 没那么强
    capric
        29
    capric  
       40 天前
    这不就是 sql 精确查找 + quickwit-oss/tantivy 全文索引的事件吗,完全可以不要 llm 啊,如果要 llm 的话,就是用 llm 来生成 sql + tantivy 查询语言
    ymcj001
        30
    ymcj001  
       39 天前
    需要用到的是 LLM 的自然语言理解能力和上下文推理的能力。用户的第一次提问很难直接获得他想要的答案,用户可能需要多次询问才能得到想要的结果数据
    joetao123
        31
    joetao123  
       39 天前
    RAG 做不了这个功能,text 2 SQL 可以实现。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 02:08 · PVG 10:08 · LAX 19:08 · JFK 22:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.