有什么 AI 应用平台可以支持多模态模型、带图提问检索的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

需要构建一个硬件设备维修 RAG 应用，可以通过拍照传图+文字描述、纯拍照传图、纯文字描述等方式，让应用根据知识库内容来回答设备可能出现什么故障并且如何检查和维修。

目前的主要问题点就是在于图文混合，用户提问可能只是拍照，也可能是拍照和文字描述等。我已经看了 coze 、dify 、ragflow 等，多少都有点受限或者不支持。

有没有实践成功的兄弟姐妹。。多模态模型选什么好？用不用开源的 AI 应用平台？还是说图和文分开处理的、不在同一个向量空间里存储？

8 条回复 • 2025-08-29 17:03:32 +08:00

longredzzz

29 天前

多模态的话，现在应该没有比 gemini 更好的选择了吧。

miaoblyat

29 天前

qwen 有多模态模型可以图片视频加文本提问

zcf0508

29 天前 via Android

glm 4.5v

dandankele

29 天前

主要是各位有没有具体的实践啊，选了多模态模型之后，开源的 AI 工作流平台选哪个，coze 貌似还不支持多模态模型，dify 好像仅能用 gemini ？ ragflow 中添加了工具之后就无法分析上传的图片。。。

tanglindan6

PRO

29 天前

https://imini.com/ iMini AI 新上的

razertory

29 天前

感觉要拆成两个问题。
1. 多模态检索，比如搜图，这个有非常多的方案。但是要把图片向量到 RAG 系统，得有专门的实践。
2. 多模态对话，也就是上传图片，这个就是头部几家公司的模型做得不错。

GotKiCry

29 天前

Dify 接 Gemini 应该是可以达到要求的

lizy0329

29 天前

只有豆包了