请教各位 AI 大模型大佬，公司让调研垂直领域 AI 大模型的应用可行性，不知道如何入手

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 256 天前的主题，其中的信息可能已经有所发展或是发生改变。

低压配电行业，目前想到的 AI 场景包括：智慧运维（类似知识问答）、设备健康体检报告、用电节能趋势分析。不知道应该哪些开源大模型能同时干以上的事情。训练或者微调模型大概需要什么样的硬件设备，还有需要什么量级的基础数据集，一般怎么能得到这些数据？

调研

可行性

29 条回复 • 2025-02-17 17:30:35 +08:00

javazero

256 天前

你这个是要干什么的？真要做点东西出来还是哄领导的？

哄领导不建议碰微调。

qlozin

256 天前

huggingface 逛一逛，里面有很多模型，比如 Qwen 的，文档里会说建议使用什么硬件设备进行微调，7B 的微调尚可用游戏卡玩玩，真微调就得酷酷花了。建议哄哄领导得了。

lizhisty

256 天前

@javazero 老哥，为啥哄领导不建议碰微调啊

faceair

256 天前

很简单的场景，调优一下提示词即可，不用微调找个 qwen2.5 72b 的 api 在你的实际场景试试

summerwar

256 天前

直接问 AI ，他能给你列一张单子

wzl0904

256 天前

@javazero #1 领导的意思是先把这个概念蹭上就可以对外宣传我们有 AI 大模型了但是具体程序里还要有这部分代码至于效果怎么样可以先不考虑

tuotu

256 天前

感觉你这个一个模型搞不定，场景太复杂，定制化感觉也不少

RandomJoke

256 天前

设备健康体检报告、用电节能趋势分析这个俩场景似乎和 AI 都没关系吧。。

RandomJoke

256 天前

@wzl0904 那就是蹭概念，做个 RAG 和插件调用 API 就行了，别整什么微调

skallz

256 天前

像楼上说的，建议哄领导为主，还有像什么报告和分析，这种根本用不到大模型，就是一些数据分析而已，当然我以前的公司也会把这种数据分析对外吹什么 ai 之类的，你也可以这样和领导吹

wzl0904

256 天前

我看垂直大模型的概念就是在通用大模型的基础上进行微调这个是不是一般小公司干不了啊硬件和数据集是不是问题点所在啊

skallz

256 天前

另外还有什么知识问答或者什么咨询建议之类的，这种我也碰过，就是检测关键词给提前准备好的文案就行，当然公司也吹是 ai ，哈哈哈哈

312ybj

256 天前

简单的问答，走 rag ，外挂一个开源模型就行，比如 qwen 7b 。如果涉及到训练微调，你先得先收集数据集，租算力设备训练，这个就没边了，自己肯定干不成。你们领导也是拍屁股决定的，最简单的就是做个 RAG ，弄个开源模型，也还能蹭个边，算力设备的话，我们一般给客户部署都是 4 卡 4090, 当然小模型 1 张 4090 也够了，上个量化版本

acorngyl

256 天前

你这是两个需求，知识库是 LLM ，智能诊断和趋势分析是数据分析里的机器学习。
机器学习的东西，可以找几个回归模型跑跑，无所谓。
至于 LLM 的微调，如果老板没有掏出 400 个 w 买 H100 的想法，别碰！你说个人玩玩，弄个 M4 Max 调个小模型，也能玩儿。但是，你项目真上线了，sb 领导还是不是你兄弟，就不好说了。

skallz

256 天前

@acorngyl 其实很多老板只是想要吹个 ai ，具体实现完全不需要机器学习，像我上面说的，数据分析写几个接口搞定，知识库检测关键词预设一些文案即可，这种东西不到一个月就能搞定了，对外吹 ai 别人也不会较真你到底有没有用真 ai ，哈哈哈哈

wzl0904

256 天前

@skallz #15 哈哈我也是这么想的但是老板强调吹出去之后确实我们要有大模型这些相关的代码和程序根本远离上要是大模型的东西

skallz

256 天前

@wzl0904 那也很简单，搞个轻量开源模型，用来处理比如数据分析处理中的数据加减之类的最终结果的简单处理就行，我估计需要相关代码是因为要申请软著，代码需要暴露一部分，也是蹭蹭边就行，以前玩多了这种操作

wzl0904

256 天前

@wzl0904 #16 原理

wzl0904

256 天前

@RandomJoke #8 开始也觉得这个和语言大模型没啥关系但是看好多垂直领域的大模型都是吹的这方面的能力这个是不是和多态大模型的一个方面啊逻辑推导计算能力之类的

hustwmy

256 天前 via iPhone

可以试试部署 Dify 和开源大模型（如 qwen-2.5 ），dify 很易用，可以快速接入自己的知识库和调 prompt ，还有工作流模式可以集成自己开发的代码

freetstar

256 天前

可以参考下已经成功商用的一些公司在做什么，比如说上市的两家公司

第四范式和创新奇智

https://www.4paradigm.com

在第四范式的官方的
4Paradigm SHIFT
部分

我觉得和你描述接近的应用案例

okoklll

256 天前

如果是正式的企业级应用，建议用个 72B 左右的效果会比较好，可以考虑 Llama 。
微调的数据大概需要几万到几十万条左右。一般来源有三类：企业内部数据(各种文档，PDF ，表格等)，外部购买的数据和生成数据。另外数据清洗的工作量巨大，要提前考虑好。

RandomJoke

256 天前

@wzl0904 现在就是大部分垂直领域在硬蹭概念。。。明明和大模型 AI 没什么关系

BreadBig

256 天前

部署完 Dify+ollama 就可以开始调研了，我也是相似行业，最近调研完的体会：
LLM 在这种业务场景会有点用，但用处不大，只能想办法用在内部提效，这样的行业目前很难直接交付 AI 的价值给到客户，务实的客户也不一定认可这个效果

wzl0904

256 天前

@BreadBig #24 研究了一下确实 Dify+ollama 比较贴合使用场景不知道完全离线部署使用 qwen2.5 72b 这种模型是否和调用在线 api 效果是一样的？感觉是不是在线和离线使用效果是不一样的

BreadBig

256 天前

@wzl0904 #25 一样的，本地部署就是隐私优先，但硬件成本高；云 api 就是节约成本按需付费，但数据会有泄露，类似云托管和本地机房是一个逻辑

javazero

256 天前

@lizhisty
从硬件角度来看，微调的成本跟推理相比至少是 5 倍以上。
从投入的时间角度来看，至少也差了一个数量级了。而且遇到的问题也会多很多

所以为了哄领导不值得把自己的时间 and 好心情搭进去。未来想让工作看起来更 solid 的一点再去尝试微调也可以

huluhulu

256 天前

不要碰微调！
不要碰微调！
不要碰微调！

godloveplay

202 天前

@RandomJoke #23 过个年老板们都被 deepseek 的自媒体内容轰炸了，开工就问好好思考一下能不能给制造业降本增效。