低压配电行业,目前想到的 AI 场景包括:智慧运维(类似知识问答)、设备健康体检报告、用电节能趋势分析。不知道应该哪些开源大模型能同时干以上的事情。 训练或者微调模型大概需要什么样的硬件设备,还有需要什么量级的基础数据集,一般怎么能得到这些数据?
1
javazero 1 天前 1
你这个是要干什么的?真要做点东西出来还是哄领导的?
哄领导不建议碰微调。 |
2
qlozin 1 天前 1
huggingface 逛一逛,里面有很多模型,比如 Qwen 的,文档里会说建议使用什么硬件设备进行微调,7B 的微调尚可用游戏卡玩玩,真微调就得酷酷花了。建议哄哄领导得了。
|
4
faceair 1 天前 1
很简单的场景,调优一下提示词即可,不用微调 找个 qwen2.5 72b 的 api 在你的实际场景试试
|
5
summerwar 1 天前
直接问 AI ,他能给你列一张单子
|
7
tuotu 1 天前
感觉你这个一个模型搞不定,场景太复杂,定制化感觉也不少
|
8
RandomJoke 1 天前
设备健康体检报告、用电节能趋势分析这个俩场景似乎和 AI 都没关系吧。。
|
9
RandomJoke 1 天前
@wzl0904 那就是蹭概念,做个 RAG 和插件调用 API 就行了,别整什么微调
|
10
skallz 1 天前
像楼上说的,建议哄领导为主,还有像什么报告和分析,这种根本用不到大模型,就是一些数据分析而已,当然我以前的公司也会把这种数据分析对外吹什么 ai 之类的,你也可以这样和领导吹
|
11
wzl0904 OP 我看垂直大模型的概念就是在通用大模型的基础上进行微调 这个是不是一般小公司干不了啊 硬件和数据集是不是问题点所在啊
|
12
skallz 1 天前
另外还有什么知识问答或者什么咨询建议之类的,这种我也碰过,就是检测关键词给提前准备好的文案就行,当然公司也吹是 ai ,哈哈哈哈
|
13
312ybj 1 天前 1
简单的问答,走 rag ,外挂一个开源模型就行,比如 qwen 7b 。 如果涉及到训练微调, 你先得先收集数据集, 租算力设备训练,这个就没边了,自己肯定干不成。 你们领导也是拍屁股决定的,最简单的就是做个 RAG ,弄个开源模型,也还能蹭个边, 算力设备的话,我们一般给客户部署都是 4 卡 4090, 当然小模型 1 张 4090 也够了, 上个量化版本
|
14
acorngyl 1 天前
你这是两个需求,知识库是 LLM ,智能诊断和趋势分析是数据分析里的机器学习。
机器学习的东西,可以找几个回归模型跑跑,无所谓。 至于 LLM 的微调,如果老板没有掏出 400 个 w 买 H100 的想法,别碰!你说个人玩玩,弄个 M4 Max 调个小模型,也能玩儿。但是,你项目真上线了,sb 领导还是不是你兄弟,就不好说了。 |
15
skallz 1 天前
@acorngyl 其实很多老板只是想要吹个 ai ,具体实现完全不需要机器学习,像我上面说的,数据分析写几个接口搞定,知识库检测关键词预设一些文案即可,这种东西不到一个月就能搞定了,对外吹 ai 别人也不会较真你到底有没有用真 ai ,哈哈哈哈
|
17
skallz 1 天前 1
@wzl0904 那也很简单,搞个轻量开源模型,用来处理比如数据分析处理中的数据加减之类的最终结果的简单处理就行,我估计需要相关代码是因为要申请软著,代码需要暴露一部分,也是蹭蹭边就行,以前玩多了这种操作
|
19
wzl0904 OP @RandomJoke #8 开始也觉得这个和语言大模型没啥关系 但是看好多垂直领域的大模型都是吹的这方面的能力 这个是不是和多态大模型的一个方面啊 逻辑推导计算能力之类的
|
20
hustwmy 1 天前 via iPhone 1
可以试试部署 Dify 和开源大模型(如 qwen-2.5 ),dify 很易用,可以快速接入自己的知识库和调 prompt ,还有工作流模式可以集成自己开发的代码
|
21
freetstar 1 天前 1
可以参考下已经成功商用的一些公司在做什么,比如说上市的两家公司
第四范式和创新奇智 https://www.4paradigm.com 在第四范式的官方的 4Paradigm SHIFT 部分 我觉得和你描述接近的应用案例 |
22
okoklll 1 天前 1
如果是正式的企业级应用,建议用个 72B 左右的效果会比较好,可以考虑 Llama 。
微调的数据大概需要几万到几十万条左右。一般来源有三类:企业内部数据(各种文档,PDF ,表格等),外部购买的数据和生成数据。另外数据清洗的工作量巨大,要提前考虑好。 |
23
RandomJoke 1 天前
@wzl0904 现在就是大部分垂直领域在硬蹭概念。。。明明和大模型 AI 没什么关系
|
24
BreadBig 1 天前 1
部署完 Dify+ollama 就可以开始调研了,我也是相似行业,最近调研完的体会:
LLM 在这种业务场景会有点用,但用处不大,只能想办法用在内部提效,这样的行业目前很难直接交付 AI 的价值给到客户,务实的客户也不一定认可这个效果 |
25
wzl0904 OP @BreadBig #24 研究了一下确实 Dify+ollama 比较贴合使用场景 不知道完全离线部署使用 qwen2.5 72b 这种模型 是否和调用在线 api 效果是一样的? 感觉是不是在线和离线使用效果是不一样的
|
27
javazero 1 天前
@lizhisty
从硬件角度来看,微调的成本跟推理相比至少是 5 倍以上。 从投入的时间角度来看,至少也差了一个数量级了。而且遇到的问题也会多很多 所以为了哄领导 不值得把自己的时间 and 好心情搭进去。未来想让工作看起来更 solid 的一点再去尝试微调也可以 |
28
huluhulu 1 天前
不要碰微调!
不要碰微调! 不要碰微调! |