国产 AI 推理服务器的适配难易程度问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 233 天前的主题，其中的信息可能已经有所发展或是发生改变。

上文： https://v2ex.com/t/1032607#reply7

鲲鹏 920 * 2/ 512G 内存/20T 固态 / 昇腾 Atlas 300I Pro 24GB * 4 的价格 30W+

海光 7360 * 2 / 512G 内存 / 20T 固态 / 寒武纪 MLU370-S4 24GB * 4 价格 17W+

另外就是机箱、电源、光模块、网卡之类的了。

我们用到的模型就是这些：

Yolov8 目标识别 Opencv ocr scrfd partial_fc yolov8-seg

经过痛苦的对比和问价，现在决定采购，领导让评估一下算法移植需要的时间。

苦于团队没有做过国产适配，没有经验。

来问问有没有兄弟做过适配的，这些算法做完适配大概要多久

20 条回复 • 2024-04-25 11:29:27 +08:00

dododada

233 天前

还有兄弟做过的啊

clemente

233 天前

适配都是 AI 芯片厂商帮你们适配啊你们负责验收

dododada

233 天前

@clemente 怎么可能，设备都是从渠道商采购，又不是直接从华为寒武纪零买，零买的价格也不是这样子啊

forblackking

233 天前

搞的不多给不了经验，一年多前参与过 OCR 适配昇腾 NPU ，当时评估是一个半月的适配时间，最后时间翻了好几倍且耗时与精度都劣化不少。最大的感触与上个帖子 5L 说的一样，适配的难易度取决于哪一家的工程师愿意配合你解决问题，当时由于甲方是政府部门最后拉了个微信群推动，不然就老老实实提 issue 等回复。

kwater

233 天前

1 硬件
2 软件
3 系统集成商

你们想自己做 3 ，或者想省下 3 的钱。

对性能没需求，只求有这套东西，不会真的应用上线，开箱即用问题可能不大，
但性能微调，怎么也要个 team 吧

huigeer

233 天前

所以直接买 nv 还是不行？

aeron

233 天前

@huigeer 国内现在国企央企在搞国产化，基本都不采购 nv 了

mirrorman

233 天前

@forblackking 推理适配都这么麻烦吗？推理一般就是几个算子适配，相对于训练来说很单一

forblackking

233 天前 via Android

@mirrorman 大概率是适配的比较早的原因文档和样例不全，踩了各种模型转换和 Pipeline 的坑，最搞的是文档上有的功能不能复现一问才知道是在内部开发版驱动里没正式发版。。。

dododada

232 天前

@forblackking 这么烦的么

dododada

232 天前

@kwater 现在的算法团队只做过昇腾的调研，时间很短

dododada

232 天前

@huigeer 不行啊，很多工厂都开始国产化了

dododada

232 天前

@kwater 对性能有要求，要求还不低。。。

hgert

232 天前

找国产 ai 推理卡厂商评估报价吧省事让领导出点血就行

twosix

232 天前

@forblackking 确实我们也遇到过，也是拉着华为的工程师一路查一路修，倒是弄好了之后还挺稳定..不过有几个问题反馈了一直也没修复..直到之后版本都不维护了

dododada

232 天前

@hgert 报价不是有么，一个 30W+, 一个 17W+

waringid

232 天前

鲲鹏的 CPU 是 arm 架构，海光用的是 X86 。涉及算法移植海光的架构理论上比鲲鹏的要容易

dododada

232 天前

@waringid 海光自己也有 gpu ，基于 amd 的，据说可以无缝移植，但是性能实在是拉跨，而且最新款的也没见到哪个供应商有货

dododada

232 天前

还有个问题，现在两张 4090 ，

华为官网展示昇腾 Atlas 300I Pro 24GB 的算力是 140 TOPS INT8 ，70 TFLOPS FP16

这个大概要几张才能顶的上 4090 的算力呢？

如果用英伟达的 T4, P4 什么的，我们有对标的产品，能评估出来，这个国产算力没法儿弄了

trungdieu031

230 天前

建议如果不是强制必须用国产的话，还是上英伟达的卡好点。昇腾上适配模型会让你适配到怀疑人生，尤其是项目交付有固定期限的情况下...