首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
分享发现
llama3 在 m3max 和 4090 推理速度
devlnt
·
2024-04-22 18:48:11 +08:00
· 2676 次点击
这是一个创建于 372 天前的主题,其中的信息可能已经有所发展或是发生改变。
mac:14 寸 m3max 40 核 GPU ,64G
pc: 12700+4090+64G
8b 模型,mac 大概是~50tokens/s,pc 是~100tokens/s (显存吃了 5G 多一点)
70b 模型,mac 大概是 8.8tokens/s(40G 左右内存), pc 是 1.8tokens/s(显存是 23G 左右+20G 左右的内存)
70b 模型,pc 速度慢大概是因为显存不够,如果换 6000 ada 的话,同等算力目测可以到 15tokens/s 。mac70b 的速度感觉跟 chatgpt4 的速度差不多,速度上相当可用了,但是准确性和记忆力跟 gpt4 还是不能比,中文能力 llama 也比较拉胯。对个人来说本地部署完全没必要,免费的用用完全够,不够就上 gpt4 ,开源闭源差距还是不小的
另外想听听各位对于本地大语言模型在企业内(传统行业,比如制造业 [包含但不仅限于] )的应用的想法
视频版可以去
llama3
推理速度
显存
1 条回复
•
2024-04-22 21:00:07 +08:00
1
fcten
2024-04-22 21:00:07 +08:00
前两天用 m3 max 跑 qwen 72b 基本也有 9 token/s 的样子。但是目前本地跑推理并没太大用,训练又肯定不够。只能说完全没有必要因为这个理由上 m3 max 。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
3753 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms ·
UTC 05:28
·
PVG 13:28
·
LAX 22:28
·
JFK 01:28
Developed with
CodeLauncher
♥ Do have faith in what you're doing.