shuimugan 最近的时间轴更新
shuimugan

shuimugan

V2EX 第 83209 号会员,加入于 2014-11-23 14:34:54 +08:00
今日活跃度排名 4475
根据 shuimugan 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
shuimugan 最近回复了
3 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
https://item.jd.com/100007630859.html 联想自家笔记本 ddr4 内存,我的 r7000p 5800h 就是塞了 2 条这个凑的 64g
3 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
@yumozero 客服懂个锤子,有时候厂商也是瞎写的,在 xps 自家页面写主持 32g 的时候我就上到了 64g 。你这款可以直接上 64g 。我就是这款,5800h+6600m 是吧,或者 5800h+3060
3 天前
回复了 yumozero 创建的主题 程序员 选什么当开发机比较好?
把你游戏本的具体型号发出来,有 2 个插槽不一定只支持到 32g 。
拿 2080ti 22g 跑 13B 8bit 量化,都能跑 30token/s 甚至更快。
准备好钱买第二块显卡或者换 2 张 7900XTX 跑 34B 的吧。
很明确告诉你 13B 级别,如果不是特别训练单一领域的,那么就是一个弱智。
比如最近最近新出的 StarCoder2 ,号称涵盖 619 种编程语言,我下载下来问几个语言、常用编程库、数据库之类的版本信息,15B 的训练数据落后 6 年,7B 的落后 9 年。

显卡显存不够内存来凑的内存回退机制不用看了,屎中屎,无论是玩画图还是玩 LLM 推理都是教你关掉的。

引用别人的回复
“生成式大语言模型的推理过程就是先把模型本身加载到运存,然后每生成一个字都需要把整个模型遍历访问一遍,所以决定速度的就是运存带宽(预训练或者微调时需要计算能力,但推理时几乎不需要,就是沿着预训练好的权重选择下一步路径,所以哪怕 1060 配上 48G 显存也是推理神器)。比如 7B 模型的 8 位量化版本,每个权重占一个字节所以就是 7G 大小( 7B 参数是指有 70 亿个权重,8 位量化是指每个权重用 2 的 8 次方表示就是有 256 种下一步的可能,也就是占用 1 比特的空间,同理目前性价比最高的 Q4 量化就是 3.5G ),如果是加载到 4090 的显存,因为它的 GDDR 显存带宽是 1000GB/s ,那么生成速度就是 1000 除以 7 大概每秒 140 个字(词元);如果是纯 CPU 推理,加载到 DDR4 的内存,带宽大概 30GB/s ,那么推理速度就是 30/7 大概 4 个字每秒”

内存堆高优势不大,ddr5 双通道带宽也就 70 ~ 100GB/s ,是 4090 的 1/10 。所以在 reddit 上可以看到 96 核跑 13B 的推理速度几 token/s 的景象。
现在优化手段就是把模型合理拆分,不活跃的丢 CPU ,活跃的丢 GPU ,既要避免 cpu 在围观 gpu 干活,又要避免 cpu 因为内存瓶颈干活慢,比如 https://github.com/SJTU-IPADS/PowerInfer

我每个月下载几百 G 的模型来测,用 M2 Ultra 192GB 玩了 3 个月了,最近就是因为它跑大模型的时候 cpu 不干活,我看不下去它在摸鱼,本来丢货架上不接显示器的,现在都接上显示器拿来写代码了。


附:本地模型写代码能力排名 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard
和 Rocket.Chat 很像,本地跑起来看看就懂了 https://github.com/RocketChat/Rocket.Chat/blob/develop/docker-compose-local.yml
本地跑不起来的项目,搞不好触发一个逻辑要找好几个人。
本地能跑起来的项目,想加断点就加断点,想加 hook 就加 hook ,想复制流量就能复制,数据库甚至是虚拟机随时可以备份和还原环境,效率贼高,谁还想碰那些效率巨低的东西。
10 天前
回复了 Davic1 创建的主题 程序员 腾讯的蓝鲸运维平台,真的好用吗?
蓝鲸的代码就是一坨屎山,我第一次见一个系统同时用了 3 个消息队列和 2 个数据库,就是不同部门的产品强行缝合出来的怪物。
还有那个 cmdb ,我上一次看它有六千多个提交,跑起来还强耦合它其他系统,功能也没见有多丰富,很多提交都是"添加 xx 查询条件"和"xx 接口支持了 xx 字段",拿个 directus 建模拉个字段 2 天就能完成 cmdb 里 90%的功能。
11 天前
回复了 KisPower 创建的主题 生活 和父亲彻底闹僵了!
https://www.bilibili.com/video/BV18S421P7uM 看看这个。
觉得不爽就拉黑,不见,不要被道德绑架,每个人都应该为自己而活。
@xiaoshu 1c2g 能到这个 QPS ,挺接近 http 库裸跑 hello world 性能了,达到这个性能应该是 https 流量在上层卸载了(印象中腾讯云分享过服务器装 ssl 加速卡来优化),加上服务器的 cpu 指令集优化,网关层自身业务应该不重。
腾讯云那个 api 网关有用过,印象中扩展都是通过 serverless 的,这样看应该是把 cpu 计算都尽可能抛出去了,响应结果压缩这块应该也不是这一层做的吧?
这个网关现在部署在什么规模的集群上?最小的那个节点能抗多大的并发,占用多少资源?
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5804 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 03:17 · PVG 11:17 · LAX 20:17 · JFK 23:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.