V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
rmrf
V2EX  ›  程序员

这个推理速度也太快了吧! chatjimmy.ai 比查 db 都快啊!

  •  
  •   rmrf · Feb 21 · 8705 views
    This topic created in 70 days ago, the information mentioned may be changed or developed.

    chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ,搭载 Llama 3.1 8B 模型,性能达每用户 17,000 tokens/秒,较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式,存在轻微精度损失,但第二代产品将采用标准 4-bit 浮点格式,进一步优化性能。”

    65 replies    2026-02-25 20:08:24 +08:00
    renfei
        1
    renfei  
       Feb 21
    试了下,快是快,智商不太够,很多逻辑题答案给出的错误的
    rmrf
        2
    rmrf  
    OP
       Feb 21
    @renfei 是的,精度不行,但这推理速度,让很多事情很有想象力了。尝试了一下大段翻译,超级快,而且基本正确。
    cyp0633
        3
    cyp0633  
       Feb 21
    试了一下翻译任务,很难说是精度问题还是模型本身能力不行,只能说都不可用
    wew3
        4
    wew3  
       Feb 21
    让我想起了岳云鹏的相声
    maolon
        5
    maolon  
       Feb 21
    我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了, 没想到这个更夸张
    Leeeeex
        6
    Leeeeex  
    PRO
       Feb 21 via Android   ❤️ 14
    「别管对不对,就说快不快吧」?
    catazshadow
        7
    catazshadow  
       Feb 21 via Android
    大暴死的节奏,AI 的死穴是正确性,不是傻快
    rmrf
        8
    rmrf  
    OP
       Feb 21
    @catazshadow 这才开始,后面慢慢优化起来,很有想象力啊。
    duty
        9
    duty  
       Feb 21
    正确性是靠模型的,这个只是证明了一个方案的可行性,就是把模型直接写入到芯片中,忽略了内存和带宽的限制
    coderluan
        10
    coderluan  
       Feb 21
    确实快的有点夸张,有些场合确实有用,感谢楼主,新年祝大家也都这么快🐶
    catazshadow
        11
    catazshadow  
       Feb 21 via Android
    @rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

    https://www.cerebras.ai/blog/openai-codexspark

    这么大的东西能跑每秒 1000token ,比这个小的要么比它傻要么比它慢
    CodFrm
        12
    CodFrm  
       Feb 21
    「别管对不对,就说快不快吧」


    77158158
        13
    77158158  
       Feb 21
    瞎回复的。只管快,不管对。
    CuteGirl
        14
    CuteGirl  
       Feb 21
    除了快 其他都不行 回答要么无法回答 要么就是不知所云 - -!
    B4a1n
        15
    B4a1n  
       Feb 21
    @catazshadow #11 确实,我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译,写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ,直到满足我的需求为止,硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了,完全是用速度跟大 token 换出来的
    i386
        16
    i386  
       Feb 21 via iPhone
    @CodFrm 哈哈哈
    xing7673
        17
    xing7673  
       Feb 21
    节点换到 [推广] 请
    Tink
        18
    Tink  
    PRO
       Feb 21
    不行,精度太差了

    Gilfoyle26
        19
    Gilfoyle26  
       Feb 21
    1351253123*31388993624+12312424/35123512314234=354362455345523454

    先别管对不对,你就说快不快吧!
    Ccf
        20
    Ccf  
       Feb 21

    魔咒了!
    Ccf
        21
    Ccf  
       Feb 21


    魔咒了!
    LUO12826
        22
    LUO12826  
       Feb 21
    V 站这些人真是程序员么,碰到什么新产品都要先看衰一番,就不能先看看人家产品的目标和理念是什么吗。
    guzzhao
        23
    guzzhao  
       Feb 21
    YanSeven
        24
    YanSeven  
       Feb 21
    这个放出来比较的意义不是很大啊,这个 demo 也确实只能说明快,比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么,可以坐等一手类似 GTP2——>GPT3 的跨越。
    xiaotianhu
        25
    xiaotianhu  
       Feb 21
    @catazshadow #7 能干很多事儿了,要求不高的翻译,初筛审核,简单内容总结,而且这只是 demo 说明路径有戏,想象力大的很
    catazshadow
        26
    catazshadow  
       Feb 21 via Android
    @xiaotianhu 8B 的模型,真的算了吧。自己用 ollama 玩一玩就知道了
    seven777
        27
    seven777  
       Feb 21 via iPhone
    “ 较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍” !!!
    seven777
        28
    seven777  
       Feb 21 via iPhone
    @LUO12826 V2er 都不太习惯盲从。
    icyalala
        29
    icyalala  
       Feb 21   ❤️ 1
    小模型能力不强,但对于文本分类、意图判断、简单翻译之类的场景完全够用,低延迟大并发很有用
    怎么上面这么多人,先不去想想有什么适用场景,一上来就批判一番...
    june4
        30
    june4  
       Feb 21
    以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢
    Dream4U
        31
    Dream4U  
       Feb 21
    哈哈,嘛玩意
    Muniesa
        32
    Muniesa  
       Feb 21 via Android
    不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了
    Dream4U
        33
    Dream4U  
       Feb 21
    @LUO12826 至少能用吧,你啥用都没有,就吹上了,意义是啥?
    realpg
        34
    realpg  
    PRO
       Feb 21
    很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
    就是矿机的思路 不一定哪天就震撼发布了
    WuSiYu
        35
    WuSiYu  
       Feb 21   ❤️ 9
    难绷楼上几乎没一个在讨论技术的。。。
    搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user

    确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。

    但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm² ( TSMC N6 ),要知道 4090 才 600+mm² ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram:

    https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png

    评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事
    paopjian
        36
    paopjian  
       Feb 21   ❤️ 1
    @WuSiYu 看起来这玩意的原理就是固化权重以后一条线运算, 和以前有个类似的思路<A spatially varying nanophotonic neural network for optical computation in flat camera optics> 光路模拟权重, 比这个还超前, 这个还现实一点, 但是代价就是超大面积 极小权重, 换来的只有超速 token, 对于融资是比较理想的, 毕竟可以给军方和私密计算使用, 但是普及是有难度的, 迭代太慢
    LUO12826
        37
    LUO12826  
       Feb 21
    @Dream4U #33 人已经说了是 8B 的模型,相比现在的在线大模型肯定是智障一般。但可以想象在手机、低功耗设备、机器人这种场景下作为端侧处理简单任务的小模型很有潜力。
    想感叹一下,比如 chatGPT 刚上线时,本坛很多人对 AI 写代码嗤之以鼻; cursor 刚上线时,很多分享贴下有人质疑是推广。作为偏技术的论坛,怎么很多人都不会用发展的眼光看问题呢。
    kkwa56188
        38
    kkwa56188  
       Feb 21
    道理都懂,
    但是你这 8B 做出来 还说给 "机器人这种场景下作为端侧处理简单任务", 那我是真的害怕你的机器人
    slowgen
        39
    slowgen  
       Feb 22
    这才第一款,刻了个老得不行的 LLama3.1 8B ,要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了(对话模式下写 Go 的准确性很高)。

    如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型,甚至 196B 的 Step-3.5-Flash ,整机定价低于 3 万都算白菜价了(对比苹果官翻的 M2 Ultra 192GB )。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。
    sing4zy
        40
    sing4zy  
       Feb 22
    这对于 skill 有一个设计趋势,如何用低精度暴力高速,去更快达到最终更高准确定和更强的推理能力,这其实本身就是一个提高准确度方向,现在有了高速和廉价加持,应该会成为一个有吸引力的方向
    fbcskpebfr
        41
    fbcskpebfr  
       Feb 22 via iPhone   ❤️ 1
    也不是啥创新,发布即落后,外国去年就搞出来硬件 120B GPT OSS 了,近 25 万 token/s

    https://arxiv.org/abs/2508.16151
    catazshadow
        42
    catazshadow  
       Feb 22 via Android
    才 8B 模型就比 4090 大了,还是那句话,大暴死的节奏🤣
    EasonYan
        43
    EasonYan  
       Feb 22
    说是成本下降 20 倍,可是从来都没有公布成本是多少啊
    satoru
        44
    satoru  
       Feb 22
    @catazshadow cerebras 确实快,我发现他们家封中国 IP 是靠 Cloudflare 做的,不像其他家有自己的页面
    Esec
        45
    Esec  
       Feb 22 via Android
    有点几十年前显示加速卡刚出来的那个感觉了,看网友说功耗要 200w 还意外的有点神奇,就是现在晶片订单被通用 ai 算力包圆的时代这些小玩意不好铺开呀
    dismantle
        46
    dismantle  
       Feb 22
    大模型快应该不是第一性吧, codex 比 claude 慢很多, 还是大把人用
    WuDiHaiTai
        47
    WuDiHaiTai  
       Feb 22
    @LUO12826 #37 程序员就更应该怀疑,毕竟 Talk is cheap, show me the code.
    要怪就怪前人把 AI 泡沫整太大了,虚无缥缈的东西,谁家出产品不吹几句求投资,我对 AI 的 Prejudgment 就是唱衰。真像楼里面说的,gpt2==>gpt3 ,有目共睹,谁都看得见摸得着的,怎么唱衰? cursor 拿出成果,大家都老老实实闭嘴就完了,当初唱衰 cursor 的人最后不也得支持吗?我当初唱衰 Deepseek ,后来也充 API 了,因为我看到了成果,而先前对着一排“服务繁忙,稍后再试”我真的看不到前景在哪。

    前段时间看了个灰产分享,买一堆老服务器成立公司去银行拉贷款,说自己做 AI 算力出租的,自己有独家技术,前景不可限量,作为银行去实地考察,谁能看出来他是真的还是假的?所以在拿出成果或者可信方案之前,不要对任何一个 AI 项目有好感。
    YsHaNg
        48
    YsHaNg  
       Feb 22
    AIDR
    Leeeeex
        49
    Leeeeex  
    PRO
       Feb 22 via iPhone
    基础原理不太懂,是不是和 groq 差不多
    Dkphhh
        50
    Dkphhh  
       Feb 22
    我测试了一下中译英的能力,至少这个翻译水平是 OK 的,没有啥大问题,就翻译这个场景来说,可用性相当高了。
    raycool
        51
    raycool  
       Feb 22
    这种流片成本不是一般的高吧,不可修改,不可训练
    rmrf
        52
    rmrf  
    OP
       Feb 22
    今天看到 https://www.anuragk.com/blog/posts/Taalas.html 这里讲的:技术原理

    1. 固定功能 ASIC 架构
    Taalas 的芯片是一种固定功能 ASIC (专用集成电路),类似于 CD-ROM 、游戏卡带或印刷书籍——只能运行一个特定模型,无法重写。
    他们将 Llama 3.1 的 32 层网络结构直接蚀刻到硅片上,模型权重成为物理晶体管,而非存储在内存中的数据。

    2. 突破"内存墙"
    传统 GPU 的瓶颈:GPU 需要从 VRAM/HBM 反复读取每一层的权重矩阵,进行计算后将中间结果存回内存。这种频繁的内存读写造成延迟和能耗(即"内存墙"或冯·诺依曼瓶颈)。
    Taalas 的方案:输入向量直接流入第一层物理晶体管,通过他们发明的"魔法乘法器"(单个晶体管实现 4-bit 数据存储和乘法运算),电信号通过物理导线直接流入第二层,依此类推,直到生成最终 token 。无需外部内存来回搬运数据。

    3. 芯片制造策略
    他们设计了带有大规模通用逻辑门和晶体管网格的基础芯片。
    针对特定模型,只需定制最上面的两层光罩即可,无需从头制造芯片。
    为 Llama 3.1 8B 开发专用芯片仅用了 2 个月——在 AI 领域虽显漫长,但在定制芯片领域已属极快。

    4. 内存使用
    不使用外部 DRAM/HBM ,但包含少量片上 SRAM:
    存储 KV Cache (对话的上下文窗口)
    支持 LoRA 适配器进行微调
    restkhz
        53
    restkhz  
       Feb 23   ❤️ 2
    楼上很多 v2 貌似不知道什么是 ASIC...
    这家不是在做计算芯片,而是简单粗暴的把模型权重全写到一个芯片里。比起来搞什么计算核心,取指令,做计算,访存,流水线,分支预测那一套,这玩意直接按位连线就行。要加 0 芯片上直接连线,要加 1 就取反,加法器都省了。乘偶数直接靠位移就好。又快又省电。

    目前权重太多铺不下,但是工艺和布线如果还能优化,塞个大点的模型,4bit 量化,很有前景啊。
    如果一个芯片不够大,那就搞多个芯片,之间数据交换做好,应该能快速跑更大更精良的模型。

    如果这个搞起来了,可能对 Nvidia 不会是好消息。训练还是 Nvidia,可能跑模型的机房就不需要那么多 GPU 了。以后 AI 竞争可能更多会跑到模型那里。
    Token 价格可以进一步被打下去。

    楼上骂的都是 Llama 3.1 8B 在 3bit 量化下的表现,和这个技术无关。
    slert
        54
    slert  
       Feb 23
    有点像加密货币矿机的发展路线,但那个领域快就是一切,并且算法不变。
    但快得那么突出一定还是有应用场景,现在问题就是多久能装下更大、可用性更好,乃至全尺寸的模型,并且成本可控。
    rmrf
        55
    rmrf  
    OP
       Feb 23
    @restkhz 是的,非常赞同,这个技术绝对是 2026 年非常非常有重量的,非常有想象力的做法。

    想想一下,那些对速度有非常高要求的垂直场景:高速行驶的汽车、具身机器人的大脑的部分功能(或者小脑)

    另外据我了解,中国的公司因为 llm 训练 gpu 技术不行,其实一直都在押宝 ASIC 芯片路线的。
    iugo
        56
    iugo  
       Feb 23
    今天 AI 还告诉我, 人脑的存算一体, 性能是目前计算机的千万倍.
    mewking
        57
    mewking  
       Feb 23
    @slowgen 有木有测过 MiniMax 2.5 ? Qwen3-Coder-Next ,Step-3.5-Flash ,这三个 code 和 agents 能力比较起来如何?

    龙虾用来本地不知道怎样

    去年有段时间感觉国内开放权重模型都快追上御三家了,最近又被甩远了
    hopeofsteadylife
        58
    hopeofsteadylife  
       Feb 24
    db 是啥 都在外网了不要搞这种简拼
    rmrf
        59
    rmrf  
    OP
       Feb 24
    @hopeofsteadylife 。。。其实我这里 db 就是简单的 数据库 (database) 的意思,就是:比数据库检索数据还快。
    latifrons
        60
    latifrons  
       Feb 24
    看到这个想法的时候惊为天人,试了一下大有可为。以后可能每台机器上都会有一个明码标价的可插拔智能 AI 芯片了……矿机行业迎来第二春,谁不想本地跑一个 Opus !
    EspoirBao
        61
    EspoirBao  
       Feb 24
    这才是真“电脑”
    64wish
        62
    64wish  
       Feb 24
    除了快一无是处,我问它 66 年,它给我回 56 年
    lneoi
        63
    lneoi  
       Feb 25
    那么早的 8B 模型,不指望回答能有多好了,速度确实很好
    slowgen
        64
    slowgen  
       Feb 25   ❤️ 1
    @mewking code 的能力差不多(仅针对我的 Go 和 TypeScript 需求),agent 的话 Qwen3-Coder-Next 差一点。
    最近在搞创意类的东西,Step-3.5-Flash 的创意非常差,MiniMax M2.5 好很多。

    现在的模型根本测不完……今天凌晨 Qwen3.5 中等型号发布,Qwen3.5-35B-A3B 直接打上一代 235B ,4bit 量化还几乎无损,太夸张了……去年还有很多项目是基于 235B 跑的,现在成本直接暴降了,等年底这个尺寸的模型不知道又能暴打什么了。

    试想一下今年年初的 Qwen3.5-397B-A17B 水平的模型明年被 35B 尺寸的模型打,还被刻到本贴的芯片里,直接上万 token/s 输出的话,都不敢想能拿来做什么。
    mewking
        65
    mewking  
       Feb 25
    @slowgen 希望 deepseek 大招赶紧憋出来,开放模型阶段性的领先一下,然后各家蒸馏一波小杯,中杯

    从前两天 anthropic 的发言看,他家最怕的还是 deepseek
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   866 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 140ms · UTC 23:01 · PVG 07:01 · LAX 16:01 · JFK 19:01
    ♥ Do have faith in what you're doing.