V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
muzihuaner
V2EX  ›  分享发现

Grok-1 开源了

  •  
  •   muzihuaner · 256 天前 via Android · 3536 次点击
    这是一个创建于 256 天前的主题,其中的信息可能已经有所发展或是发生改变。
    3 月 18 日消息马斯克旗下 AI 初创企业 xAI 今天发布新闻稿,宣布正在开源 3140 亿参数的混合专家模型 Grok-1 ,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语言模型”可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100 (每个 80GB )就可以了。https://github.com/xai-org/grok-1
    23 条回复    2024-03-20 20:53:37 +08:00
    lilei2023
        1
    lilei2023  
       256 天前
    没几个牛逼的 GPU ,估计跑不起来吧
    muzihuaner
        2
    muzihuaner  
    OP
       256 天前
    @lilei2023 确实
    Bluecoda
        3
    Bluecoda  
       256 天前   ❤️ 6
    自主创新又可以了
    huihuiHK
        4
    huihuiHK  
       256 天前   ❤️ 2
    国内一大批自主创新正在路上
    tpjaord
        5
    tpjaord  
       256 天前   ❤️ 1
    @Bluecoda 又乱说了
    明明是一大批自主研发的,不可能用别人的技术来创新的
    Beginner1
        6
    Beginner1  
       256 天前
    314B 个参数,得什么水准的设备才能跑
    okakuyang
        7
    okakuyang  
       256 天前 via iPhone
    老马还是说到做到的
    Beginner1
        8
    Beginner1  
       256 天前
    话说 Meta 的 13B 的 chat 如何,有没有人搭建过,准备搞一个,如果效果不好就算了
    e1d4py0KiD6KgqkQ
        9
    e1d4py0KiD6KgqkQ  
       256 天前 via Android
    我看有人把它下载了,几百 G
    DIMOJANG
        10
    DIMOJANG  
       256 天前   ❤️ 2
    这下那些说苹果统一内存适合搞大模型的人说不出话了
    huluhulu
        11
    huluhulu  
       256 天前
    Grok-1 之前测试成绩好像不太行,属于量大,但是不行的那种
    Chihaya0824
        12
    Chihaya0824  
       256 天前
    这个是一个 MoE 模型,然后也是 8 个 expert 然后同时激活两个的架构
    所以大概率并不是 OP 算的那样要整个丢进去,大概硬要求只是需要类似 90B 模型的大小的空间就行了
    苹果的统一内存还是很可能能用的,特别是这还是没有 Quantization 之前的大小
    所以老黄能不能下一代 90 系列变成 48G 显存秋梨膏
    RockShake
        13
    RockShake  
       256 天前
    有人跑成功了么?
    kokutou
        14
    kokutou  
       256 天前
    搜了下
    “它是 314B int8 参数,因此您需要 314GB 内存来加载模型,再加上一些用于 K/V 缓存等内容”

    看来得撕裂者才行了...
    kokutou
        15
    kokutou  
       256 天前
    @kokutou #14
    内存-->显存
    “一旦 llama.cpp 添加支持并且有人发布 4 位(或更低)量化权重,就可以在 CPU 上运行它。您将需要大约 256 GB RAM ,这对于普通用户来说比需要这么多 VRAM 更合理。”
    lovestudykid
        16
    lovestudykid  
       256 天前   ❤️ 1
    @Bluecoda #3 Grok-1 用了更多的参数,还达不到 QWEN2 的性能,就让你 high 起来了?
    lovestudykid
        17
    lovestudykid  
       256 天前   ❤️ 1
    这个模型就是马斯克放出来碰瓷的,用了更多的参数还比不上别家的性能,希望用开源道德绑架其他领先的厂商,逼人家也开源。
    mumbler
        18
    mumbler  
       256 天前
    这个模型最大价值是用来蒸馏数据,毕竟用了 twitter 全部数据训练,这是其他大模型没有的语料
    coolair
        19
    coolair  
       256 天前
    将近 300G ,下载都没那么大硬盘……
    wanwaneryide
        20
    wanwaneryide  
       256 天前
    @coolair 300G 的硬盘很难?又不是 300T
    QlanQ
        21
    QlanQ  
       256 天前
    @wanwaneryide M1 256G 路过....
    coinbase
        22
    coinbase  
       255 天前
    某些人的民族自卑情结也太过了吧。

    Grok 虽然堆的参数多,但是实际表现比得上国产 Qwen 吗?我 Grok 开了年费会员,就用了一两天就弃用了,难用的一匹,谁会去抄袭它?
    s4d
        23
    s4d  
       254 天前
    让子弹飞一会儿
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2645 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 01:51 · PVG 09:51 · LAX 17:51 · JFK 20:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.