想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题，有人测试过速度吗？

25 条回复 • 2026-04-13 14:17:00 +08:00

1

MacsedProtoss

6 小时 24 分钟前 via iPhone

这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主

2

qweruiop

6 小时 11 分钟前

受限于上下文，太慢了，回复质量太差了。。。

3

Jh1n

6 小时 10 分钟前

64G 我试过，龙虾请求频次太高了顶不住的，还有龙虾过时了建议用 Hermes

4

huanxianghao

6 小时 10 分钟前

感觉智商不够，等 gemma5

5

Ken1028

OP

6 小时 4 分钟前

@MacsedProtoss 纯 LM Studio 跑速度如何？

6

zyxk

6 小时 0 分钟前

我使用 lm studio ，加载不了 gemma4 mlx 系列，提示是不支持，gguf 系列可以正常用，想问一下 mlx 系列怎么正常使用。

7

penisulaS

5 小时 56 分钟前

3

小模型像是弱智员工,啥工作都不派给他就是最省心的

8

liu731

PRO

5 小时 53 分钟前

参数太小了，玩玩可以。生产还是 opus 吧～

9

Ken1028

OP

5 小时 53 分钟前

@zyxk mlx 我在 MBP 也是加载失败，gguf 可以

10

wangtufly

5 小时 43 分钟前 via Android

试过了，不得行。Mac mini m4pro 64G 基本上不能用的状态。

11

Dream4U

5 小时 43 分钟前

本来 AI 最大的问题就是不确定性，你再配这么个本地模型，纯折腾。

12

nc

5 小时 42 分钟前

搞个 nsfw 版提供情绪价值倒是挺好

13

kirbyzhu

5 小时 41 分钟前 via iPhone

小模型不行

14

EchoWhale

5 小时 39 分钟前

64G macmini m4 pro, gemma4 31B Q6K
很慢, 非常慢, 10token/s. 而且智商也一般
有个钱买套餐都够好多年了

15

EchoWhale

5 小时 38 分钟前

16

nabanbaba

5 小时 37 分钟前

工作，正常用途，还是调公有云接口吧
像楼上说的数据本地化，nsfw 折腾才考虑本地部署，基本上也就是折腾着玩，打发时间。
m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。

17

Ken1028

OP

5 小时 33 分钟前

@EchoWhale Q4 能用吗😂

18

EchoWhale

5 小时 31 分钟前

@Ken1028 速度快一点, 智商再低一点. 有啥用

19

MacsedProtoss

5 小时 21 分钟前 via iPhone

@Ken1028 我在 5090 跑的话主要是上下文开不到非常高，几万吧，到不了 256K ，速度受限在 preprocessing ，吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多

20

nexo

5 小时 15 分钟前

你用这个给龙虾不是找罪受找气受嘛

21

Link99

5 小时 1 分钟前

除非你是有数据安全的需求绝对不能联网
否则性价比还是比较低的

22

salor

4 小时 36 分钟前

本地小模型仅用于文生图/AI 女友搞涩涩娱乐，再怎么折腾小学生也干不了大学生的活。

23

timeyoyo

1 小时 57 分钟前

我用 MBP M4 MAX 36G ？尝试部署了一个千问小模型，温度达到了铁板烧，然后还是乖乖充值了

24

jieee

1 小时 18 分钟前

我测试的 m4 max 配置满上下文内存占用 70G+，20t/s

25

AmericanExpress

1 小时 11 分钟前 via iPhone

M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行，除了第一个回复要等一会
问题是 mem 一下就不够了，随便跑个 skill mem 占用直接跑到 70gb
local llm 还是只能跑跑简单的问答