我的使用姿势不对么, 我感觉 ds 很差劲啊, 比 grok3 差远了, 编程相关问题试了几次都表现很差

使用姿势

ds

Grok3

164 条回复 • 2025-03-29 10:15:35 +08:00

1 2

❮

❯

101

duzhuo

2025 年 3 月 27 日

1

@Moierby 这么多层为数不多的正常回答，这 b 论坛有时候一扯到中国就开始输出情绪了

102

ysn2233

2025 年 3 月 27 日

除了编程比 claude 差其他没感觉出来，都是各有优势

103

byc4i

2025 年 3 月 27 日

3

全是工人视角在阴阳怪气。
DS 核心是是 2 块 4090 （十万左右）跑生产级别的大模型。这意味着什么？

104

magicfield

2025 年 3 月 27 日

楼上说 deepseek 慢的为啥不用各家平台的 api 。

105

magicfield

2025 年 3 月 27 日

代码用 claude ，其他用 ds ，挺好使的。
ds 现在我用着感觉最大问题感觉是功能性的功能差点意思，比如使用 function call 的幻觉太多了，很难稳定下来

106

GuLuDaDuiZhang

2025 年 3 月 27 日

1

日常 ds-r1 ，代码 3.7t ，备胎 gemini 。gpt 什么都能做但缺少专精的地方，感觉现在已经没有护城河了，tokens 还贵，最容易被 r1 取代。grok 只记得输出快但尴尬的是当时第一次用输出的代码不符合预期，后面就没再用了。

个人感受 r1 代码能力不差，可惜输出总是差那么口气，例如我想要个项目大致框架 r1 容易东西全部写一个文件里，而 3.7t 基本能正常拆分出代码文件进行输出，所以我代码主力还是 3.7t 。很期待后续 ds-r2 编码实力，应该能打平 3.7t ，期待能薄纱。不过真要薄纱了，充钱的我就成小丑了（，claude 你加把劲啊，哭

其它日常问问题感觉主流模型都半斤八两，个人更喜欢 r1 的推理和输出格式，但偶尔输出的有点奇怪，可能是被联网查的东西给带歪了。

另外我试了下 op 对这个脚本的描述，ds 的输出也带了 pageSize 参数呀，可能脸黑中奖了，新开个对话试试吧。

107

cat9life

2025 年 3 月 27 日

@lovedebug #76 你这个用法就是之前比较火的。把 ds 的思维链发给其他大模型去推理

108

BestPix

2025 年 3 月 27 日

写前端豆包都够我用了，我都用不到 ds ，你们居然还拿海外付费版的对比，看来大家的需求确实不一样

109

msg7086

2025 年 3 月 27 日

DS 的意义不是暴打 Claude 或者 Grok 或者 Gemini ，而是能在有限的成本和卡脖子的前提下依然做到不错的成绩。你要指望 DS 全方位暴打收费模型，那人家真的都倒闭算了。

顺带一提，我感觉 DS 训练用的语料和其他几家的差别很大，这几天测试翻译能力的时候可以看到 DS 有大量本土化用语，像是什么「一点就通」啊「套路」啊这些国外模型吐不出的词。所以如果有条件同时使用多个模型的话，可以把 DS 当作很好的补充。

110

herewego

2025 年 3 月 27 日

r1 的推理真的挺好用的，我给输入参数和输出结果让他帮我写程序实现，他自己搁这里思考了 5 分钟，不断推导，验证，最后给我的东西准确率还挺高的。就是如果开了联网，容易被带偏。
写代码还是要 r1 。

111

viking602

2025 年 3 月 27 日

直接开了 supergrok 现在 grok3 是主力之前也开过 gptplus 太麻烦而且节点还有要求

112

TubroRock

2025 年 3 月 27 日

4

一般人都不会拿个例否定全部，要得出结论好歹正常测试下：
https://github.com/KCORES/kcores-LLM-Arena

https://github.com/cpldcpu/llmbenchmark/blob/master/raytracer/Readme.md

113

zhangeric

2025 年 3 月 27 日

挺无聊,捧一家踩一家,我觉得 10 有 89 是广告帖.

114

zmal

2025 年 3 月 27 日

R1 写代码不如 V3 。再者就是温度要低。

115

karatsuba

2025 年 3 月 27 日

我现在重度依赖 grok ，deepseek 用来搜搜中文问答还行

116

yuanran

2025 年 3 月 27 日

@wryyyyyyyyyyyy #86 阿里的啊，chat.qwen.ai 选 32b

117

zhmouV2

2025 年 3 月 27 日

ds 的幻觉还是严重的要命，比如让它给出代码优化建议，后面还能给出来一个这种性能对比：

指标优化前优化后提升幅度
初始渲染时间 (ms) 450 220 51%
内存占用 (MB) 85 62 27%
分组切换时间 (ms) 120 40 67%
选中行响应时间 (ms) 80 20 75%

离谱好么

118

letwewell

2025 年 3 月 27 日

cursor 天下第一，其他都是垃圾

119

ChristopherWu

2025 年 3 月 27 日

R1 实用性比较差，但凡用来改代码，讨论系统架构，优化产品业务，思考前景，都给你聊虚的，一点都不中用。

120

qwert999

2025 年 3 月 27 日

很多时候是提问质量和主观感受带来的差别，直接看技术测评 https://artificialanalysis.ai/

121

Reid

2025 年 3 月 27 日

https://ai.com

122

whatalittleboy

2025 年 3 月 27 日

各有所长。股票相关的，ds 完胜

123

catazshadow

2025 年 3 月 27 日 via Android

刚出来就说过了，这玩意就是个跑分器，实际多半用一塌糊涂

结果被追着喷

124

wowpaladin

2025 年 3 月 27 日

有人再说写代码，有人再说 AI 搜索，不能先对齐一下再吵吗？

那些不开联网搜索，大谈幻觉的，我也是服了。

日常 AI 搜索用元宝版 DS-R1 ，没啥问题吧。

125

aboutier

2025 年 3 月 27 日

deekseek 有一点好，问关于 android 和谷歌的问题，回答得全是我想要的。gemini 就会有审查。

126

Revenant

2025 年 3 月 27 日

看了一遍评论区，还真有人把 DeepSeek-32B 等同于 R1 啊，然后喷 DS 垃圾的啊😂

127

DIO

2025 年 3 月 27 日 via Android

@wryyyyyyyyyyyy https://chat.qwen.ai/

128

littlecowherd

2025 年 3 月 27 日

DeepSeek-R1, DeepSeek-V3, DeepSeek-R1-Distill-xxx 是完全不同的模型，你们说的 DS 是哪个

129

BQsummer

2025 年 3 月 27 日

@byc4i 你不会真把蒸馏的 32B 当做 deepseek 了吧

130

iyaozhen

2025 年 3 月 27 日

因为不是所有人都编程。
就国内而言，生活类的知识（含联网搜索）豆包还是 TOP1 ，毕竟有抖音数据源，其它模型也是巧妇难为无米之炊。这类不需要推理，更多是 RAG
相对专业一点的，比如我媳妇是高中老师，深度使用者，她反馈来看 deepseek 在 R1 思考模型的加持下优势很大
编程这块确实是个单类，从 trae 国内版反馈来看，R1 不太适合编程，有时候会纠结思考很久，结果也不多，但最新 v3 大家反馈还不错，当然和每个人的提问有关，有时候不需要长思考。总的来说这块不是 deepseek 的优势，claude 断崖式第一。但大家为什么那么拥抱 deepseek 呢，因为他潜力很大，说不定下个版本就反超了

131

BQsummer

2025 年 3 月 27 日

说 deepseek 会营销是不对, 当年 ds 火起来花了一周多, 而且是国外火到国内的, 然后国内自媒体开始各种吹了, 和深度求索没有关系

132

lance07

2025 年 3 月 27 日

前两天改一个多线程的逻辑，只有 R1 思考了一会找到了 bug 改好了，克劳德 3.7 和 gpt4o 都不行。另外 op 包括楼上讨论都得说明是哪个版本的模型

133

alading11

2025 年 3 月 27 日

@evilStart #22 上网久了现在属实分不清了，你是串子吗？

134

alading11

2025 年 3 月 27 日

@javazero #9 grok3 的深度思考有 24h 内的数量限制，不过非深度思考也很够用了

135

zbw0414

2025 年 3 月 27 日

@Meursau1T
抛开种族和政治偏见, 使用起来我个人感觉还是不错的. 下面有一个 web search 任务的测试, 可以作为部分参考吧.
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

136

lovedebug

2025 年 3 月 27 日

@cat9life #107 对，各家有各家的强处，训练方向有区别？

137

stanley0black

2025 年 3 月 27 日

实际用下来，写代码 grok3>deepseek>>qianwen

138

yh7gdiaYW

2025 年 3 月 27 日

为什么总有人觉得 ai 就是写代码的...让 deepseek 火起来的从来不是这个啊

139

elevioux

2025 年 3 月 27 日

3

我觉得 ds 能引起这么大的热度，是因为开源，而不是能力。

ds 刚出来的时候是 o1 水平，并没有超越 openai ，但依然能引起这么大的讨论，甚至 nv 的股票都跌了，就是因为这么强的模型，居然开源。对比 openai ，一个月 pro 都几百美金。

到现在为止，ds 的影响还在继续，各家更高级的模型都在免费/降价下放。

140

will800

2025 年 3 月 27 日

@evilStart #22 啥都要往大旗方向扯，你有意思吗

141

wolfie

2025 年 3 月 27 日

免费版 grok3 都能完爆 claude 了。更别提降智 gpt 、正常 gemini 。

142

reggiebriggesmex

2025 年 3 月 27 日

1

ds 的幻觉。。我遇到过它直接生成无法显示的示例图片的链接

143

iv2ex

2025 年 3 月 27 日

@dbaazz #94 谢谢大佬

144

dodakt

2025 年 3 月 27 日

@cxe2v #84 https://aistudio.google.com/ 在这里

145

CrazyRain0001

2025 年 3 月 27 日

感觉 ds 专业点的编程问题明显好点呀，比如：
> cdma matlab 原理仿真

用 grok3 给的代码给出误码率 0.5

146

rpish

2025 年 3 月 27 日

@jdz 代码生成最好还是用 R1 这种推理模型，效果比较好。
或者可以等过阵子 R2 出来再试试看，应该会好很多。

147

jackyli1

2025 年 3 月 27 日

我没看出害怕来🤣

148

3g5Q18e931D24Yv5

2025 年 3 月 27 日

grok 用过几次思考陷入死循环。。。

149

Quarter

2025 年 3 月 27 日 via Android

从上面很多的帖子来说，我只能说，无脑吹和无脑踩的都差不多的人（无脑的人），到底怎么样，是不是符合自己的需求还是需要自己来试的

另外，从我个人角度来讲，有的时候确实一个模型并不能胜任所有的工作，所以我时常会切换着使用，有的时候 ds 能帮我解决问题，有的时候 4o-mini 能够简单直接的回答我想要的内容，也有的时候是其它的模型

目前确实没有什么模型是完美的，而且也没有哪个模型是特别稳定，同一个类型的问题都总能答对，出现幻觉或者技术资料过时也是蛮常见的

150

Magicdove

2025 年 3 月 27 日

主要是吐字太慢

151

wenruoliushui

2025 年 3 月 27 日

都用过敲代码都一般般

152

jqtmviyu

2025 年 3 月 28 日

为啥我体验下来代码能力还是 cursor 用的 claude 强.

希望后续推出写代码的专精模型, 而不是什么都训练的大模型.

153

cskeleton

2025 年 3 月 28 日

@reggiebriggesmex #142 我遇到过。给我生成了一个 markdown 还是 docx 的下载链接，是假的。我告诉它这个链接是它编的，根本不存在这个文件，而且我不需要你给我生成一个文件，然后它又编了一个假链接。

154

littlecreek

2025 年 3 月 28 日

@windyboy 哈哈, 听说 ds 的老板都被国家重点保护了, 楼主居然敢说它不好

155

kokerkov

2025 年 3 月 28 日

主要是 deepseek 很慢很慢，不想用。

156

cxe2v

2025 年 3 月 28 日

@dodakt #144 这是个什么工具网站？

157

Meursau1T

2025 年 3 月 28 日

@zbw0414 我问过他一个问题，菜鹅是什么国家，DS 和 Qwen 给的答案都是对的，但 perplexity 告诉我菜鹅是法国的一道菜。这玩意你说他懂吧，他也知道 386 是什么意思，但很多你以为他懂的时候他完全不懂。而且他会根据用户 IP 选择性降低智力，以及截断过长的输出。

158

byc4i

2025 年 3 月 28 日

@BQsummer 32B 是一块 4070 跑的

159

dodakt

2025 年 3 月 28 日

@cxe2v #156 Google 自己的大模型开发站，可以免费体验 Google 自己的大模型，一般比 Gemini 还早一些提供

160

zbw0414

2025 年 3 月 28 日 via Android

@Meursau1T 这个涉及到中文语言梗可能还是国内模型更擅长，毕竟国外的模型利用的中文数据确实很有限，irga 做网页搜索能使用的中文网站也不多。我主要还是看一些技术工程类的搜索问题，perplexity 的幻觉率很低，这一点我觉得他做的挺好。另外你说的降智截断这个确实是的，有些 vpn 的 ip 用得太多了他可能会是别人机器人爬虫逆向。所以现在买 vpn 也得尽量买小众的

161

aplomb2

2025 年 3 月 28 日

写代码还是 Claude 3.7 ，日常文案和问答，已经从 ChatGPT 迁移到 Grok3 了。

162

google2023

2025 年 3 月 28 日

@dapang1221 为什么没有 chatgpt ？

163

Tink

PRO

2025 年 3 月 29 日 via iPhone

我自建的 671B 写起来非常好用啊，之前写了一个带用户注册和 cookie 配置的 youtube 下载站，半天搞完了

164

jdz

OP

2025 年 3 月 29 日 via Android

@Tink 牛逼，大佬建下来用了多少钱

1 2

❮

❯