V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jdz
V2EX  ›  程序员

我的使用姿势不对么, 我感觉 ds 很差劲啊, 比 grok3 差远了, 编程相关问题试了几次都表现很差

  •  1
     
  •   jdz · 2025 年 3 月 26 日 · 20025 次点击
    这是一个创建于 307 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如 example.nacos.com 这是我的 nacos 地址, 帮我写个 bash 脚本, 查询 cpp_long_link 命名空间下的所有服务信息, grok 可以一次写对, deepseek 就会忘记 pageSize 这个参数

    164 条回复    2025-03-29 10:15:35 +08:00
    1  2  
    duzhuo
        101
    duzhuo  
       2025 年 3 月 27 日   ❤️ 1
    @Moierby 这么多层为数不多的正常回答,这 b 论坛有时候一扯到中国就开始输出情绪了
    ysn2233
        102
    ysn2233  
       2025 年 3 月 27 日
    除了编程比 claude 差其他没感觉出来,都是各有优势
    byc4i
        103
    byc4i  
       2025 年 3 月 27 日   ❤️ 3
    全是工人视角在阴阳怪气。
    DS 核心是是 2 块 4090 (十万左右)跑生产级别的大模型。这意味着什么?
    magicfield
        104
    magicfield  
       2025 年 3 月 27 日
    楼上说 deepseek 慢的为啥不用各家平台的 api 。
    magicfield
        105
    magicfield  
       2025 年 3 月 27 日
    代码用 claude ,其他用 ds ,挺好使的。
    ds 现在我用着感觉最大问题感觉是功能性的功能差点意思,比如使用 function call 的幻觉太多了,很难稳定下来
    GuLuDaDuiZhang
        106
    GuLuDaDuiZhang  
       2025 年 3 月 27 日   ❤️ 1
    日常 ds-r1 ,代码 3.7t ,备胎 gemini 。gpt 什么都能做但缺少专精的地方,感觉现在已经没有护城河了,tokens 还贵,最容易被 r1 取代。grok 只记得输出快但尴尬的是当时第一次用输出的代码不符合预期,后面就没再用了。

    个人感受 r1 代码能力不差,可惜输出总是差那么口气,例如我想要个项目大致框架 r1 容易东西全部写一个文件里,而 3.7t 基本能正常拆分出代码文件进行输出,所以我代码主力还是 3.7t 。很期待后续 ds-r2 编码实力,应该能打平 3.7t ,期待能薄纱。不过真要薄纱了,充钱的我就成小丑了(,claude 你加把劲啊,哭

    其它日常问问题感觉主流模型都半斤八两,个人更喜欢 r1 的推理和输出格式,但偶尔输出的有点奇怪,可能是被联网查的东西给带歪了。

    另外我试了下 op 对这个脚本的描述,ds 的输出也带了 pageSize 参数呀,可能脸黑中奖了,新开个对话试试吧。
    cat9life
        107
    cat9life  
       2025 年 3 月 27 日
    @lovedebug #76 你这个用法就是之前比较火的。把 ds 的思维链发给其他大模型去推理
    BestPix
        108
    BestPix  
       2025 年 3 月 27 日
    写前端豆包都够我用了,我都用不到 ds ,你们居然还拿海外付费版的对比,看来大家的需求确实不一样
    msg7086
        109
    msg7086  
       2025 年 3 月 27 日
    DS 的意义不是暴打 Claude 或者 Grok 或者 Gemini ,而是能在有限的成本和卡脖子的前提下依然做到不错的成绩。你要指望 DS 全方位暴打收费模型,那人家真的都倒闭算了。

    顺带一提,我感觉 DS 训练用的语料和其他几家的差别很大,这几天测试翻译能力的时候可以看到 DS 有大量本土化用语,像是什么「一点就通」啊「套路」啊这些国外模型吐不出的词。所以如果有条件同时使用多个模型的话,可以把 DS 当作很好的补充。
    herewego
        110
    herewego  
       2025 年 3 月 27 日
    r1 的推理真的挺好用的,我给输入参数和输出结果让他帮我写程序实现,他自己搁这里思考了 5 分钟,不断推导,验证,最后给我的东西准确率还挺高的。就是如果开了联网,容易被带偏。
    写代码还是要 r1 。
    viking602
        111
    viking602  
       2025 年 3 月 27 日
    直接开了 supergrok 现在 grok3 是主力 之前也开过 gptplus 太麻烦而且节点还有要求
    TubroRock
        112
    TubroRock  
       2025 年 3 月 27 日   ❤️ 4
    一般人都不会拿个例否定全部,要得出结论好歹正常测试下:
    https://github.com/KCORES/kcores-LLM-Arena

    https://github.com/cpldcpu/llmbenchmark/blob/master/raytracer/Readme.md
    zhangeric
        113
    zhangeric  
       2025 年 3 月 27 日
    挺无聊,捧一家踩一家,我觉得 10 有 89 是广告帖.
    zmal
        114
    zmal  
       2025 年 3 月 27 日
    R1 写代码不如 V3 。再者就是温度要低。
    karatsuba
        115
    karatsuba  
       2025 年 3 月 27 日
    我现在重度依赖 grok ,deepseek 用来搜搜中文问答还行
    yuanran
        116
    yuanran  
       2025 年 3 月 27 日
    @wryyyyyyyyyyyy #86 阿里的啊,chat.qwen.ai 选 32b
    zhmouV2
        117
    zhmouV2  
       2025 年 3 月 27 日
    ds 的幻觉还是严重的要命,比如让它给出代码优化建议,后面还能给出来一个这种性能对比:

    指标 优化前 优化后 提升幅度
    初始渲染时间 (ms) 450 220 51%
    内存占用 (MB) 85 62 27%
    分组切换时间 (ms) 120 40 67%
    选中行响应时间 (ms) 80 20 75%

    离谱好么
    letwewell
        118
    letwewell  
       2025 年 3 月 27 日
    cursor 天下第一,其他都是垃圾
    ChristopherWu
        119
    ChristopherWu  
       2025 年 3 月 27 日
    R1 实用性比较差,但凡用来改代码,讨论系统架构,优化产品业务,思考前景,都给你聊虚的,一点都不中用。
    qwert999
        120
    qwert999  
       2025 年 3 月 27 日
    很多时候是提问质量和主观感受带来的差别,直接看技术测评 https://artificialanalysis.ai/
    Reid
        121
    Reid  
       2025 年 3 月 27 日
    whatalittleboy
        122
    whatalittleboy  
       2025 年 3 月 27 日
    各有所长。股票相关的,ds 完胜
    catazshadow
        123
    catazshadow  
       2025 年 3 月 27 日 via Android
    刚出来就说过了,这玩意就是个跑分器,实际多半用一塌糊涂

    结果被追着喷
    wowpaladin
        124
    wowpaladin  
       2025 年 3 月 27 日
    有人再说写代码,有人再说 AI 搜索,不能先对齐一下再吵吗?

    那些不开联网搜索,大谈幻觉的,我也是服了。

    日常 AI 搜索用元宝版 DS-R1 ,没啥问题吧。
    aboutier
        125
    aboutier  
       2025 年 3 月 27 日
    deekseek 有一点好, 问关于 android 和谷歌的问题, 回答得全是我想要的。gemini 就会有审查。
    Revenant
        126
    Revenant  
       2025 年 3 月 27 日
    看了一遍评论区,还真有人把 DeepSeek-32B 等同于 R1 啊,然后喷 DS 垃圾的啊😂
    DIO
        127
    DIO  
       2025 年 3 月 27 日 via Android
    littlecowherd
        128
    littlecowherd  
       2025 年 3 月 27 日
    DeepSeek-R1, DeepSeek-V3, DeepSeek-R1-Distill-xxx 是完全不同的模型,你们说的 DS 是哪个
    BQsummer
        129
    BQsummer  
       2025 年 3 月 27 日
    @byc4i 你不会真把蒸馏的 32B 当做 deepseek 了吧
    iyaozhen
        130
    iyaozhen  
       2025 年 3 月 27 日
    因为不是所有人都编程。
    就国内而言,生活类的知识(含联网搜索)豆包还是 TOP1 ,毕竟有抖音数据源,其它模型也是巧妇难为无米之炊。这类不需要推理,更多是 RAG
    相对专业一点的,比如我媳妇是高中老师,深度使用者,她反馈来看 deepseek 在 R1 思考模型的加持下优势很大
    编程这块确实是个单类,从 trae 国内版反馈来看,R1 不太适合编程,有时候会纠结思考很久,结果也不多,但最新 v3 大家反馈还不错,当然和每个人的提问有关,有时候不需要长思考。总的来说这块不是 deepseek 的优势,claude 断崖式第一。但大家为什么那么拥抱 deepseek 呢,因为他潜力很大,说不定下个版本就反超了
    BQsummer
        131
    BQsummer  
       2025 年 3 月 27 日
    说 deepseek 会营销是不对, 当年 ds 火起来花了一周多, 而且是国外火到国内的, 然后国内自媒体开始各种吹了, 和深度求索没有关系
    lance07
        132
    lance07  
       2025 年 3 月 27 日
    前两天改一个多线程的逻辑,只有 R1 思考了一会找到了 bug 改好了,克劳德 3.7 和 gpt4o 都不行。 另外 op 包括楼上讨论都得说明是哪个版本的模型
    alading11
        133
    alading11  
       2025 年 3 月 27 日
    @evilStart #22 上网久了现在属实分不清了,你是串子吗?
    alading11
        134
    alading11  
       2025 年 3 月 27 日
    @javazero #9 grok3 的深度思考有 24h 内的数量限制,不过非深度思考也很够用了
    zbw0414
        135
    zbw0414  
       2025 年 3 月 27 日
    @Meursau1T
    抛开种族和政治偏见, 使用起来我个人感觉还是不错的. 下面有一个 web search 任务的测试, 可以作为部分参考吧.
    https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
    lovedebug
        136
    lovedebug  
       2025 年 3 月 27 日
    @cat9life #107 对,各家有各家的强处,训练方向有区别?
    stanley0black
        137
    stanley0black  
       2025 年 3 月 27 日
    实际用下来,写代码 grok3>deepseek>>qianwen
    yh7gdiaYW
        138
    yh7gdiaYW  
       2025 年 3 月 27 日
    为什么总有人觉得 ai 就是写代码的...让 deepseek 火起来的从来不是这个啊
    elevioux
        139
    elevioux  
       2025 年 3 月 27 日   ❤️ 3
    我觉得 ds 能引起这么大的热度,是因为开源,而不是能力。

    ds 刚出来的时候是 o1 水平,并没有超越 openai ,但依然能引起这么大的讨论,甚至 nv 的股票都跌了,就是因为这么强的模型,居然开源。对比 openai ,一个月 pro 都几百美金。

    到现在为止,ds 的影响还在继续,各家更高级的模型都在免费/降价下放。
    will800
        140
    will800  
       2025 年 3 月 27 日
    @evilStart #22 啥都要往大旗方向扯,你有意思吗
    wolfie
        141
    wolfie  
       2025 年 3 月 27 日
    免费版 grok3 都能完爆 claude 了。更别提 降智 gpt 、正常 gemini 。
    reggiebriggesmex
        142
    reggiebriggesmex  
       2025 年 3 月 27 日   ❤️ 1
    ds 的幻觉。。我遇到过它直接生成无法显示的示例图片的链接
    iv2ex
        143
    iv2ex  
       2025 年 3 月 27 日
    @dbaazz #94 谢谢大佬
    dodakt
        144
    dodakt  
       2025 年 3 月 27 日
    CrazyRain0001
        145
    CrazyRain0001  
       2025 年 3 月 27 日
    感觉 ds 专业点的编程问题明显好点呀,比如:
    > cdma matlab 原理仿真

    用 grok3 给的代码给出误码率 0.5
    rpish
        146
    rpish  
       2025 年 3 月 27 日
    @jdz 代码生成最好还是用 R1 这种推理模型,效果比较好。
    或者可以等过阵子 R2 出来再试试看,应该会好很多。
    jackyli1
        147
    jackyli1  
       2025 年 3 月 27 日
    我没看出害怕来🤣
    3g5Q18e931D24Yv5
        148
    3g5Q18e931D24Yv5  
       2025 年 3 月 27 日
    grok 用过几次思考陷入死循环。。。
    Quarter
        149
    Quarter  
       2025 年 3 月 27 日 via Android
    从上面很多的帖子来说,我只能说,无脑吹和无脑踩的都差不多的人(无脑的人),到底怎么样,是不是符合自己的需求还是需要自己来试的

    另外,从我个人角度来讲,有的时候确实一个模型并不能胜任所有的工作,所以我时常会切换着使用,有的时候 ds 能帮我解决问题,有的时候 4o-mini 能够简单直接的回答我想要的内容,也有的时候是其它的模型

    目前确实没有什么模型是完美的,而且也没有哪个模型是特别稳定,同一个类型的问题都总能答对,出现幻觉或者技术资料过时也是蛮常见的
    Magicdove
        150
    Magicdove  
       2025 年 3 月 27 日
    主要是吐字太慢
    wenruoliushui
        151
    wenruoliushui  
       2025 年 3 月 27 日
    都用过敲代码都一般般
    jqtmviyu
        152
    jqtmviyu  
       2025 年 3 月 28 日
    为啥我体验下来代码能力还是 cursor 用的 claude 强.

    希望后续推出写代码的专精模型, 而不是什么都训练的大模型.
    cskeleton
        153
    cskeleton  
       2025 年 3 月 28 日
    @reggiebriggesmex #142 我遇到过。给我生成了一个 markdown 还是 docx 的下载链接,是假的。我告诉它这个链接是它编的,根本不存在这个文件,而且我不需要你给我生成一个文件,然后它又编了一个假链接。
    littlecreek
        154
    littlecreek  
       2025 年 3 月 28 日
    @windyboy 哈哈, 听说 ds 的老板都被国家重点保护了, 楼主居然敢说它不好
    kokerkov
        155
    kokerkov  
       2025 年 3 月 28 日
    主要是 deepseek 很慢很慢,不想用。
    cxe2v
        156
    cxe2v  
       2025 年 3 月 28 日
    @dodakt #144 这是个什么工具网站?
    Meursau1T
        157
    Meursau1T  
       2025 年 3 月 28 日
    @zbw0414 我问过他一个问题,菜鹅是什么国家,DS 和 Qwen 给的答案都是对的,但 perplexity 告诉我菜鹅是法国的一道菜。这玩意你说他懂吧,他也知道 386 是什么意思,但很多你以为他懂的时候他完全不懂。而且他会根据用户 IP 选择性降低智力,以及截断过长的输出。
    byc4i
        158
    byc4i  
       2025 年 3 月 28 日
    @BQsummer 32B 是一块 4070 跑的
    dodakt
        159
    dodakt  
       2025 年 3 月 28 日
    @cxe2v #156 Google 自己的大模型开发站,可以免费体验 Google 自己的大模型,一般比 Gemini 还早一些提供
    zbw0414
        160
    zbw0414  
       2025 年 3 月 28 日 via Android
    @Meursau1T 这个涉及到中文语言梗可能还是国内模型更擅长,毕竟国外的模型利用的中文数据确实很有限,irga 做网页搜索能使用的中文网站也不多。我主要还是看一些技术工程类的搜索问题,perplexity 的幻觉率很低,这一点我觉得他做的挺好。另外你说的降智截断这个确实是的,有些 vpn 的 ip 用得太多了他可能会是别人机器人爬虫逆向。所以现在买 vpn 也得尽量买小众的
    aplomb2
        161
    aplomb2  
       2025 年 3 月 28 日
    写代码还是 Claude 3.7 , 日常文案和问答,已经从 ChatGPT 迁移到 Grok3 了。
    google2023
        162
    google2023  
       2025 年 3 月 28 日
    @dapang1221 为什么没有 chatgpt ?
    Tink
        163
    Tink  
    PRO
       2025 年 3 月 29 日 via iPhone
    我自建的 671B 写起来非常好用啊,之前写了一个带用户注册和 cookie 配置的 youtube 下载站,半天搞完了
    jdz
        164
    jdz  
    OP
       2025 年 3 月 29 日 via Android
    @Tink 牛逼,大佬建下来用了多少钱
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3141 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 12:53 · PVG 20:53 · LAX 04:53 · JFK 07:53
    ♥ Do have faith in what you're doing.