V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
h4nru1
1.01D
V2EX  ›  程序员

高强度使用了半年 claude code 后,我终于无法忍受了,并且我发现了绝佳替代

  •  
  •   h4nru1 · 3h 39m ago · 2366 views

    直接上菜:GenericAgent

    https://github.com/lsdefine/GenericAgent

    本人基本信息:国内某 top3 的计算机博士在读,大模型方向。

    最近对 cc 的使用情况

    我最近在 github trending 上关注了 GA 这个项目,并高强度使用了一周多(完全接管我的科研+生活),然后我就卸载了 cc 、codex 和 openclaw(但是感谢 cc 曾经在我的生命中出现过,不过 openclaw 你是真的垃圾啊)。。

    那么有人问了,cc 那么屌,openclaw 被吹的那么神,有什么问题? 我想但凡用过的人此时在心里都有答案了。。

    下文的数据来自 arxiv.org/abs/2604.17091,也就是 GA 的技术报告,里面有些 insights 我非常喜欢,而且我的风格也是用数据说话


    一、你的钱包顶得住吗?

    pic_1.png

    打一个招呼,oc 要用 4w tokens ,cc 和 codex 也是 2w tokens 打底了,真当我 token 不是花钱买的?

    pic_2.png

    在长程任务上,GA 能够用更少的预算( 1/3 或者更少)获得一样甚至更好的效果

    pic_3.png

    GA 有无敌的原生浏览器操作,能用非常夸张的极低的预算(1/5 左右)实现非常非常 nice 的网页搜索、浏览器操作(1-3 倍的成功率)。

    插个题外话,我就是做 deepresearch 的,论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的,也给我打开新世界了 hh

    最近看大家都在流行 claude code 的各种 web 插件,我的嘴角慢慢上扬。 说实话,ga 的原生浏览器操作吊打所有的 web 插件,不服来战(本人已服)。


    二、更好用的智能体一定能自进化

    这也是最近 hermes 风头正盛的原因。在这一点上,我认为 GA 做的更好

    不要谈参数自进化,因为我认为的自进化就是 agent 对错误经验的总结学习,就像人的进化就是在直立行走之后能够制造和使用工具,而不是长出第六根手指。

    pic_4.png

    直接上结果,oc 就不谈了,纯垃圾。。看 codex 和 cc ,实际上由于这两者的定位( coding ),所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目,那当然没问题,但是你要是让他们去追踪股票,能够按你一句话帮你去网上填表,去做你日常做的操作,那他们每次探索的成本则是巨大的

    GA 的自进化机制让 GA 得以越用越快,越用越方便(最后甚至能到心领神会的地步。。)

    pic_5.png

    依旧吊打 oc ,oc 赶紧下桌吧。。


    三、好的智能体离不开记忆

    我知道大家这时候说了,LLM-Wiki 很吊,Evermemos 很吊,Mem0 很吊,我装这些插件就能让我的智能体有记忆。

    先不谈这几个插件到底真实性能怎么样,我作为一个看了很多 memory 论文的从事大模型的人来说,作为一个 agent 的 memory 框架:

    测 Locomo 、LongtermMem 这几个数据集就是不合适的! 现在的大模型的记忆不再是 user-centric 了!现在我们需要的大模型记忆是 task-centric,这两者有本质的区别。

    所以,停止人云亦云吧。。

    我深扒了 GA 的记忆设计,其简洁性和有效性真的令人印象深刻,但是在这里就不展开(如果大家感兴趣,我可能再开一篇帖子详细讲讲)。

    我现在对 GA 的使用如图:

    pic_6.png

    有什么记不得的,直接问就好了。。太 tm 牛逼了


    彩蛋

    另外,我是第一次在 V2EX 发帖,发现这图床都要买。。然后也让 GA 给我整了一个,就一句话

    pic_7.png pic_8.png pic_10.png

    嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图,懂的人自然知道干啥用的

    pic_9.png


    写在最后

    还有很多没提到的,大家自己尝试就好了。当然 GA 也有很多让我不爽的地方,比如极其简陋的前端,然后我就在 GA 的群里潜水,最后发现了,大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点,他回答也简单:

    他说 "你让 GA 给你做"。。真的无敌了。。

    我不允许还有人不知道 GA !!!!

    如果这个帖子有点热度,大家有要求的话,我可能会从专业的角度展开讲讲 GA 的技术实现方法,太 tm 优雅了。。

    40 replies    2026-05-08 19:31:55 +08:00
    defunct9
        1
    defunct9  
       3h 26m ago
    不优雅的地方:对 Linux 不友好,必须要装个 X-win ,弄好了 x-win ,又要弄个 py-win 的,不知道能不能开个 web 好了。为啥非要跑个窗口呢。
    zzzzz024
        2
    zzzzz024  
       3h 26m ago
    只支持 api key 吗,订阅额度可以用吗
    yesha
        3
    yesha  
       3h 22m ago
    试试
    h4nru1
        4
    h4nru1  
    OP
       3h 22m ago
    @defunct9 为什么?你的 linux 有 python 环境直接 python agentmain.py 不就好了。。
    h4nru1
        5
    h4nru1  
    OP
       3h 21m ago
    @zzzzz024 支持反代,不过反代要你自己整一下。建议左脚踩右脚(先买 ds 的 api ,然后让配了 ds 的 ga 帮你弄反代)
    h4nru1
        6
    h4nru1  
    OP
       3h 20m ago
    @defunct9 而且有 webui 的应该。。前端确实烂
    stimw
        7
    stimw  
       3h 19m ago
    > 测 Locomo 、LongtermMem 这几个数据集就是不合适的

    这个能详细说说吗
    fj19
        8
    fj19  
       3h 18m ago
    这算是广告吗
    h4nru1
        9
    h4nru1  
    OP
       3h 16m ago
    @stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的,然后让模型去 recall 用户提及的细节、偏好等等;但是现在 agent 的模式是任务式的,user 说一句,assistant 要跑好几十轮,召回的主体也从用户细节变成了任务细节(实现 task 中的某个具体步骤)。那原先的测评明显就不合适了。。
    h4nru1
        10
    h4nru1  
    OP
       3h 16m ago
    @fj19 算,但是你如果花了 5 分钟体验的话,你会感谢我的
    defunct9
        11
    defunct9  
       2h 56m ago
    折腾了半小时,放弃了。滚回去用了 hermes 。
    Dream4U
        12
    Dream4U  
       2h 47m ago   ❤️ 4
    对这种一边贬低别人,一边自己牛逼吹得山响的项目,直接拉黑,试都不会试。
    giter
        13
    giter  
       2h 45m ago
    上联:拳打 Claude Code
    下联:脚踢 Codex
    横批:牛逼坏了
    h4nru1
        14
    h4nru1  
    OP
       2h 35m ago   ❤️ 1
    @Dream4U 对这种把 benchmark 结果当贬低、把数据对比当吹牛的阅读理解能力,直接理解,跪久了的确站不起来。
    h4nru1
        15
    h4nru1  
    OP
       2h 34m ago
    @defunct9 何不把 key 和 github 链接给 Hermes ,让他帮你装?如果他这都做不到,你留他有什么用?
    h4nru1
        16
    h4nru1  
    OP
       2h 33m ago
    @giter hhh ,正是如此。感谢你帮我说出了心里话
    QAZXCDSWE
        17
    QAZXCDSWE  
       1h 52m ago
    有没有想过一个问题,这么牛逼 A\都融资超过上千亿美元了,这项目是不是要国家队接见?
    HFX3389
        18
    HFX3389  
       1h 48m ago
    agent 类太多了,官方的 CC CX ,还有 pi warp ,再加上这个
    thet
        20
    thet  
       1h 43m ago
    用起来也太麻烦了
    h4nru1
        21
    h4nru1  
    OP
       1h 43m ago
    h4nru1
        22
    h4nru1  
    OP
       1h 42m ago
    @thet 我帮你催催开发者让他们再降点门槛
    K332
        23
    K332  
       1h 40m ago
    就是一个插件吧,核心功能还是其他三方模型,只是这个插件的优势是能省 token 和自己总结使用记录写 skill 。

    另外 v 站发帖图床不用买啊,默认用 imgur 的就行了。
    h4nru1
        24
    h4nru1  
    OP
       1h 40m ago
    @K332 省 token 、自进化。还不够吗?
    teaguexiao
        25
    teaguexiao  
       1h 33m ago
    用了半年 claude code 最大的感受是它的 context 管理和记忆机制确实是硬伤,每次开新会话都要重新喂背景,GA 的连续学习机制看起来确实解决了这个痛点。去看看这个项目,感谢分享!
    K332
        26
    K332  
       1h 31m ago
    @h4nru1 #24 额,这个省 token 是因为上下文不到 30k ,但是现在的 token 缓存计费很低,输入输出高,所以实际上这个看上去消耗 token 少,但是真计费不一定比其他少。至于 skill 自进化这个可有可无吧,让 claude 自己总结历史写个 skill 也差不多的。
    h4nru1
        27
    h4nru1  
    OP
       1h 27m ago
    @K332 建议看技术报告的 2.1 章节。如果你感兴趣我可以再开一篇帖子详细讲讲。推荐你看一下这三篇论文: https://arxiv.org/abs/2307.03172
    https://arxiv.org/abs/2410.18745
    https://arxiv.org/abs/2302.00093
    上下文长度的选择不光是从成本的角度考虑。
    horizon
        28
    horizon  
       1h 22m ago
    top3 是哪所大学
    h4nru1
        29
    h4nru1  
    OP
       1h 20m ago
    @horizon 那有点多。。
    superares
        30
    superares  
       1h 15m ago via Android
    不支持订阅,还要自己弄反代的就不考虑了
    testboy
        31
    testboy  
       1h 8m ago   ❤️ 1
    推广就直接说推广。。对,你是博士,这个是复旦开发的,是吧。。
    牛。。真牛就用不着到处找人发水贴了。
    rtv
        32
    rtv  
       1h 0m ago
    评价讨厌靠贬低别人来抬高自己,在 op 眼里就是跪久了,很好奇在 op 眼里是不是和你不一样就是跪?
    utodea
        33
    utodea  
       57 mins ago
    DeepSeek 的缓存命中率还挺高的,高强度用了一阵子感觉价格还能接受。 我也在写一个 deepseek-cli , 看看你这个是咋省 token 、自进化的,学习下。

    https://github.com/usewhale/whale
    Justin13
        34
    Justin13  
       54 mins ago via Android
    模型原厂的优化和 token 价格是三方难以比拟的
    比如 codex plus 20 刀,但你如果按 api 价格算每月能用到 200 刀
    这怎么比?所以三方的我全都不用了,cusor 也准备退了
    而且 codex 进化的非常快,你提到的记忆,电脑使用,浏览器使用也都支持了
    对我来说最划算的就是开两个 plus,每月 250
    一个上最新模型解决复杂长注意力任务,5 小时内也就干 2,3 个吧
    另一个上 5.3 codex,日常任务完全胜任,非常耐用
    yinanc
        35
    yinanc  
       51 mins ago
    嘉豪
    herozzm
        36
    herozzm  
       50 mins ago
    软文
    wubajie
        37
    wubajie  
       38 mins ago
    软文
    Razio
        38
    Razio  
       36 mins ago
    牛逼哥,我只想说,工作是工作,论文是论文。说的再天花乱坠,大家上个 B 班,该用啥还是用啥。
    打比方,Claude 模型大家公认,你突然来个 Abc ,吊打 Claude ,不做评价,只是说在大家口口相传之前,没人会搭理你 Abc
    xingyue
        39
    xingyue  
       31 mins ago via Android
    单轮上下文确实短,但是也有问题,稍微复杂点的问题能整出几百轮然后死循环最后也解决不了问题,实测下来,用来做编码 agent 并不好用。
    darksword21
        40
    darksword21  
    PRO
       4 mins ago
    你是博士≠你说的对

    不好意思有点怀疑你 top3 博士的真实性(我是学渣),但是你确实有种认知低下的美
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3497 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 88ms · UTC 11:36 · PVG 19:36 · LAX 04:36 · JFK 07:36
    ♥ Do have faith in what you're doing.