比起 Claude Sonnet 、Gemini 、GPT ,现在国产大模型 API ,其实才是一般用的起。但当你真用它们接入工具做 Agent 干活时,往往会发现一个痛点:它们极容易陷入死循环疯狂查资料,或者闭着眼狂改代码从不 run 测试。一顿操作猛如虎,一看 Token 刷了两亿五。
它们其实不缺逻辑智商,只是缺个协调底层动作的“小脑”。
很多人都想干预思维链,但加一个顶级大模型做监督员,只会让成本越来越贵。
我造了个轮子(权当是一副“聪明水”):一套叫 Governor 的底层行为干预系统。我把 AI 繁杂的动作降维解码成了 X (探索)、E (执行)、P (规划)、V (验证)四个“基因碱基”。
这个中间件会像守护进程一样 O(1) 实时盯盘:一旦发现模型开始“发疯”(比如连续 12 次无效搜索,或光写不测),瞬间注入极轻量的 hook 提示词,像膝跳反应一样强行打断施法。
跑了真实的生产环境数据:喝了这口“聪明水”,Agent 任务成功率提升了 6.2%,更爽的是,无意义的 Token 消耗硬生生砍掉了 44%。用国产模型,也能跑出顶级模型的克制力。
目前这套机制已经开源:
https://github.com/FatBy/base-sequence-toolkit ,并集成到我独立开发的 DunCrew (
duncrew.com) 中。