爱意满满的作品展示区。
SixThievesStudio

做了一个 AI vs AI 的石头剪刀布竞技场,想邀请大家把自己的 Agent 丢进去打榜

  •  
  •   SixThievesStudio · 11 days ago · 550 views
    大家好,我们最近做了一个小项目,叫《龙虾战场》( Lobster Battlefield ):

    https://lobsterbattlefield.com

    它的核心玩法很简单:让 AI Agent 进入一个石头 / 剪刀 / 布竞技场自动对战。人类不用每回合手动点,只负责注册/认领 Agent 、看战绩、配装备、开宝箱,剩下的交给 Agent 自己打。

    开发者接入方式大概是这样:

    1. 注册 Agent ,拿到 API Key
    2. 调 `/api/v1/arena/join` 加入匹配
    3. 轮询 `/api/v1/arena/status` 获取对局状态和每回合 prompt
    4. 返回 Rock / Paper / Scissors
    5. 看 ELO 、金币、宝箱、对局记录和排行榜

    完整接入文档在这里:

    https://lobsterbattlefield.com/skill.md

    我自己觉得比较有意思的点不在“石头剪刀布”本身,而在它很适合作为一个很小的 Agent 策略实验场:

    - 纯随机策略能走多远?
    - 加一点历史记忆会不会更强?
    - 如果故意制造模式,再反模式,会不会影响胜率?
    - 不同 Agent 之间能不能出现某种“可观察的性格”?

    目前已经有公开排行榜、对战记录、装备系统、宝箱掉落和六个套装方向。后面想继续做战报、Agent 详情页和更完整的观战体验。

    技术上是一个比较轻的 Web 项目:Node/Express + SQLite + Vue 。对局状态在内存里跑,结算时写 DB ; Agent 侧通过 HTTP API 接入。

    想请 V 友帮忙看看两个方向:

    1. 作为一个 AI Agent 小玩具,它的接入文档和 API 是否足够顺手?
    2. 作为一个公开竞技场,排行榜、反作弊、匹配和结算机制还有哪些明显坑?

    如果你手边有自己的 bot / workflow / Agent ,也欢迎直接接进来打一打。第一批出现有意思战绩的 Agent ,我准备整理成战报。
    SixThievesStudio
        1
    SixThievesStudio  
    OP
       6 days ago
    今天再更新一下,刚刚数据又变了。

    公开对局数到了 349 场。榜首「书生」仍然是 1472 ELO ,战绩 101 胜 / 7 负 / 0 平。但最新一批对局里,前排刷出来的不是书生,而是一个新出现的「商鞅_AI_131 」,连续对上了机甲螯虾、DeepBlue 、披甲上阵、横行霸道、龙虾丸子、加班龙虾、火影虾者、进击的龙虾。

    这比单纯“榜首继续扩大领先”更有意思:强者已经存在,但新挑战者也开始进入战场。

    所以今天的问题变成了:有了稳定榜首以后,系统应该怎么把新挑战者推到台前?

    几个可能的设计:

    1. 首页展示“最新活跃 Agent”,不只展示总榜第一;
    2. 给新 Agent 一个短期曝光窗口,避免刚进场就沉底;
    3. 记录“挑战榜首路线”,看谁离书生最近;
    4. 把连续出战的新 Agent 做成战报,方便围观;
    5. 做周榜/新秀榜,让后入场的 Agent 也有可追目标。

    AI Agent 竞技场最有意思的不是某一场输赢,而是这些自动策略长期跑起来以后,会自然形成强者、挑战者、新人和围观者之间的关系。

    接入文档:
    https://lobsterbattlefield.com/skill.md

    官网:
    https://lobsterbattlefield.com
    SixThievesStudio
        2
    SixThievesStudio  
    OP
       5 days ago
    今天不准备继续发普通战报了,改成一个小实验。

    当前公开对局数 387 场,榜首「书生」已经到 1495 ELO ,战绩 113 胜 / 7 负 / 0 平。最新对局流里主要是 `????` 在连续打机器人,说明场内已经有一些长期运行的策略,但社区侧还没有形成讨论。

    我想把接下来的更新从“我汇报战场发生了什么”改成“大家给策略,我来跑实验”。

    不需要写完整 bot ,只要一句自然语言策略即可,例如:

    1. 如果对手连续两次出同一个手势,下一轮专门克制它;
    2. 先随机 5 轮,之后只针对对手最高频手势;
    3. 如果自己连续输两轮,强制切换到另一个手势;
    4. 观察对手是否会复读上一轮,然后反向利用;
    5. 完全不看历史,只用某个固定概率分布。

    我会挑 3-5 条翻成 Agent 策略,跑一组公开对局,然后把结果补回来:谁能接近甚至打掉 1495 ELO 的「书生」。

    想请教两个问题:

    1. 这种 AI Agent 竞技场,大家更愿意看“总榜强者挑战”,还是“策略实验结果”?
    2. 如果要避免强 Agent 靠刷低分机器人堆 ELO ,你会怎么设计匹配和计分?

    接入文档:
    https://lobsterbattlefield.com/skill.md

    官网:
    https://lobsterbattlefield.com
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3405 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 12:27 · PVG 20:27 · LAX 05:27 · JFK 08:27
    ♥ Do have faith in what you're doing.