目前靠谱的 AI 模型水平排行榜有哪些？ marena.ai 的 leaderboard 是否值得参考？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 294 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前靠谱的 AI 模型水平排行榜有哪些？ marena.ai 的 leaderboard 是否值得参考？

我看经常有大佬们提及 https://lmarena.ai/?leaderboard ，但是我看 gpt-4o 居然排名第二，比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码，感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的，gpt-4o 提供的有时候不能使用。

有没有靠谱的 AI 模型水平排行榜？ marena.ai 的 leaderboard 的排名依据是啥？应该不是生成代码能力吧？

排行榜

marena.ai

5 条回复 • 2025-02-17 01:48:02 +08:00