 
 
讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。
可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。
附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html
|  |      1x86      2023-09-06 10:37:20 +08:00 0 是 foreach 循环的时候从 0 开始了填的呗 | 
|  |      2luchenwei9266 OP @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1 | 
|  |      3ktqFDx9m2Bvfq3y4      2023-09-06 10:45:58 +08:00 via iPhone  13 甭管他们怎么评,目前我只为 ChatGPT 付费。 | 
|      4leonhao      2023-09-06 10:48:20 +08:00  1 赢麻了 | 
|  |      5BingoXuan      2023-09-06 10:49:41 +08:00 看了一下测试内容,唯一想法是为何让大模型成为做题家呢? | 
|  |      6jolanyu      2023-09-06 10:50:27 +08:00  8 (注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。) | 
|  |      7zapper      2023-09-06 10:53:20 +08:00 考霸?要来干嘛 | 
|  |      9xlsepiphone      2023-09-06 10:55:10 +08:00 榜单里面的,我只可能为 ChatGPT 付费。 | 
|  |      10SomeBodsy      2023-09-06 10:56:21 +08:00  1 文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代 | 
|      11yigecaiji      2023-09-06 11:11:31 +08:00 via Android 乐 | 
|      12idealhs      2023-09-06 11:16:26 +08:00 我们中国真是太厉害辣 | 
|  |      13Eissen      2023-09-06 11:22:21 +08:00  4 遥遥领先 | 
|  |      14BwNVlwSq      2023-09-06 11:25:21 +08:00 via iPhone  1 太酷辣 | 
|      15bt7vip      2023-09-06 11:32:02 +08:00 via Android 我也好奇,GPT4 的模型放出来了??他们可以调试?? | 
|  |      16excitedXXX      2023-09-06 11:39:42 +08:00 遥遥领先!!! | 
|      17Navee      2023-09-06 11:44:42 +08:00 单走一个 6 | 
|  |      18momo31      2023-09-06 11:50:04 +08:00 遥遥领先 | 
|  |      19chendl111      2023-09-06 12:07:49 +08:00  1 前面都是国内的,我严重怀疑测试的可靠性 | 
|      20yvescheung      2023-09-06 12:15:53 +08:00  14 在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多 | 
|      210m9ionbP8wuvs8S3      2023-09-06 12:20:50 +08:00 国产,自研,弯道超车,遥遥领先 🤣 | 
|  |      22akira      2023-09-06 12:27:48 +08:00  2 想吐槽点啥,但是槽点太多了,以至于不知道怎么说好 | 
|  |      23yiencho      2023-09-06 13:14:47 +08:00 遥遥领先,遥遥领先!~~~ | 
|      24234ygg      2023-09-06 13:17:05 +08:00  1 小镇做题家从人变模型了是吧😅 gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。 而且,最少也请做个网页版,并提供 API 。 | 
|  |      25weilongs      2023-09-06 13:22:09 +08:00 这有点 不厚道吧? | 
|  |      26h272377502      2023-09-06 13:50:04 +08:00 @bt7vip 不是有 api 吗。。。 | 
|  |      27cherryas      2023-09-06 14:17:57 +08:00 chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。 | 
|      28george2077      2023-09-06 14:46:37 +08:00 野榜不看也罢 | 
|  |      29geomancy      2023-09-06 15:02:15 +08:00 我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。 | 
|  |      30windyboy      2023-09-06 16:23:58 +08:00 又一个安兔兔吗? | 
|  |      31cheese      2023-09-06 17:48:16 +08:00 这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容 | 
|  |      32XnEnokq9vkvVq4      2023-09-06 22:10:52 +08:00 要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark | 
|      33timestamp24      2023-09-07 02:41:11 +08:00 姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。 | 
|  |      34chancat      2023-09-07 17:09:08 +08:00 via Android 一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。 |