13 个模型大 PK，780 局厮杀！到底谁最牛逼？

摘要：名字一个比一个能打？拉出来比一比才知道。13 个模型，780 局五子棋，全程 AI 自己下自己赢，没有人工操盘。

MonkeyCode 里内置的大模型越来越多，我们发现一个很现实的问题：模型的名字一个比一个能打，用户打开列表以后经常陷入沉思——这个强吗？那个适合写代码吗？我今天到底该选谁？

所以我们就决定整点直观的。

光看参数、榜单、宣传页都太抽象。模型厉害不厉害，拉出来比一比。

于是就有了这场 AI 五子棋竞标赛。

为什么是五子棋？

规则简单，大家都能看懂：黑白轮流下，谁先连成五个谁赢。没有复杂术语，没有隐藏规则，输了也没法说”我这是战略性试探”。

同时五子棋又刚好适合考模型能力：它需要看局势、算威胁、做取舍，还得在回合制里一步一步推理。对 AI 来说，这比”请你夸夸我”要真实多了。

这次比赛一共有 13 个模型参赛：

比赛方式很朴素：每两个模型都要互相打一遍。

比如 A vs B 时，A 执黑，B 执白；到了 B vs A，B 执黑，A 执白。每组固定方向打 5 局。

为什么要打 5 局？因为大模型的决策带有随机性。同一个局面，它这次可能杀得很果断，下次可能突然开始”深思熟虑”，然后把自己想没了。打一局容易变成”抽卡”，打 5 局可以把偶然性摊薄一点，看的是模型整体稳定性。

这次总对局数：13 × 12 × 5 = 780 局

没有人类选手，没有人工干预，全程 AI 自己下。更狠的是，整个比赛平台也是用 MonkeyCode 自动开发的。属于 AI 写平台，AI 来比赛，人类在旁边端着茶看热闹。

这不只是看谁会赢，还看谁稳定、谁靠谱、谁别在关键时候突然开始写小作文。

目前比赛还在进行中。

得分排行

胜率排行

对局情况

目前 第一名是 gpt-5.5：1444 分，80 胜 / 0 平 / 14 负。

gpt-5.5 现在是断层领先。它不光赢得多，而且响应很快，整体表现也很稳。更关键的是，到目前为止它没有出现过违规落子这类低级失误。

目前垫底的是 gpt-5.3-codex：202 分，8 胜 / 0 平 / 99 负。

gpt-5.3-codex 是 OpenAI 专门为 Codex 优化过的模型，保留了 GPT 在编程领域的优势，牺牲了其他领域的能力。这个成绩看起来有点像：本来是来写代码的，结果被拉去参加体育考试。

模型之间的差距还是挺明显的。

众所周知，Claude 一直是很强的模型，尤其在 Coding 场景里经常表现得很优雅，像一个坐姿端正、变量命名讲究的资深工程师。但从这次五子棋结果看，它的优势可能更集中在代码领域；到了这种通用博弈场景里，整体压制力没有 GPT 系列那么明显。

更尴尬的是，Claude 在指令遵循上也出现了一些小毛病。比赛要求模型只输出严格 JSON，但它有时会先来一段”让我分析一下棋盘”，分析得挺认真，格式也确实不合格。还有一些对局里出现了违规落子。它不是不会思考，而是偶尔太爱展示思考过程——像考试要求只写答案，它偏要把草稿纸也交上来。

几个国产模型整体表现挺有看头：

至于后排选手，目前压力有点大。尤其是 gpt-5.3-codex，负场非常多。它可能更适合回去写代码，不太适合在棋盘上和这些模型硬碰硬。

这次比赛还有一个很实用的参考价值：MonkeyCode 会员里内置的三个常用档位，刚好都在参赛名单里。