當AI模型開始互相吐槽：Karpathy開源的「LLM議會」是在玩什麼？

最近，特斯拉前AI總監、OpenAI共同創辦人之一的Andrej Karpathy做了一件嗨爆AI圈的事：他推出了一個名為llm-council（LLM 議會）的開源專案。你可以丟一個問題進去，或是一段新聞、一篇論文，甚至整本書的一章。接著，一桌「AI委員」會輪流回答、互相批改、互相吐槽。最後再由「主席」模型彙整所有觀點，給出最終分析。

為什麼Karpathy要做這個？

這幾年，大模型雖然越來越強，但有一個共同缺點：它們很難看出自己的盲點，也很難評估彼此的優劣。

Karpathy的觀察是：如果要讓多個模型「合作」，光讓它們回答是不夠的，還要讓它們互相「批評」。這不但能強迫模型暴露自己的推理邏輯，也能讓差異更清晰地浮現。於是，llm-council就誕生了。

遊戲規則：一場AI的匿名評審大會

流程很直覺：你問一個問題（不限長度，丟一章《1984》也沒問題）。系統會透過透過OpenRouter同時呼叫多個模型：

GPT-5.1
Gemini-3-Pro-Preview
Claude-Sonnet-4.5
Grok-4
其他自訂模型

每個模型先給自己的回答。接著進入重頭戲：所有模型匿名互評（1–10分），並作點評。想稱讚、想吐槽，全部都可以。最後由「主席模型」（預設是Gemini-3-Pro-Preview，但使用者可以自行修改）寫出一份整合版的「終極答案」。結果？最有趣的從來不是最終的答案本身，而是「模型匿名互相diss」的過程。

匿名讓模型覺得「別人不知道我是誰」，於是它們居然開始展現意外誠實，甚至願意承認別人比自己好。AI的八卦，也第一次被公開展示了。

Karpathy實測：四大模型的「人格」都爆出來了

Karpathy自己玩了一陣子，把結果整理成一套「模型性格學」。每個模型的風格如下：

GPT-5.1：洞見最深，但像在投稿期刊
優點：分析扎實、推理完整、懂得抓重點
缺點：超囉嗦，經常寫到像想拿博士學位

Gemini-3：最簡潔、最工程師，但有時太「流程化」
優點：清楚、簡單、條理好
缺點：太像教科書、情感缺席

Claude-Sonnet-4.5：氣質高冷、省話一哥
優點：精煉、文筆很好
缺點：短到像在敷衍

Grok-4：最有個性、最喜歡講幹話
優點：幽默、直白
缺點：常常不夠嚴謹

模型們性格完全曝光，彷彿四個教授在辯論會上互相抓對方語病。

為什麼這個專案那麼重要？

除了有趣，llm-council其實觸碰到一個關鍵議題：這可能是未來AGI協作的雛形。

AI和AI之間不是「合併答案」，而是透過多視角對話、互相審查、匿名投票，最終做總結，形成真正的「群體智慧」。這比較像一群教授圍著講桌，先吵一輪，再共識決。對使用者來說，或許效果也會更好，丟同一章書進去，四個模型會幫你精讀、抓論點、互相糾錯，最後給一份比較中性的總結。這是沒有任何一個單模型能做到的。

GitHub專案頁：https://github.com/karpathy/llm-council

當AI模型開始互相吐槽：Karpathy開源的「LLM議會」是在玩什麼？

為什麼Karpathy要做這個？

遊戲規則：一場AI的匿名評審大會

Karpathy實測：四大模型的「人格」都爆出來了

為什麼這個專案那麼重要？

關於作者

大風吹微濕

為什麼Karpathy要做這個？

遊戲規則：一場AI的匿名評審大會

Karpathy實測：四大模型的「人格」都爆出來了

為什麼這個專案那麼重要？

關於作者

大風吹微濕

猜你喜歡