最近,特斯拉前AI總監、OpenAI共同創辦人之一的Andrej Karpathy做了一件嗨爆AI圈的事:他推出了一個名為llm-council(LLM 議會)的開源專案。你可以丟一個問題進去,或是一段新聞、一篇論文,甚至整本書的一章。接著,一桌「AI委員」會輪流回答、互相批改、互相吐槽。最後再由「主席」模型彙整所有觀點,給出最終分析。

為什麼Karpathy要做這個?
這幾年,大模型雖然越來越強,但有一個共同缺點:它們很難看出自己的盲點,也很難評估彼此的優劣。
Karpathy的觀察是:如果要讓多個模型「合作」,光讓它們回答是不夠的,還要讓它們互相「批評」。這不但能強迫模型暴露自己的推理邏輯,也能讓差異更清晰地浮現。於是,llm-council就誕生了。
遊戲規則:一場AI的匿名評審大會
流程很直覺:你問一個問題(不限長度,丟一章《1984》也沒問題)。系統會透過透過OpenRouter同時呼叫多個模型:
GPT-5.1
Gemini-3-Pro-Preview
Claude-Sonnet-4.5
Grok-4
其他自訂模型
每個模型先給自己的回答。接著進入重頭戲:所有模型匿名互評(1–10分),並作點評。想稱讚、想吐槽,全部都可以。最後由「主席模型」(預設是Gemini-3-Pro-Preview,但使用者可以自行修改)寫出一份整合版的「終極答案」。結果?最有趣的從來不是最終的答案本身,而是「模型匿名互相diss」的過程。
匿名讓模型覺得「別人不知道我是誰」,於是它們居然開始展現意外誠實,甚至願意承認別人比自己好。AI的八卦,也第一次被公開展示了。
Karpathy實測:四大模型的「人格」都爆出來了
Karpathy自己玩了一陣子,把結果整理成一套「模型性格學」。每個模型的風格如下:
GPT-5.1:洞見最深,但像在投稿期刊
優點:分析扎實、推理完整、懂得抓重點
缺點:超囉嗦,經常寫到像想拿博士學位
Gemini-3:最簡潔、最工程師,但有時太「流程化」
優點:清楚、簡單、條理好
缺點:太像教科書、情感缺席
Claude-Sonnet-4.5:氣質高冷、省話一哥
優點:精煉、文筆很好
缺點:短到像在敷衍
Grok-4:最有個性、最喜歡講幹話
優點:幽默、直白
缺點:常常不夠嚴謹
模型們性格完全曝光,彷彿四個教授在辯論會上互相抓對方語病。
為什麼這個專案那麼重要?
除了有趣,llm-council其實觸碰到一個關鍵議題:這可能是未來AGI協作的雛形。
AI和AI之間不是「合併答案」,而是透過多視角對話、互相審查、匿名投票,最終做總結,形成真正的「群體智慧」。這比較像一群教授圍著講桌,先吵一輪,再共識決。對使用者來說,或許效果也會更好,丟同一章書進去,四個模型會幫你精讀、抓論點、互相糾錯,最後給一份比較中性的總結。這是沒有任何一個單模型能做到的。
GitHub專案頁:https://github.com/karpathy/llm-council




