我們曾討論過讓AI玩Minecraft,甚至是在寶可夢裡面打道館,那還能怎樣測試它的理解力與推理能力呢?來玩一場需要記憶案情、識破謊言、適時提出證據的經典遊戲——《逆轉裁判》。
由UC San Diego的Hao AI Lab所開發的Game Arena測試平台,在讓AI玩過超級瑪利歐、Candy Crush後,近期公開一項最新的測試:讓各家大型語言模型在《逆轉裁判》中扮演辯護律師,挑戰以語言為主,輔以圖像辨識的遊戲任務,從而觀察它們的表現。

《逆轉裁判》是什麼?
如果你還不知道這遊戲在做什麼,先簡單介紹一下。《逆轉裁判》最初由卡普空於2001年推出,是一款以法庭劇情與層層推理著稱的視覺小說遊戲。
說起來也很巧,最近我剛好自己開始玩《逆轉裁判》,所以看到這個測試時就覺得很有趣。畢竟這遊戲說簡單也不算簡單,玩起來其實頗吃觀察力與耐心。不只要跟不同角色對話,還得調查現場、蒐集證物,甚至在法庭上抓準時機提出正確證物才能破解對方說詞。坦白說,就算是人類,也很容易卡關。能否讀懂角色對話?能否記住重要細節?能否根據線索在正確時間出手?這些條件拼湊出來的,是對未來AI作為推理型代理人的初步驗證。
AI遊戲代理怎麼玩《逆轉裁判》?
Game Arena測試平台採用Gaming Agent系統,是一套開源AI遊戲代理框架,目標是在主機環境中測試語言模型如何處理多樣的互動式任務。說白了,這套Gaming Agent就像是給語言模型一個大腦,有不同腦區負責不同分工,讓它可以自己玩遊戲、記住資訊、做出決策。
在《逆轉裁判》專案中,團隊建立了一個多模組的運作架構,模擬人類進行案件推理的過程。它包含了數個模組,分別負責不同任務:
・視覺模組:分析畫面中的角色、證物與文字資訊。
・證據模組:記錄並整理證物資料。
・短期記憶模組:保留最近的遊戲對話與事件。
・長期記憶模組:記錄整體劇情與角色互動脈絡。
・記憶檢索模組:整合短期與長期記憶以做出合理判斷。
所有這些模組的輸出,會透過一個多數決策略系統來整合,最後,就像大家開會投票一樣,AI會參考所有模組的建議,由多數決來決定該做什麼動作。像是要不要跳過對話?現在該不該出示證物?進而在《逆轉裁判》遊戲中通關。
實驗怎麼做?讓模型一起來「推理辦案」
這次的測試主要鎖定《逆轉裁判》第一章「最初的逆轉」,讓每個語言模型從案件發生開始,一步步參與辦案流程,包括調查現場、與證人對話,最後還要在關鍵時刻提出正確的反駁證詞。參與測試的包含來自OpenAI、Anthropic、Google、Deepseek、Meta等多個版本的眾家語言模型。

誰才是真正的王牌辯護人?測試結果出爐
來看看結果吧。整體表現最好的是GPT-o1(2024-12-17),拿下最高分26分,緊追其後的是GPT-o3(2025-04-16),取得23分,再來是Gemini 2.5 Pro,穩定闖到第四關,拿下20分。
另外,GPT-4.1雖然是較新版本,但表現與Claude 3.5差不多,在這場推理實戰中並未展現明顯優勢,說明不是模型越新就表現越好。而墊底的則是LLaMA-4 Maverick,一分都沒有拿到。

Hao AI Lab除了公布哪個模型破案技巧較好之外,也公布了誰比較省錢。
從成本來看,Gemini 2.5 Pro可說是高CP值的選擇。在第二關這種對話量大、劇情長的任務中,GPT-o1成本高達45.75美元,而Gemini只花了7.89美元,便宜超過六倍。
所以可以說,GPT-o1是「高效但高價」的王牌律師,而Gemini或許就是「穩定又省錢」的公設辯護人。如果今天你不是要在法庭上打世紀大案,而是追求效能與成本平衡,Gemini或許會是更實際的選擇。
相較傳統的邏輯測試或知識問答,像《逆轉裁判》這類敘事、圖像與互動並重的遊戲,能夠更全面地測出模型在多步推理、記憶整合、決策策略上的真實能力。畢竟,一位真的律師,不只是要背誦法條,還要懂得世間的人情世故。
不過,目前看來,就連最強的GPT-o1也還無法完全破完第一章節。至少在這場推理遊戲裡,人類或許還暫時守住了優勢。