是什麼東西讓人類與其他動物有所不同?這一直是一個發人深省的問題。自人屬的命名來看,從我們經常聽到的「巧人」(Homo habilis),即暗示著人在製造和使用工具的能力;而「直立人」(Homo erectus)更說明著人因為能夠直立行走,進而解放了雙手,有著與效率有關的暗示;至於現存唯一的人屬成員「智人」(Homo sapiens),也就是在座的你我,則說明著我們最引以自豪的智慧,強調人類在認知和抽象思維的獨特性。
而這一切,都始於電腦的出現而逐漸鬆動。人類相信,終有一天,我們會在智慧上會被AI超越。想想看1950年的圖靈測試,和今日的大型語言模型和各種聊天機器人,還有誰有自信能夠「盲測」出誰是AI、誰是真人呢?
於是,種種為了AI模型設計的基準測試(benchmarks),成為如今最能鑑測AI能力的客觀指標了。這就來到今天想聊聊的——「人類的最後考試」。
「人類的最後考試」有多難?
一開始聽到「人類的最後考試」(Humanity’s Last Exam)的時候,我對它直白的命名,以及它蘊含的科幻味和中二感到頗為訝異。
「人類的最後考試」,正如其名,是有鑒於目前市面上各種針對大型語言模型的基準測試都被破解得差不多,得分都在90分以上了。為了因應AI模型迭代的速度,由致力於降低AI風險的非營利機構Center for AI Safety,以及為企業與政府機構評估與建立AI系統的新創Scale AI聯手,囊括來自全球超過50個國家、500間大學與學術機構,1000名左右的教授和研究者,來設計這組跨學科的「人類的最後考試」。
以目前的幾個最新的SOTA模型的表現,它們在「人類的最後考試」測驗分數都非常低。比方目前OpenAI最新的o3-mini (high),才獲得準確率13%的成績,而前陣子震撼西方世界的中國開源模型DeepSeek-R1的準確率也才9.4%。

「人類的最後考試」考些什麼?
根據目前在Hugging Face上的公開資訊,「人類的最後考試」的數據集共有3000道題目,其中以數學考題為大宗(佔了42%),其次是物理學(11%)和生物與醫藥(11%),再來是電腦科學與AI(9%),而人文與社會科學也佔了8%。文組生點進人文與社會科學一看,歷史學、語言學、哲學、文學、經濟學、財金、法律、古典、文化研究、宗教研究、管理學、人類學、考古學、心理學、政治學、教育學、社會學⋯⋯應有盡有。
但為了避免考題外洩被拿去模型訓練,數據集的題目多為保密集(private set),僅在模型測試時才會被使用。雖然多為保密,但他們還是公開了一些示範考題。
比方說,在古典學的考題中,有列了一題關於羅馬銘文的翻譯考題;另外,生態學是一題有關蜂鳥的籽骨支撐著多少對肌腱的題目;而語言學,則考了希伯來聖經研究與古希伯來語發音的問題;冷知識的部分,看起來卻是一道感覺不難的考題:希臘神話中,傑森的外曾祖父是誰?
嗯。先不管誰是傑森,但想必推論親屬關係,對AI而言也不太容易,畢竟我每年過年的時候也是傷透腦筋的。

羅馬銘文我是看不懂啦。(來源:Humanity’s Last Exam)
即便是有著考題不公開,以及集合眾多跨領域學者的智慧,人類的防守恐怕就像《進擊的巨人》島上的那三道城牆,終有被巨人攻破的一天。

就在差不多一週前,OpenAI因應DeepSeek的威脅,展示其在AI的領先優勢,發表了研究型AI代理Deep Research,隨即就在「人類的最後考試」達到26.6%的準確率。由於付月費200鎂才能用的Deep Research使用的是尚未公佈的o3 model,由此可見,完整版o3比起o3-mini (high)是進步了一倍不止。
不過,「人類的最後考試」其實也有自己打預防針:「有鑒於人工智慧發展的快速步伐,到2025年底,AI模型在人類的最後考試的準確率有可能會超過50%。」2025年才過兩個月,目前就已經突破26%,接下來呢?戰況恐怕不樂觀。會不會還有「最後的最後」考試呢?想一想,這就像是我每次存檔時,都會在檔名加一個「final」,接著肯定也都還會有「final_1」、「final_2」、「final_3」。只希望人類多加油,繼續為Homo sapiens這個智人頭銜再加把勁了。





