Google DeepMind推出Genie 3世界模型:即時生成互動遊戲,為AI開闢通往AGI的試煉場

生成式AI能夠生成文字、圖片、影片,那麼生成世界可能嗎?自從Google推出Genie系列微軟推出WHAMM以來AI在世界模型的應用想像就被打開了。雖然多數人第一時間會聯想到的是:「這是不是可以拿來生成遊戲?是不是下一代元宇宙平台的雛形?」這樣的聯想並不奇怪,畢竟這些模型看起來就像是互動3D空間的生成器。

但實際上,這類模型的重點或許不在於生成讓人娛樂的空間,而在於為AI代理提供一個能夠反覆嘗試、推理與學習的訓練場域。問題是,過去的模型普遍存在的最大問題,就是缺乏一致性。這次,升級後的Genie 3不只是讓畫面升級、操作更即時,更首次實現了跨分鐘的空間一致性,讓訓練可以真正發揮效益,也為通用人工智慧(AGI)的發展奠定了更具體的基礎。

Genie 3可以生成極為擬真的3D虛擬空間。(來源:Google DeepMind)


Genie 3是什麼?升級版的世界模型

在Google DeepMind的定位裡,Genie 3是一款通用型世界模型(general purpose world model),它能在720p、每秒24幀的即時狀態下,根據文字提示生成可自由探索的互動環境。與上一代 Genie 2相比,最大的進化有三:

1. 即時操作和移動(Real-time Navigation)

以往的模型,不論是Genie 2還是WHAMM,要麼互動較為延遲,要麼只能短暫維持場景。Genie 3則能在使用者輸入操作後,瞬間更新畫面並回應,讓探索感真正接近遊戲引擎的即時性。

2. 跨分鐘的一致性(Long-horizon Consistency)

在連續互動的過程中,Genie 3能記住並維持先前生成的場景狀態——哪怕玩家在一分鐘後回到原地,場景中的物件、光影甚至天氣仍能對得上,減少了物理錯亂的突兀感。比方說你走過某棵樹,再繞一圈回來,它還在原地,不會憑空消失或變樣。

Genie 3能夠達成空間的一致性,仰賴的是「自回歸生成」(auto-regressive generation)技術,意思是模型在產生下一幀畫面時,會參考它剛剛生成的前一幀,不斷接著自己的輸出往下生成。

挑戰在於,「記憶範圍」會隨著遊玩時間越來越長。像Genie 3這樣能記住一分鐘前的細節,其實已經很不容易,它必須同時顧好短期記憶(一分鐘前你走過哪、東西在哪)和即時反應速度(你的新操作馬上反映出來),才能達到流暢且一致的互動體驗。

3. 可提示事件(Promptable World Events)

除了走動、觀察等基本操作,這次,Genie 3新增了「可提示事件」功能。使用者可以透過文字指令即時改變世界條件,就像上帝一樣。例如切換天氣、加入新角色或物件,甚至觸發劇情式變化,讓互動從單純的空間探索,擴展到故事與情境的動態生成。像在demo中,就讓一頭棕熊突然出現於草原場景、甚至是飛天巨龍從天而降在倫敦河道中。


不只是遊戲:AI代理的試煉場

雖然Genie 3在視覺上看起來很像一款「隨時生成的互動遊戲」,但它的核心價值,其實是為AI代理(agent)提供一個可反覆嘗試、持續推理的模擬世界。

這裡的AI代理,不是單純的聊天機器人,而是具備感知、決策、行動能力的虛擬「行動者」。Google DeepMind先前推出的SIMA(Scalable Instructable Multiworld Agent)就是代表的例子。SIMA被設計成能在多種3D虛擬環境中接受指令,自己去觀察、規劃,並一步步完成任務。例如Demo中,可以指示它去市場買特定東西、在博物館找到某個展品,甚至完成多個步驟才能達成的複雜任務。

(來源:Google DeepMind)

在過去,SIMA這類代理常受制於環境的一致性與可預測性:場景若在短時間內發生不合邏輯的變化,代理的決策鏈就會被打斷,無法真正「學會」應對長期情境。Genie 3的跨分鐘一致性,正好解決了這個問題。現在,AI代理可以在同一個持續存在的世界中連續執行數十個動作,並記住自己行為的過程與結果。

更關鍵的是,Genie 3的Promptable World Events讓研究者可以即時引入新變量,像是突如其來的天氣變化、陌生角色的加入、甚至完全改變任務條件,迫使代理在不確定的情境下重新評估策略。這種「假設性情境」(counterfactual scenarios)是通往通用人工智慧的必經之路,因為它要求AI不只是照著既定劇本走,而是能靈活應對任何可能發生的事。

未來,不論是要培養自駕車、協作機器人的控制系統,還是能自主完成任務的數位助理,這種「世界模型」都將是它們的起點與試驗場。


Genie 3或許還不足夠

Genie 3雖然已經能達到數分鐘的一致性,但仍舊還有許多不足:

執行行為有限:現在的代理雖然能走動、觀察、與環境互動,但可直接執行的行為種類仍不多。許多世界事件需要透過指令觸發,而不是代理自己完成。

多代理互動不成熟:讓多個AI在同一個世界中各自行動、相互影響,還是難題。要讓它們像真實人群那樣同時存在並互動,對世界模型來說仍是高難度的挑戰。

持續時間受限:跨分鐘一致性已經是重大進步,但目前仍無法支撐數小時甚至數天的連續任務。對需要長期策略規劃的AI來說,這是一道天花板。

真實場景還原度有限:即使能生成博物館或市場,這些空間與真實世界的地理與細節並不完全對應,因此在需要精準模擬的任務中會有落差。

這些限制也意味著,Genie 3暫時還只是個「封閉的試驗場」,還沒辦法讓AI長期駐留、慢慢累積經驗。DeepMind這次選擇用「限量研究預覽」的方式開放,先交給一小部分學術單位和創作者試用,邊收集回饋邊觀察,逐步壓力測試這個世界能承受多大的複雜度與變化。畢竟,要通往AGI,模型所生成的世界還需要更長的記憶、更有機的行動,以及能與多個智能體同場互動的能力。


從Genie、Genie2、WHAMM,到現在的Genie 3,世界模型已經從生成影片、生成3D場景,進化到能維持一致性的3D空間。或許,我們離一座能有機互動的AI虛擬小鎮,已經沒那麼遙遠了。

返回頂端