OpenAI出招!釋出生成式AI Sora:不只是影像模型,更是世界模擬器!

你也被Sora生成的影像洗版了嗎?

今日(2/16)凌晨,OpenAI執行長Sam Altman先是在X徵求網友想看的影像敘述,還說不要怕太難太多細節,隨後便釋出由Sora生成的網友許願影片,例如:

兩隻黃金獵犬在山頂錄podcast。(有夠可愛)

海上自行車比賽:以無人機攝影的視野呈現不同海洋動物騎著自行車。(超ㄎㄧㄤ)

藍袍巫師一手放出閃電一手拿著咒語書。(相較之下很正常?)

藉此正式宣告Sora問世啦。


Sora可以做什麼?

1.根據文字描述生成60秒的影像,包含精細的場景,生動的角色表情,複雜的鏡頭運動,且最高解析度可達2048×2048,超級擬真。

2.除了文字作為提示外(text-to-video),還能透過圖片與影像生成影像。

3.增加既有影片長度,向前或向後製造影像,甚至藉此無限循環的影片。

4.編輯影片:例如將影片背景改成叢林,以及非常有趣的模擬「數位世界」能力,例如輸入「Minecraft」,便可將影片渲染成Minecraft畫面風格。

5.縫合連接兩個不同的影片,例如將無人機影片與蝴蝶飛行畫面混合,讓飛行中的無人機瞬間幻化成蝶。


Sora目前的侷限

目前,它還不能準確模擬一些相互作用的基礎物理過程,例如玻璃杯是如何在桌面上摔碎的(可參考下方影片)。此外,Sora仍處於測試階段,並未宣布何時向公眾開放,目前僅提供給特定人士,如藝術家、設計師、電影製作人等,藉此獲得回饋,精進模型。OpenAI指出,安全性正是它們的關鍵考量。


將帶來怎樣的改變?

可以想像,如果網路上出現許許多多無從區分真假的影像,將對世界帶來怎樣的混亂。因為需注意的是,OpenAI並未將Sora定位成影片生成模型,而是「世界模擬器」(world simulators):不只是以假亂真,而是一個數據驅動的物理引擎。

目前X上已有不少關於Sora可能帶來的革命性影響討論,例如動畫師、3D影像製作者何去何從,素材影像網站受到的衝擊,零門檻的學習/製作成本湧現的創作價值或貶值(好萊塢大片抖音化?),顛覆影片盈利市場,以及或許是最具啟發的:

當每個人都可以製作出好萊塢大片,背後的idea跟故事將變得彌足珍貴。

當然,在Sora正式向大眾釋出之前這些都只是空想,一如其他AI模型甫問世時帶來的恐慌與熱度討論。期待Sora真正實力之時,未來人類如何在與AI協作的同時保持批判性思考,以及自身的創造力,仍是我們值得參考的準則。

訂閱電子報

返回頂端