二次元愛好者的地獄?圖片轉3D的AI生成模型TripoSR問世

生成式AI應用的發展總是令人目不暇給。OpenAI Sora的超逼真影片、前陣子才介紹的Google Genie用AI生成遊戲畫面,如今AIGC又入侵了一個與虛擬世界更相關的領域——平面圖片轉3D物件,而這套「TripoSR」,正是Stability.AI與Tripo AI合作的最新開源AI模型。


LRM:平面轉3D的「大型重建模型」

Stability.AI,是文字生圖片開源模型Stable Diffusion背後的公司;而Tripo AI,則是主打「文字生成3D模型」的生成式AI工具。雙方合作的原因,是受到一篇Adobe去年底(2023年11月)發表的論文〈LRM:圖片轉3D的大型重建模型〉(LRM: Large Reconstruction Model for Single Image to 3D)而啟發。

論文提出的所謂LRM(大型重建模型),是基於Transformer架構,可直接從平面圖片「重建」出神經輻射場(NeRF),也就是逼真的3D物件。更厲害的是,他們號稱LRM只需要5秒鐘就能完成3D物件的重建。

看到這邊,你大概已經能想像LRM的應用了。不管是VR和虛擬世界中的娛樂和遊戲,還是專業應用場域如工業設計和建築,圖片轉3D,不需人工建模,省下了大量的成本與時間。


TripoSR又快、又好、又便宜?

說了這麼多,TripoSR到底有什麼厲害呢?且聽我快速重點總結。

根據官方資訊,在使用一張Nvidia A100晶片的情況下,它只需要0.5秒就能從圖片生成出3D模型,大幅比LRM的5秒還要快。另外,它所重建的3D模型品質,也比LRM更好。是的,生成的速度更快、生成的品質又更好。但你以為只有這樣嗎?除了速度又快、品質又好,TripoSR還破解了設計不可能三角(Trilemma),也就是甲方最愛的,便宜。Stability.AI宣稱,TripoSR不同於市面上其他的大型重建模型,即便是在低推理的預算下(甚至不需要GPU)也能夠運行。

看起來效果不錯,簡直令人難以置信,看到AI如此迅速發展,又是這種慘遭3D的事,我開始擔心起二次元朋友的心情。於是,我也找到他們的TripoSR Demo頁面小試身手。嗯,讓我們直接看結果。

大家可以回家了。嗯,沒啦,或許我不太會微調。試玩了幾張圖,有芙莉蓮的動畫、公仔、也有AI軍火商黃仁勳的照片,還有黃色小鴨。有時3D模型會扁扁的,得多試幾次,而不論是真人還是公仔,五官也不是很清楚,黃色小鴨大概這批測試裡效果最好的,不過光線過曝的話,3D物件會直接破圖。

不過,TripoSR模型程式碼和模型權重目前都已經公佈在GitHub和Hugging Face上了,它究竟能不能變得更厲害、更神奇?還有請開發者和設計師去實驗看看了。

返回頂端