二次元愛好者的地獄？圖片轉3D的AI生成模型TripoSR問世

生成式AI應用的發展總是令人目不暇給。OpenAI Sora的超逼真影片、前陣子才介紹的Google Genie用AI生成遊戲畫面，如今AIGC又入侵了一個與虛擬世界更相關的領域——平面圖片轉3D物件，而這套「TripoSR」，正是Stability.AI與Tripo AI合作的最新開源AI模型。

Today we are releasing TripoSR in collaboration with @StabilityAI .
TripoSR is a new image-to-3D model capable of creating high-quality outputs in less than a second. pic.twitter.com/7UF8iKWaHR
— Tripo➡️GDC (@tripoai) March 4, 2024

LRM：平面轉3D的「大型重建模型」

Stability.AI，是文字生圖片開源模型Stable Diffusion背後的公司；而Tripo AI，則是主打「文字生成3D模型」的生成式AI工具。雙方合作的原因，是受到一篇Adobe去年底（2023年11月）發表的論文〈LRM：圖片轉3D的大型重建模型〉（LRM: Large Reconstruction Model for Single Image to 3D）而啟發。

論文提出的所謂LRM（大型重建模型），是基於Transformer架構，可直接從平面圖片「重建」出神經輻射場（NeRF），也就是逼真的3D物件。更厲害的是，他們號稱LRM只需要5秒鐘就能完成3D物件的重建。

看到這邊，你大概已經能想像LRM的應用了。不管是VR和虛擬世界中的娛樂和遊戲，還是專業應用場域如工業設計和建築，圖片轉3D，不需人工建模，省下了大量的成本與時間。

TripoSR又快、又好、又便宜？

說了這麼多，TripoSR到底有什麼厲害呢？且聽我快速重點總結。

根據官方資訊，在使用一張Nvidia A100晶片的情況下，它只需要0.5秒就能從圖片生成出3D模型，大幅比LRM的5秒還要快。另外，它所重建的3D模型品質，也比LRM更好。是的，生成的速度更快、生成的品質又更好。但你以為只有這樣嗎？除了速度又快、品質又好，TripoSR還破解了設計不可能三角（Trilemma），也就是甲方最愛的，便宜。Stability.AI宣稱，TripoSR不同於市面上其他的大型重建模型，即便是在低推理的預算下（甚至不需要GPU）也能夠運行。

看起來效果不錯，簡直令人難以置信，看到AI如此迅速發展，又是這種慘遭3D的事，我開始擔心起二次元朋友的心情。於是，我也找到他們的TripoSR Demo頁面小試身手。嗯，讓我們直接看結果。