AI會組鋼普拉?PartCrafter:只靠一張圖,就能生成分件3D模型

PartCrafter這玩意兒對鋼彈迷來說肯定不會陌生。當你拆開一盒模型,你期待的不是一隻組好的鋼普拉,而是滿滿的複雜零件,讓你可以慢慢地親手把機體組好,這才是模型收藏玩家的箇中樂趣。才熱騰騰發表的〈PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers〉就很有這個味兒。簡而言之,只要一張圖片就能轉3D模型,而且是分件化的模型,太狂了,粗暴又誇飾的說,根本就是虛擬世界組鋼彈啊。


PartCrafter是由北京大學、字節跳動AI實驗室,以及卡內基美隆大學組成的團隊聯合發表,並以我們去年介紹過的「圖片轉3D模型的TripoSR」為基底進行擴展而來。來幫大家回憶一下,TripoSR是用3D mesh diffusion transformer (DiT) 讓單張圖片生成出該物體的3D模型,但那樣的3D模型仍是單一網格(mesh),而PartCrafter想更進一步,不僅要讓AI「畫出」3D模型,還要讓它理解結構,能「組出」具備部件概念的3D模型。那要怎麼做呢?

第一個秘訣是所謂的「組合式潛空間」(Compositional Latent Space);將每個3D部件(例如頭、手臂、背包)表示成獨立的詞源(tokens),並用部件身分嵌入(part identity embedding)讓每一個部件在處理之前都加上獨特的身分編碼,防止混淆。而AI知道哪一組詞源是屬於哪個部件,就能同時生成彼此獨立的部件,而這些部件又能組合成一個完整的角色或場景。

第二的秘訣,是「局部與全域注意力」(Local-Global Hierarchical Attention);也就是讓AI同時處理各部件的內部細節,同時又能顧及部件之間的整體,既保留各部件的細節結構,又能維持整體風格的一致性。

最後,PartCrafter團隊從Objaverse、ShapeNet和ABO等等來源,搜集了13萬個3D模型(其中有10萬個3D模型是有多部件組成),再進一步優化,最終的訓練數據集包含5萬個3D模型(以及30萬個獨立的部件)。

成果相當地驚人。

目前PartCrafter剛發佈,GitHub頁面也預告未來將上架Hugging Face,開放大眾試用。如今,在AI的協助下,一張2D圖片已經能迅速轉成可以分件的3D模型;試想,如果這樣的技術應用在VRChatVIVERSERoblox等等虛擬平台,大家不就可以迅速生成虛擬化身身上的配件了嗎?比方說,我想讓avatar背上我最近逛街看到的三宅一生Bao Bao包,上傳一張照片不就行了嗎?或是你想親自設計,搞不好一張草稿圖就能搞定。虛實整合的門檻正在一步步的降低,未來真是太方便了呢。

返回頂端