研究團隊訓練3D-LLM，要讓AI聊天機器人「看懂」真實世界

目前，許多大型語言模型（Large Language Models，LLMs），如 GPT-4，都在多種任務上表現出色，除了語言溝通和常識推理外，目前在2D圖像辨識上也頗有進展。然而，對於「看懂」甚至搞懂3D世界與物理空間而言，AI仍有許多限制。

在我們日常生活中，人類會以一種豐富且獨特的方式來理解我們周圍的世界，包括空間關係、物體可能的用途以及物體的布局等等。想像一下，當你看到桌上的一個水杯，你不只知道它是一個水杯，你能理解它的大小、形狀、用途以及它與其他物體的相對位置。對於人類來說，這種物理空間中的認知似乎很自然而然，但對於AI而言，這絕對是個嚴峻的挑戰。不過，一種名為3D-LLM（3D Large Language Models）的新興技術可能將改變這種情況。

如何訓練3D-LLM

為了訓練大型語言模型能具備空間推理能力，研究人員透過「3D特徵提取器」和「3D定位機制」進行訓練。

考量到現有的3D模型-文本資料集規模遠不及2D圖像-文本資料集，再加上2D圖像領域已經存在很多優秀的預訓練模型。因此，研究團隊採用3D特徵提取器，這個工具可以從2D圖像中抽取出3D的特徵。簡單來說，這就像是讓AI從多張照片中學習一個物體的立體結構。而3D定位機制則負責解讀這些數據，讓AI知道每個物件在3D空間中的位置，就像我們在一個房間裡可以識別出各種物體並了解他們的位置關係一樣。

這種理解方式讓AI從純粹的物體識別提升到了理解物理世界中的空間關係、物理規則以及潛在的可能性。

AI助理升級家務小幫手，自駕車不再直直撞

想想你的AI助理或是ChatGPT現在能幫你做些什麼？有連網的話還能查查資料、訂餐廳、放音樂、講笑話，沒連網的話，可以進行一些哲學式的討論或幫你寫寫email吧。不過，別忘了，我們還是生活在有血有肉的物理世界，很多俗世獨有的麻煩事，不具肉身的AI可是難以理解或幫上忙的。

假設今天AI助理搭配上3D-LLM技術，你或許只需要打開手機鏡頭掃一掃你家，這AI助理就開始能提醒你廚房裡右邊那袋垃圾放太久該丟了、冰箱第二層的那盒優格過期了、你家的橘貓吃太多該減肥了，種種現實世界的日常瑣事都被他「搞懂」，雖然光用想的就覺得有點囉唆，但聽起來是不是很神呢？

再讓我們來談談馬斯克經常掛在嘴邊的全自動輔助駕駛（full self driving，FSD）。

近年來，我們見證了自動駕駛技術的巨大進步，但確實還存在一些關鍵的技術挑戰需要克服。其中，最關鍵的就是要讓自動駕駛系統正確的理解和解釋周邊的環境，並根據這些資訊推理出準確和有效的駕駛決策。

若自動駕駛結合上3D-LLM技術，不僅能讓系統理解更複雜和豐富的情境資訊，像是行人的手勢、路標或語音指示等，還可以改進自駕車與人的互動，當自駕車需要詢問方向、解釋自己的行為或回答乘客的問題時，3D-LLM可以讓自駕車理解並產生自然語言，從而加強操作的可行性，比如，車輛可以生成語言來解釋它為什麼選擇了某個路線，或者它為什麼要減速或改變方向等。

隔壁同事大風吹微濕眉頭一皺，高呼：「這不就是霹靂遊俠嗎？」（來源：NBCUniversal）

當然，還有許多應用場景可以想像。像是在醫學影像學中，醫生經常需要解讀來自MRI、CT掃描等3D影像，3D-LLM就可以幫助醫生更快更準確的解讀這些影像。在VR/AR領域，甚或是遊戲開發的應用上，3D-LLM也可以提供更自然和豐富的人機互動方式。使用者可以透過語言命令來控制或與虛擬世界中的物體互動，例如：「把那把椅子移動到房間的右邊。」