從Midjourney到ChatGPT,生成式AI如雨後春筍般湧出,各路人馬皆紛紛參戰,從偏廢的「生活運用」到「內容通膨」的警示,搞得全世界彷彿只剩下「AI詠唱師」、「AI評論員」、以及「AI關我屁事」這三種人似的。許多人都說:人不會被AI取代、但是會被「會用AI的人」取代,而克拉克三定律的那句「任何先進的科技就像是魔法般難以區別」講的似是當下,AI指令變成了魔法詠唱,成為現代人的必修技能。只是,我總覺得唸咒、結手印感覺有點低階,我不禁懷疑,詠唱真的是最終形態嗎?翻開畢業紀念冊最後一頁,同學的那些「心想事成」祝福寫得滿滿,難道,我們不能心想事成嗎?直到,我看到這篇新論文。
這份熱騰騰論文的標題〈從人腦活動中使用潛在擴散模型進行高解析度圖像重建〉(High-resolution image reconstruction with latent diffusion models from human brain activity),直接講結論,不管是Midjourney、DALL·E 2,還是Stable Diffusion,這些我們近期熟知的AI生成繪畫工具都是「文字轉圖像」,而這兩位來自大阪大學前沿生命科學研究所的作者高木裕(Yu Takagi)和西本真司(Shinji Nishimoto)卻成功實現了「fMRI轉圖像」,怎麼回事?打個岔,fMRI是功能性磁振造影,原理就是用磁振造影來測量神經元活動引發的血液流動,用人腦活動來轉圖像這件事簡直就是心想事成啊。
解釋一下這張圖。受試者看到的是上排圖,而下排圖是Stable Diffusion生成的圖,是不是還原度頗高呢?
這是怎麼運作的?就一個不會寫code文組男的粗淺理解,新一代圖像生成工具是使用「擴散模型」(diffusion model),有玩過的AI生圖的人應該都有發現,我們下完指令之後,圖片會逐漸從模糊變得清晰,這是因為訓練擴散模型的方式,是讓AI學習圖片從充滿細節到變成雜訊的過程,最終它就擁有了從噪點生成一張清楚的圖片的逆向能力。想一想,AI不只有很強的預測推理和聯想能力,就像是人看過地獄會變得特別珍惜生命一樣,AI還有超厲害的自省能力啊。
對AI來說,噪點和雜訊其實都是有跡可循,那人腦活動自然也不只是無法破譯的符號。
從這張圖可以看到,不同受試者用AI生出的圖片雖然有些不同,但基本上看飛機得飛機、看火車得火車,大致的方向也都一樣,可見大腦訊號是可供AI辨識的。
如果文字不是必須,想想就能成真的話,那麼還需要費勁學詠唱來跟AI溝通嗎?突然心頭一陣冷,很多人類追求的「不需開口說你就能懂的默契」首先被AI得逞了嗎?幸好,我寫的並不是兩性感情專欄。
不過,這時我腦洞一開,如果AI能跟腦機介面結合的話呢?
腦機介面其實都不是新鮮事了。不管是較為人熟知,一龍馬的侵入式BCI Neuralink,還是已經與VR做結合、直接能偵測後腦勺腦波變化的NextMind,或者是被Meta收購的CTRL-labs,所謂的「腦控」用的要不是腦電圖(EEG)就是肌電圖(EMG)。而大阪大學的研究,目前只是讓AI解讀fMRI而已,如果AI也能解讀EEG或EMG呢?那麽借助AI的高效生產力,是不是能讓進入元宇宙的人類想著「要有光」就能有光呢?不禁好奇,究竟……元宇宙的神會是人類,還是AI呢?