AI詠唱師也失業？科學家用Stable Diffusion成功還原腦中畫面

從Midjourney到ChatGPT，生成式AI如雨後春筍般湧出，各路人馬皆紛紛參戰，從偏廢的「生活運用」到「內容通膨」的警示，搞得全世界彷彿只剩下「AI詠唱師」、「AI評論員」、以及「AI關我屁事」這三種人似的。許多人都說：人不會被AI取代、但是會被「會用AI的人」取代，而克拉克三定律的那句「任何先進的科技就像是魔法般難以區別」講的似是當下，AI指令變成了魔法詠唱，成為現代人的必修技能。只是，我總覺得唸咒、結手印感覺有點低階，我不禁懷疑，詠唱真的是最終形態嗎？翻開畢業紀念冊最後一頁，同學的那些「心想事成」祝福寫得滿滿，難道，我們不能心想事成嗎？直到，我看到這篇新論文。

這份熱騰騰論文的標題〈從人腦活動中使用潛在擴散模型進行高解析度圖像重建〉（High-resolution image reconstruction with latent diffusion models from human brain activity），直接講結論，不管是Midjourney、DALL·E 2，還是Stable Diffusion，這些我們近期熟知的AI生成繪畫工具都是「文字轉圖像」，而這兩位來自大阪大學前沿生命科學研究所的作者高木裕（Yu Takagi）和西本真司（Shinji Nishimoto）卻成功實現了「fMRI轉圖像」，怎麼回事？打個岔，fMRI是功能性磁振造影，原理就是用磁振造影來測量神經元活動引發的血液流動，用人腦活動來轉圖像這件事簡直就是心想事成啊。

解釋一下這張圖。受試者看到的是上排圖，而下排圖是Stable Diffusion生成的圖，是不是還原度頗高呢？

這是怎麼運作的？就一個不會寫code文組男的粗淺理解，新一代圖像生成工具是使用「擴散模型」（diffusion model），有玩過的AI生圖的人應該都有發現，我們下完指令之後，圖片會逐漸從模糊變得清晰，這是因為訓練擴散模型的方式，是讓AI學習圖片從充滿細節到變成雜訊的過程，最終它就擁有了從噪點生成一張清楚的圖片的逆向能力。想一想，AI不只有很強的預測推理和聯想能力，就像是人看過地獄會變得特別珍惜生命一樣，AI還有超厲害的自省能力啊。

對AI來說，噪點和雜訊其實都是有跡可循，那人腦活動自然也不只是無法破譯的符號。

從這張圖可以看到，不同受試者用AI生出的圖片雖然有些不同，但基本上看飛機得飛機、看火車得火車，大致的方向也都一樣，可見大腦訊號是可供AI辨識的。

如果文字不是必須，想想就能成真的話，那麼還需要費勁學詠唱來跟AI溝通嗎？突然心頭一陣冷，很多人類追求的「不需開口說你就能懂的默契」首先被AI得逞了嗎？幸好，我寫的並不是兩性感情專欄。

不過，這時我腦洞一開，如果AI能跟腦機介面結合的話呢？

已推出上市的非侵入式腦機介面NextMind，戴著可以免持電視遙控器。（來源：NextMind）

腦機介面其實都不是新鮮事了。不管是較為人熟知，一龍馬的侵入式BCI Neuralink，還是已經與VR做結合、直接能偵測後腦勺腦波變化的NextMind，或者是被Meta收購的CTRL-labs，所謂的「腦控」用的要不是腦電圖（EEG）就是肌電圖（EMG）。而大阪大學的研究，目前只是讓AI解讀fMRI而已，如果AI也能解讀EEG或EMG呢？那麽借助AI的高效生產力，是不是能讓進入元宇宙的人類想著「要有光」就能有光呢？不禁好奇，究竟……元宇宙的神會是人類，還是AI呢？

AI詠唱師也失業？科學家用Stable Diffusion成功還原腦中畫面

訂閱電子報

關於作者

大風吹微濕

SIGN UP FOR /wave

訂閱電子報

關於作者

大風吹微濕

猜你喜歡