在《銀河便車指南》(The Hitchhiker’s Guide to the Galaxy)中,海豚曾試圖警告人類:地球即將被毀滅。牠們用各種雜技表演、跳躍、翻轉,試著表達「再見,謝謝所有的魚!」(So long, and thanks for all the fish!),但人類始終誤解了這個重要的訊息,以為海豚只是在賣萌耍寶。最終,當地球即將遭到拆除以建造「超空間快速道路」時,海豚只好放棄了溝通,離開地球,留下困惑的人類獨自面對滅頂之災。
如今,這個悲劇不會發生了,因為Google研究團隊與DeepMind科學家共同發表了DolphinGemma,一個專門用來處理海豚語言聲音序列的語言模型。終於,我們不會誤讀海豚的警告了(如果真的有的話),如果世界要毀滅了,記得跟著海豚走啊~(誤)

科學家如何「破解」海豚語?
海豚非常聰明,也很善於表達,因此老早就有科學團隊想「破譯」海豚語。其中一組長期在巴哈馬觀察野生大西洋斑點海豚的Wild Dolphin Project(WDP)團隊,其創辦人Denise Herzing博士曾在2012年與喬治亞理工學院(Georgia Institute of Technology)的研究團隊合作,一起研發出CHAT(Cetacean Hearing Augmentation Telemetry)系統。
CHAT是一套設計用來與海豚建立「簡化的雙向溝通」的水下互動系統。CHAT的目標並不是理解海豚語,而是設計一組合成人類聲音(哨聲),與海豚常接觸的物體(如海藻、海草、研究人員用的布條等)進行配對,希望海豚會因為好奇模仿這些聲音,一旦模仿成功,並正確傳達出「請給我這個」的意圖,研究人員就會立刻給予該物品,強化海豚的學習,進而建立出一套共享詞彙表。
WDP團隊長年來追蹤了許多海豚的水下音訊和影像,還詳細標記了每隻海豚的身分、行為、社交互動與生命史,甚至還能對應特定聲音與行為背景,例如母海豚呼喚小海豚的「獨特哨聲」。這些珍貴稀有的海豚數據集,就成為了DolphinGemma的基礎。

DolphinGemma是什麼?
接著到了AI的時代。Gemma是Google的開源輕量LLM模型,優勢是可以運作在邊緣裝置,像是智慧型手機上面。就如同大家理解的Transformer架構——AI並不真的懂語言,只是能分析語言的模式,進而預測。既然能「破解」人類語言,自然就能「破解」海豚語了。(說不定連唱海豚音都不會破音了呢!)
於是,Google拿著這些長年蒐集的海豚數據集,訓練出這款海豚語版的語言模型,並用自家的SoundStream語音處理技術,做出DolphinGemma這個音訊輸入、音訊輸出的AI模型。簡而言之,它能接收海豚語、分析其中的結構和模式,預測接下來可能出現的聲音,就如同人類的LLM做的事,和海豚模擬對話,進而搜集更多數據。更有趣的是,由於這個模型是一個大約4億參數的輕巧模型,能直接運行在Pixel手機上,這使得潛水的科學家只要背上客製的Pixel 9手機,結合手機的收音麥克風和擴音喇叭,就是一塊好用的翻譯年糕,能順利在水下和海豚「暢聊」。
而這就像聊天機器人剛問世的時候一樣,我們總會下意識的問:「啊AI會講中文嗎?」再厲害,只會說英文我們也不想用。是啊,DolphinGemma目前只拿到了大西洋斑點海豚的數據集,想必其他海豚也會想要有牠們語系的語言模型。因此,未來Google打算開源DolphinGemma,讓其他科學家也能用這個模型分析不同地區的海豚,進行微調,好造福全世界的海豚。或許,不久的將來不只會真的產生破譯海豚語的LLM,說不定有貓貓、狗狗的語言模型讓我們自己寵物溝通也不難想像呦。