AI能破解海豚語？Google推出會唱海豚音的DolphinGemma模型

在《銀河便車指南》（The Hitchhiker’s Guide to the Galaxy）中，海豚曾試圖警告人類：地球即將被毀滅。牠們用各種雜技表演、跳躍、翻轉，試著表達「再見，謝謝所有的魚！」（So long, and thanks for all the fish!），但人類始終誤解了這個重要的訊息，以為海豚只是在賣萌耍寶。最終，當地球即將遭到拆除以建造「超空間快速道路」時，海豚只好放棄了溝通，離開地球，留下困惑的人類獨自面對滅頂之災。

如今，這個悲劇不會發生了，因為Google研究團隊與DeepMind科學家共同發表了DolphinGemma，一個專門用來處理海豚語言聲音序列的語言模型。終於，我們不會誤讀海豚的警告了（如果真的有的話），如果世界要毀滅了，記得跟著海豚走啊～（誤）

科學家如何「破解」海豚語？

海豚非常聰明，也很善於表達，因此老早就有科學團隊想「破譯」海豚語。其中一組長期在巴哈馬觀察野生大西洋斑點海豚的Wild Dolphin Project（WDP）團隊，其創辦人Denise Herzing博士曾在2012年與喬治亞理工學院（Georgia Institute of Technology）的研究團隊合作，一起研發出CHAT（Cetacean Hearing Augmentation Telemetry）系統。

CHAT是一套設計用來與海豚建立「簡化的雙向溝通」的水下互動系統。CHAT的目標並不是理解海豚語，而是設計一組合成人類聲音（哨聲），與海豚常接觸的物體（如海藻、海草、研究人員用的布條等）進行配對，希望海豚會因為好奇模仿這些聲音，一旦模仿成功，並正確傳達出「請給我這個」的意圖，研究人員就會立刻給予該物品，強化海豚的學習，進而建立出一套共享詞彙表。

WDP團隊長年來追蹤了許多海豚的水下音訊和影像，還詳細標記了每隻海豚的身分、行為、社交互動與生命史，甚至還能對應特定聲音與行為背景，例如母海豚呼喚小海豚的「獨特哨聲」。這些珍貴稀有的海豚數據集，就成為了DolphinGemma的基礎。

1985年創立的Wild Dolphin Project團隊，試圖和海豚溝通了40年。（來源：WDP）

DolphinGemma是什麼？

接著到了AI的時代。Gemma是Google的開源輕量LLM模型，優勢是可以運作在邊緣裝置，像是智慧型手機上面。就如同大家理解的Transformer架構——AI並不真的懂語言，只是能分析語言的模式，進而預測。既然能「破解」人類語言，自然就能「破解」海豚語了。（說不定連唱海豚音都不會破音了呢！）

於是，Google拿著這些長年蒐集的海豚數據集，訓練出這款海豚語版的語言模型，並用自家的SoundStream語音處理技術，做出DolphinGemma這個音訊輸入、音訊輸出的AI模型。簡而言之，它能接收海豚語、分析其中的結構和模式，預測接下來可能出現的聲音，就如同人類的LLM做的事，和海豚模擬對話，進而搜集更多數據。更有趣的是，由於這個模型是一個大約4億參數的輕巧模型，能直接運行在Pixel手機上，這使得潛水的科學家只要背上客製的Pixel 9手機，結合手機的收音麥克風和擴音喇叭，就是一塊好用的翻譯年糕，能順利在水下和海豚「暢聊」。

而這就像聊天機器人剛問世的時候一樣，我們總會下意識的問：「啊AI會講中文嗎？」再厲害，只會說英文我們也不想用。是啊，DolphinGemma目前只拿到了大西洋斑點海豚的數據集，想必其他海豚也會想要有牠們語系的語言模型。因此，未來Google打算開源DolphinGemma，讓其他科學家也能用這個模型分析不同地區的海豚，進行微調，好造福全世界的海豚。或許，不久的將來不只會真的產生破譯海豚語的LLM，說不定有貓貓、狗狗的語言模型讓我們自己寵物溝通也不難想像呦。