終於能與海豚對話?Google 開發「海豚語」大型語言模型 DolphinGemma

初期目標是比較生成的「海豚語」與真正的海豚響聲,長期目標則是合成能與海豚溝通的聲響。

DolphinGemma
DolphinGemma

Google 正在開發的一套新的大型語言模型「DolphinGemma」,可能在未來能讓人們與海豚進行對話。如果這新聞早兩個星期出來,搞不好會被當成是愚人節玩笑,但這完全是真的。研究人員預計在未來幾個月內測試 DolphinGemma 及其配套的 Cetacean Hearing Augmentation Telemetry(CHAT)發聲系統是否能翻譯並模仿海豚的聲音,最終與海豚達成某種程度上的「對話」,科學家也希望能由此判斷海豚是否有「語言」,以及若是有的話,牠們的語言有多先進。

海豚是地球上最聰明且最善於溝通的動物之一。牠們的社交互動極其複雜,不僅能透過各種聲響辨識不同的個體,並且已知在進行不同活動時,會發出不同的聲音。科學家們長期以來都認為有機會「破解」這些不同聲音的含義,甚至有機會模擬海豚的聲響,來和它們溝通。一個名為「野生海豚計畫」(Wild Dolphin Project,WDP)的組織花了 40 年的時間,紀錄了單一個海豚族群的水下影音資料,但一直以來對於如何著手分析這些數據,都沒有頭緒。

然而隨著大型語言模型 (LLM) 的興起,研究人員最近開始思考,訓練 LLM 的相同原理是否也能應用到這些海豚影音資料上。為了測試這種可能性,WDP 最近與 Google 和美國喬治亞理工學院合作,以他們收集的龐大海豚哨聲、喀噠聲和脈衝聲為基礎,用於 LLM 訓練。其成果便是 DolphinGemma,一個使用與 Google Gemini 系統相同技術所建構的 AI 模型。它有大約 4 億個參數,其運作方式基本上與像 ChatGPT 這樣的生成式 LLM 相同 —— 只是生成的不是文字,而是海豚聲。

目前的研究方向暫時還不到「翻譯」海豚語的程度,而是預備讓 DolphinGemma 聽完收錄的海豚聲響「前半」後,再由 AI 來生成「後半」。之後就能比對 AI 生成的後半與海豚實際發出的「後半」是否一致,由此來初步判斷「海豚語」是否有固定的單字或架構。

DolphinGemma
DolphinGemma

搭配 DolphinGemma 的是以 Google Pixel 9 智慧手機為基礎的「CHAT」發聲系統。利用 Pixel 9 的本地端運算力,它可以即時接收聲音輸入進行辨識,或是將生成的「回應」播放出來。由於目前並不清楚海豚究竟「語言」有多發達,研究計畫初期定位在將海豚喜歡的物體(如海草、馬尾藻,甚至研究人員的圍巾等)與特定的「合成哨聲」相關聯,期望海豚在想要這些物體時,能發出對應的合成哨音,達成初步的溝通。

搭載 Pixel 9 的 CHAT 系統預計今夏投入使用,但究竟 DolphinGemma 能做到什麼程度,以及是否能終於讓海豚與人類交談,目前都還是相當遙遠的課題。

相關新聞:

緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!

🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk

🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/

🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8

🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D

🎉📱 Tech Telegram 頻道:https://t.me/yahootechhk