Google 開源化其 SynthID 文字浮水印技術
該技術用調整機率的方式,來給文字加上隱形的記號。
Google 在 X 上宣布,其 SynthID 文字浮水印技術 現在已經開源化,並透過其 Responsible Generative AI Toolkit 提供。
雖然名為「浮水印」,但 SynthID 並不是在文字中加入什麼東西來辨識,而是更深層地利用了文字生成式 AI 的基礎原理。大型語言模型(LLM)生成文字的方式,用的是一個個的「token」,這些 token 可以代表單字、片語、或是單字的一部份。具體接下來的的 token 應該要給哪個單字,是個機率的問題,例如當句子目前已完成的部份為「我最喜歡的熱帶水果是 ____」時,LLM 可能會給「芒果」、「荔枝」、「木瓜」或「榴槤」這些單字最高的機率值,讓它們最有可能成為接續句字的單字。
SynthID 就是在這個「機率值」上面動手腳。它可以稍微依據某種固定的演算法來調整這個機率值,讓 LLM 在生成文字時產生出來的字串,與未加入 SynthID 時略有出入,但又不會影響到輸出文字的品質。如果繼續以上面的例子來說的話,SynthID 介入前可能 LLM 會選擇填入芒果,而 SynthID 介入後就變成選擇榴槤了。如果句子簡短的話,可能很難看出是否為 AI 生成,但一旦文字多起來,SynthID 就能反向由分析這些單字出現在同一篇文字裡的機率,來判斷是否為 AI 生成了。
Google 目前已經將 SynthID 整合到了自家的 Gemini 聊天機器人中,並且經測試並不會影響文字生成的品質、正確性、速度或創意。Google 表示,SynthID 的文字浮水印技術最短大約可以處理到僅有三個句字的文字,而且如果是部份文字被裁剪、加長或修改,也不太會影響辨識。不過如果將文字翻譯成其他語言,或是整篇丟進 AI 中進行改寫的話,原本的 SynthID「辨識碼」可能就會被破壞了。
除了文字之外,Google 開發的 SynthID 浮水印技術,還包括了音樂、圖像、影片等版本。SynthID 並不是辨識 AI 生成內容的萬靈丹,但在現在這個用 AI 生成假消息或進行其他惡意行為極為簡單的時代,有這樣的工具應該多少能協助用戶分別哪些內容是由 AI 所生成,並協助對抗 AI 影響不佳的一面吧。
相關文章:
緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!
🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk
🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/
🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8
🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D
🎉📱 Tech Telegram 頻道:https://t.me/yahootechhk