Google I/O 2024 | Google 的 Project Astra 能即時分析手機拍攝的畫面,並給與語音回應
有個眼鏡裝置在影片中途亮相。
Google 在 I/O 大會前就已經迫不及待預熱了的 AI 功能,原來名為「Project Astra」。在今天的大會上, DeepMind 的 CES Demis Hassabis 表示,他的團隊「一直想要開發通用的 AI 虛擬專員,在日常生活中提供幫助」,而 Project Astra 就是在這個目標上取得進展的結果。
什麽是 Project Astra?
除了昨天的預熱外,對於 Project Astra 的實質內容為何,我們主要的資訊只有上面這部在大會上播放的影片。由影片看來,Astra 的主要介面是一個持續在錄影及收音的手機 app。在影片開始時,先是有一個人拿著手機看向辦公室的不同部分,並用語音說道「看到會發出聲音的東西時說一聲。」當一個位於顯示器旁邊的喇叭出現在視野中時,Gemini 便回答道「我看到一個揚聲器,它會發出聲音。」
拿著手機的人停下來,在螢幕上畫了一個箭頭指向揚聲器頂部的圓圈,並問道「揚聲器的這個部分叫什麽?」Gemini 迅速回答道「那是高音單元。它負責產生高頻聲音。」
然後測試人員移動到桌子另一端的蠟筆杯旁,並問道「給我一個關於這些蠟筆的創意疊詞」,Gemini 回答道「彩色蠟筆色彩繽紛。它們必能創造出色彩繽紛的作品。(Creative crayons color cheerfully. They certainly craft colorful creations,幾乎整句都是 C 開頭)」
等等,那是 Project Astra 眼鏡嗎?Google Glasses 復活了?
影片接下來展示了 Project Astra 中的 Gemini 如何識別並解譯螢幕上的程式碼,並且根據窗外景色告訴用戶他們所在的位置。接著,當被問到「你還記得你把眼鏡放在哪里嗎?」時,即使眼鏡當下完全不在畫面中,也沒有被事先提及,Astra 依然能夠正確回答:「是的,我記得」,並補充道「你的眼鏡放在桌子旁邊,靠近一個紅色的蘋果。」
接著就是精彩的部份了 —— 在 Astra 找到眼鏡後,測試人員戴上眼鏡,影片畫面變成了可穿戴設備的視角。眼鏡使用內置攝像頭掃描佩戴者周圍的環境,例如看到白板上的一張 IT 架構圖表。影片中的人問道「我可以在哪里添加東西讓這個系統更快?」當他說話時,畫面上的波形圖會扭動以顯示它正在聆聽,並且當它做出回應時,文字字幕會同時出現。Astra 回答道「在伺服器和資料庫之間添加快取可以提高速度。」
接著測試人員看向白板上畫的兩只貓,並問道「這讓你想到了什麽?」Astra 回答道「薛丁格的貓。」最後,他們拿起一個毛絨老虎玩具,把它放在一只可愛的金色獵犬旁邊,並問道「給這個組合取個樂隊名。」Astra 回答道:「金色條紋。」
這似乎顯示這個眼鏡至少有鏡頭、有麥克風、有顯示、並且至少有電池和某種處理器,甚至是無線連線能力。當然我們並不能排除這只是 Google 為了 Project Astra 影片設計的效果,但整體來說這個眼鏡很像是 Google Glasses 再現,只是這次有更明確的使用情境了。這並不是說 Google 有計畫近期內推出眼鏡產品,但至少給了我們一點希望對吧?
Project Astra 如何運作?
在影片中,Astra 不僅持續在即時處理視覺資料,還能記住它所看到的東西,並持續與後端的大型 AI 模型在溝通。據 Hassabis 所述,這是因為這些「虛擬專員」被設計來「透過連續編碼影格,將視訊和音訊輸入組合解譯成事件的時間線,並儲存此資訊以供高效調用。」
值得注意的是,在影片中 Astra 的反應速度真的是非常快。Hassabis 指出,「雖然我們在開發能夠理解多模態信息的 AI 系統方面取得了令人難以置信的進步,但將回應時間降低到對話水平,仍然是一項艱難的工程挑戰。」
Google 還一直在努力為其 AI 提供更寬廣的語音表達能力,使用其語音模型來「增強它們的發聲效果,為這些虛擬專員提供更廣泛的語調。」這種在回應中模仿人類表達方式的做法讓人聯想到當年 Duplex 的停頓和話語。
Project Astra 什麽時候登場?
Project Astra 仍處於早期階段,因此目前還沒有明確的發佈計劃,但 Hassabis 提到,在未來,這些 AI 助理可以透過「你的手機或眼鏡」獲得。目前尚不清楚這些眼鏡是否真的是 Google Glasses 的繼任者,但 Hassabis 確實提道,「其中一些功能將在今年晚些時候來到 Google 產品上,例如 Gemini app。」