Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來

祕訣是深度學習結合臉部辨識技術!

Google 的新 AI 技術可以將兩個同時在說話的人聲分離出來

人類一個極為強大的能力,是能在一片有著許多人在說話的背景雜音中,精準地「過濾」掉其他人的聲音,只留下自己對話的對象。過去一直認為電腦要獲得這樣的能力不容易,但 Google 的專家們取了個巧,利用深度學習結合臉部辨識,達到了相當好的效果。

簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一個假想的吵鬧場景,然後訓練機器去辨識如何從場景中還原出單一的人聲來,最後產生一個模型。以這個臉部與聲線對應的模型為基礎,餵給電腦真實世界的影片時,當臉部偵測到目標嘴巴在動,系統就會試圖抓取音訊檔,將相關的部份分離出來。如同下面的脫口秀影片所示,這效果驚人地好,不僅可以把背景的雜音濾掉,就算有兩個人同時在大聲說話,也可以把目標分離出來。而且,即使講者用麥克風擋住了嘴巴,似乎也不影響辨識呢。

Google 目前正在「探索使用這個技術到產品中的方法」,最明顯的可能就是像 Hangouts 或 Duo 這樣的語音電話中,只要你開著 Webcam,系統就能把背景的雜音過濾掉。其他像是自動化的字幕,以及自動翻譯等,也都有可能因此而受惠呢。

來源: Google Research Blog

經由: Engadget