ChatGPT 也可以理解語音和圖片了

OpenAI 會在未來兩週內將新功能率先開放給 ChatGPT Plus 和企業用家。

ChatGPT logo is seen in this illustration taken March 31, 2023. REUTERS/Dado Ruvic/Illustration
Reuters

千呼萬喚始出來!OpenAI 終於宣布將為 ChatGPT 加入多模態功能,令其可以理解用家提供的語音和圖片。在語音的部分體驗估計會跟常規的虛擬助理服務相似,使用者只要按下按鈕說話,然後 ChatGPT 就會將其轉化成文字交給大語言模型處理。在得到答案後,文字會被再轉成語音,接著 ChatGPT 就會把它說給你聽了。

不過 OpenAI 相信,自己的 Whisper 模型能帶來更好的語音轉文字體驗。而且他們還準備了一套新的文字轉語音方案,它「只需要文字或短短幾秒的語音樣本」就能生成類似人類的聲音。現階段官方為 ChatGPT 準備了五種人聲選項,而其背後的模型接下來也有望在更多領域發揮作用(比如翻譯 Spotify 上的 podcast 並還原作者的聲音)。

至於圖片的部分,ChatGPT 會基於自己對其內容的理解(而非傳統的以圖搜圖)來作出回應。在使用過程中,用家除了能以文字或語音進行補充說明外,還可以直接在圖片上進行標注。值得一提的是,出於準確性和隱私保護方面的考量,OpenAI 故意限制了「對某個人進行分析並直接表明對其態度的能力」。

新的語音和圖片功能將在未來兩週內率先向 ChatGPT Plus 和企業用家開放,之後會漸漸擴大適用範圍。