ChatGPT 也可以理解語音和圖片了
OpenAI 會在未來兩週內將新功能率先開放給 ChatGPT Plus 和企業用家。
千呼萬喚始出來!OpenAI 終於宣布將為 ChatGPT 加入多模態功能,令其可以理解用家提供的語音和圖片。在語音的部分體驗估計會跟常規的虛擬助理服務相似,使用者只要按下按鈕說話,然後 ChatGPT 就會將其轉化成文字交給大語言模型處理。在得到答案後,文字會被再轉成語音,接著 ChatGPT 就會把它說給你聽了。
不過 OpenAI 相信,自己的 Whisper 模型能帶來更好的語音轉文字體驗。而且他們還準備了一套新的文字轉語音方案,它「只需要文字或短短幾秒的語音樣本」就能生成類似人類的聲音。現階段官方為 ChatGPT 準備了五種人聲選項,而其背後的模型接下來也有望在更多領域發揮作用(比如翻譯 Spotify 上的 podcast 並還原作者的聲音)。
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
至於圖片的部分,ChatGPT 會基於自己對其內容的理解(而非傳統的以圖搜圖)來作出回應。在使用過程中,用家除了能以文字或語音進行補充說明外,還可以直接在圖片上進行標注。值得一提的是,出於準確性和隱私保護方面的考量,OpenAI 故意限制了「對某個人進行分析並直接表明對其態度的能力」。
新的語音和圖片功能將在未來兩週內率先向 ChatGPT Plus 和企業用家開放,之後會漸漸擴大適用範圍。