騰訊、清華、香港科大聯手 「圖生影片」大模型來了!

騰訊 (00700-HK) 、清華大學、香港科技大學聯手,在上周五(15 日)推出全新圖生影片大模型「Follow-Your-Click」,根據用戶輸入模型的圖片,用戶只需點擊對應區域,加上少量提示詞,就可以讓圖片中原本靜態的區域動起來,一鍵轉換成影片。

據《券商中國》報導,目前的圖生影片大模型,一般生成方法不僅需要用戶在提示詞中描述運動區域,還需要提供運動指令的詳細描述,過程較複雜。

為了解決這些問題,騰訊混元大模型團隊、清華及港科大的聯合項目組,提出了更實用和可控的圖像到影片生成模型「Follow-Your-Click」,帶來更加便捷的交互,也讓圖片「一鍵點,萬物動」成為現實。

騰訊混元大模型團隊,正在持續研究和探索多模態技術,擁有行業領先的影片生成能力。此前,騰訊混元大模型作為技術合作夥伴,支持《人民日報》打造原創影片《江山如此多嬌》,生成中國大美河山的精美影片片段,展示出了較強的內容理解、邏輯推理及畫面生成能力。

值得關注的是,近期在 AI 影片生成領域,國內外都出現不少新技術。

2 月 15 日,OpenAI 在全球 AI 生成影片領域丟出一枚爆炸性訊息。當日,該公司發布了一款名為「Sora」的文字生成影片模型,並向部分研究人員和創作者開放「Sora」的存取權。

「Sora」除了可以根據文字描述生成影片外,還可以根據現有圖片生成影片,目前可生成的影片長度約 1 分鐘左右。

緊跟著「Sora」,2 月 26 日,GoogleDeep Mind 團隊發布了 110 億參數的 AI 基礎世界模型「Genie」。僅用一張圖片,便可產生一個互動式世界,生成的世界「動作可控」,用戶可以其中逐幀行動。Google 表示,「Genie」開啟了「圖 / 文生成互動世界」的時代,也將成為實現通用 AI Agent 的催化劑。

平安證券表示,OpenAI、Google 相繼發布多模態大模型「Sora」、「Genie」,AGI 浪潮可能會加速到來。

更多鉅亨報導