阿里巴巴智能計算研究院的研究人員開發(fā)了一種名為“EMO”的新型人工智能系統(tǒng),它是“Emote Portrait Alive”的縮寫,可以將單張肖像照片動畫化,并生成人物說話或唱歌的視頻,非常逼真。
arXiv 上發(fā)表的一篇研究論文描述了該系統(tǒng),它能夠創(chuàng)建流暢且富有表現(xiàn)力的面部動作和頭部姿勢,與所提供的音軌的細微差別緊密匹配。
這代表了音頻驅動的頭部說話視頻生成的重大進步,這個領域多年來一直對人工智能研究人員提出挑戰(zhàn)。
圖片來源: humanaigc.github.io
“傳統(tǒng)技術往往無法捕捉人類表情的全部光譜和個人面部風格的獨特性,”主要作者田林瑞在論文中說。
“為了解決這些問題,我們提出了 EMO,這是一種利用直接音頻到視頻合成方法的新穎框架,繞過了對中間 3D 模型或面部標志的需求?!?/p>
直接將音頻轉換為視頻
EMO 系統(tǒng)采用了一種稱為擴散模型的人工智能技術,該技術顯示出生成逼真合成圖像的巨大能力。
研究人員在包含超過 250 小時的頭部說話視頻的數(shù)據(jù)集上訓練了模型,這些視頻來自演講、電影、電視節(jié)目和歌唱表演。
與之前依賴 3D 面部模型或混合形狀來近似面部運動的方法不同,EMO 直接將音頻波形轉換為視頻幀。
這使得它能夠捕捉與自然語音相關的微妙動作和特定于身份的怪癖。
就在?
這是我見過的最令人驚嘆的音頻視頻。
它被稱為 EMO:表情肖像活著 pic.twitter.com/3b1AQMzPYu
— 時間旅行者 Stelfie (@StelfieTT) 2024 年 2 月 28 日
根據(jù)論文中描述的實驗,EMO 在衡量視頻質量、身份保存和表現(xiàn)力的指標方面顯著優(yōu)于現(xiàn)有的最先進方法。
研究人員還進行了一項用戶研究,發(fā)現(xiàn) EMO 生成的視頻比其他系統(tǒng)生成的視頻更自然、更富有情感。
生成逼真的歌唱視頻
除了對話視頻之外,EMO 還可以制作與人聲同步的適當嘴型和令人回味的面部表情的歌唱肖像動畫。
該系統(tǒng)支持根據(jù)輸入音頻的長度生成任意持續(xù)時間的視頻。
論文指出:“實驗結果表明,EMO 不僅能夠制作令人信服的演講視頻,還能夠制作各種風格的歌唱視頻,在表現(xiàn)力和真實感方面顯著優(yōu)于現(xiàn)有的最先進方法?!?/p> 圖片來源: humanaigc.github.io
EMO 研究暗示,未來可以僅從照片和音頻剪輯合成個性化視頻內容。
然而,道德方面的擔憂仍然存在,即可能濫用此類技術來未經(jīng)同意冒充他人或傳播錯誤信息。
研究人員表示,他們計劃探索檢測合成視頻的方法。