Loopy是字節(jié)跳動推出的音頻驅動的AI視頻生成模型,用戶可以讓一張靜態(tài)照片動起來,照片中的人物根據給定的音頻文件進行面部表情和頭部動作的同步,生成逼真的動態(tài)視頻。Loopy基于先進的擴散模型技術,無需額外的空間信號或條件,捕捉并學習長期運動信息,生成自然流暢的動作,適用于娛樂、教育等多種場景。

- 音頻驅動: Loopy使用音頻文件作為輸入,自動生成與音頻同步的動態(tài)視頻。
- 面部動作生成: 生成包括嘴型、眉毛、眼睛等面部部位的自然動作,使靜態(tài)圖像看起來像是在說話。
- 無需額外條件: 與一些需要額外空間信號或條件的類似技術不同,Loopy不需要輔助信息,可以獨立生成視頻。
- 長期運動信息捕捉: Loopy具備處理長期運動信息的能力,生成更加自然和流暢的動作。
- 多樣化的輸出: 支持生成多樣化的動作效果,根據輸入的音頻特性,如情感、節(jié)奏等,生成相應的面部表情和頭部動作。
- 音頻驅動模型:Loopy的核心是音頻驅動的視頻生成模型,根據輸入的音頻信號生成與音頻同步的動態(tài)視頻。
- 擴散模型:Loopy使用擴散模型技術,通過逐步引入噪聲并學習逆向過程來生成數據。
- 時間模塊:Loopy設計了跨片段和片段內部的時間模塊,模型能理解和利用長期運動信息,生成更加自然和連貫的動作。
- 音頻到潛空間的轉換:Loopy通過音頻到潛空間的模塊將音頻信號轉換成能夠驅動面部動作的潛在表示。
- 運動生成:從音頻中提取的特征和長期運動信息,Loopy生成相應的面部動作,如嘴型、眉毛、眼睛等部位的動態(tài)變化。
- 產品體驗:即夢AI – AI視頻生成 – “對口型”功能
- 項目官網:
- arXiv技術論文:
- 社交媒體和娛樂:給社交媒體上的照片或視頻添加動態(tài)效果,增加互動性和娛樂性。
- 電影和視頻制作:創(chuàng)造特效,讓歷史人物“復活”。
- 游戲開發(fā):為游戲中的非玩家角色(NPC)生成更自然和逼真的面部表情和動作。
- VR和AR:在VR或AR體驗中,生成更加真實和沉浸式的虛擬角色。
- 教育和培訓:制作教育視頻,模擬歷史人物的演講或重現科學實驗過程。
- 廣告和營銷:創(chuàng)造吸引人的廣告內容,提高廣告的吸引力和記憶度。
還沒有評論,來說兩句吧...