? ? ? 階躍星辰(StepFun)正式開源其新一代圖生視頻模型 Step-Video-TI2V ,該模型基于300億參數(shù)的Step-Video-T2V訓(xùn)練,支持文本與圖像聯(lián)合驅(qū)動生成長達(dá)102幀的高質(zhì)量視頻,在運(yùn)動控制與場景適配性上實現(xiàn)突破。
? ? ? 核心亮點
? ? ? 1、超長視頻生成與運(yùn)動控制
? ? ? 支持生成 102幀視頻 (約4秒@24fps),覆蓋更長時序內(nèi)容創(chuàng)作需求。
? ? ? 首創(chuàng) 運(yùn)動幅度可控 與 鏡頭運(yùn)動可控 雙機(jī)制,用戶可通過參數(shù)調(diào)節(jié)動態(tài)效果,平衡畫面流暢性與戲劇張力。
? ? ? 2、多模態(tài)輸入與風(fēng)格適配
? ? ? 同時接受文本和圖像輸入,精準(zhǔn)融合語義描述與視覺風(fēng)格,尤其在 動漫風(fēng)格視頻生成 中表現(xiàn)優(yōu)異,適用于動畫制作與創(chuàng)意短片。
? ? ? 基于 深度壓縮變分自編碼器(Video-VAE) ,實現(xiàn)16×16空間壓縮與8×?xí)r間壓縮,顯著提升訓(xùn)練與推理效率。
? ? ? 3、開源生態(tài)與硬件兼容
? ? ? 模型已開源(GitHub地址:stepfun-ai/Step-Video-TI2V ),支持開發(fā)者快速部署。
? ? ? 適配華為昇騰計算平臺,推動國產(chǎn)化AI硬件生態(tài)發(fā)展。
? ? ? 技術(shù)突破與行業(yè)價值
? ? ? 1、參數(shù)規(guī)模領(lǐng)先 :作為當(dāng)前開源社區(qū)最大的TI2V(Text/Image-to-Video)模型之一,300億參數(shù)量支撐復(fù)雜場景建模能力。
? ? ? 2、應(yīng)用前景廣闊 :可服務(wù)于影視特效、廣告創(chuàng)意、短視頻內(nèi)容生產(chǎn)等領(lǐng)域,降低高質(zhì)量視頻制作門檻。
? ? ? 3、研究意義顯著 :開源后將加速圖生視頻技術(shù)迭代,為學(xué)術(shù)界提供高性價比的多模態(tài)研究基座。
? ? ? 與其他領(lǐng)先開源模型的比較
? ? ? 將 Step-Video-TI2V 與最近發(fā)布的領(lǐng)先開源模型進(jìn)行比較,下表中的詳細(xì)結(jié)果突出了該模型優(yōu)于這些模型的性能。展示了 Step-Video-TI2V 的兩個結(jié)果,運(yùn)動分別設(shè)置為 5 和 10。正如預(yù)期的那樣,這種機(jī)制有效地平衡了生成視頻的運(yùn)動動態(tài)和穩(wěn)定性(或一致性)。此外,在 VBench-I2V的 排行榜,Step-Video-TI2V 獲得了最高排名。
? ? ? Step-Video-TI2V 的應(yīng)用領(lǐng)域與場景
? ? ? 基于其運(yùn)動可控性 、長視頻生成能力 (102幀/5秒)及 多模態(tài)輸入支持 ,Step-Video-TI2V 可廣泛應(yīng)用于以下領(lǐng)域,結(jié)合技術(shù)特性與知識庫信息分析如下:
? ? ? 1. 影視與廣告制作
? ? ? 特效預(yù)演與生成 :支持生成具有動態(tài)效果的視頻片段(如爆炸、光影變化),可作為電影或廣告特效的低成本預(yù)演工具。
? ? ? 短視頻廣告創(chuàng)作 :通過文本與圖像聯(lián)合驅(qū)動,快速生成符合品牌調(diào)性的創(chuàng)意短片,提升廣告制作效率。
? ? ? 2. 動漫與短視頻創(chuàng)作
? ? ? 動畫制作 :在動漫風(fēng)格任務(wù)中表現(xiàn)突出,可生成高質(zhì)量角色動作與場景過渡,縮短傳統(tǒng)動畫制作周期。
? ? ? 豎屏內(nèi)容生產(chǎn) :支持多尺寸生成(橫屏/豎屏),適配抖音、Instagram等平臺的短視頻需求。
? ? ? 3. 教育與體育訓(xùn)練
? ? ? 動作教學(xué)視頻 :生成復(fù)雜動態(tài)場景(如舞蹈、武術(shù)動作分解),輔助在線教育或健身課程開發(fā)。
? ? ? 科學(xué)可視化 :模擬物理實驗或生物過程(如流體運(yùn)動、分子結(jié)構(gòu)動態(tài)展示),提升教學(xué)直觀性。
? ? ? 4. 游戲與虛擬內(nèi)容開發(fā)
? ? ? 游戲過場動畫 :通過可控鏡頭運(yùn)動生成游戲內(nèi)過場動畫,降低開發(fā)成本。
? ? ? 虛擬主播/數(shù)字人 :結(jié)合圖像輸入生成虛擬角色的動態(tài)視頻,用于直播或互動內(nèi)容。
? ? ? 5. 工業(yè)與醫(yī)療模擬
? ? ? 工業(yè)設(shè)計驗證 :生成機(jī)械運(yùn)動或產(chǎn)品使用場景的模擬視頻,輔助設(shè)計驗證。
? ? ? 醫(yī)療培訓(xùn) :模擬手術(shù)操作或解剖過程,提供高精度動態(tài)教學(xué)素材。
? ? ? 6. 社交媒體與UGC內(nèi)容
? ? ? 個性化內(nèi)容生成 :用戶上傳圖片并輸入文本描述,快速生成定制化視頻(如旅行Vlog、產(chǎn)品評測)。
? ? ? 特效濾鏡增強(qiáng) :集成至社交平臺工具鏈,提供動態(tài)濾鏡或AR效果生成。
? ? ? 7. 多模態(tài)藝術(shù)與創(chuàng)意實驗
? ? ? 藝術(shù)風(fēng)格遷移 :將靜態(tài)藝術(shù)作品(如油畫、插畫)轉(zhuǎn)化為動態(tài)視頻,探索跨媒介藝術(shù)表達(dá)。
? ? ? AI生成電影短片 :通過長視頻生成能力創(chuàng)作實驗性短片,推動AI在藝術(shù)領(lǐng)域的邊界。
? ? ? 8. 科研與國產(chǎn)化生態(tài)
? ? ? AI模型研究 :開源特性為學(xué)術(shù)界提供高參數(shù)量多模態(tài)研究基座,推動視頻生成技術(shù)迭代。
? ? ? 國產(chǎn)硬件適配 :支持華為昇騰平臺,助力國產(chǎn)AI芯片在視頻生成領(lǐng)域的落地應(yīng)用。
? ? ? Step-Video-TI2V憑借大參數(shù)量、運(yùn)動控制創(chuàng)新與開源策略,為視頻生成領(lǐng)域樹立新標(biāo)桿,有望推動AIGC從“短片段創(chuàng)作”邁向“長視頻工業(yè)化生產(chǎn)”時代。
? ? ? 模型網(wǎng)址:https://github.com/stepfun-ai/Step-Video-TI2V
還沒有評論,來說兩句吧...