Stable Video Diffusion是Stability AI發(fā)布的視頻生成大模型,,于2023年11月正式發(fā)布,。
基于Stability AI原有的Stable Diffusion文生圖模型,,Stable Video Diffusion可實現(xiàn)文生視頻。
Stable Video Diffusion能夠適應(yīng)各種下游任務(wù),,包括多視圖合成,,Stability AI計劃擴展這個基礎(chǔ),建立各種模型,。該模型以兩種形式發(fā)布,,可以生成14和25幀的視頻,幀率可定制,。
一,、多階段訓(xùn)練策略
Stable Video Diffusion采用了多階段的訓(xùn)練策略,包括文本到圖像的預(yù)訓(xùn)練,、視頻預(yù)訓(xùn)練以及高質(zhì)量視頻微調(diào),。這種分階段的訓(xùn)練方法使得模型能夠逐步學(xué)習(xí)到從文本到圖像,再到視頻的復(fù)雜映射關(guān)系,,提高了生成視頻的質(zhì)量和準確性,。
二、強大的基礎(chǔ)模型
該技術(shù)在訓(xùn)練過程中,,借助精心準備的大規(guī)模數(shù)據(jù)集和系統(tǒng)化的策劃流程,,構(gòu)建了一個強大的基礎(chǔ)模型。這個基礎(chǔ)模型不僅為下游任務(wù)提供了強大的運動表征,,還具備多視圖3D先驗?zāi)芰?,為生成多個視圖的對象提供基礎(chǔ)。
三,、高效的數(shù)據(jù)處理和過濾策略
Stable Video Diffusion在數(shù)據(jù)處理方面采用了多種策略,,包括使用密集光流來注釋數(shù)據(jù)集、應(yīng)用光學(xué)字符識別來清除包含大量文本的剪輯等,。這些策略有效地提高了數(shù)據(jù)集的質(zhì)量,,去除了可能對模型性能產(chǎn)生負面影響的示例。同時,,通過CLIP嵌入來注釋每個剪輯的關(guān)鍵幀,,進一步豐富了數(shù)據(jù)集的信息量。
四,、靈活的應(yīng)用場景
由于Stable Video Diffusion提供了強大的多視圖3D先驗和運動表征能力,,它可以廣泛應(yīng)用于各種場景,包括文本到視頻的生成,、圖像到視頻的生成以及對攝像機運動特定的適應(yīng)性等,。此外,,該模型還可以以前饋方式生成對象的多個視圖,具有較小的算力需求和優(yōu)于基于圖像方法的性能,。
五,、高質(zhì)量的生成效果
通過多階段的訓(xùn)練策略和精心準備的數(shù)據(jù)集,Stable Video Diffusion能夠生成高質(zhì)量,、動作連貫且時間一致的視頻內(nèi)容,。