Stable Video Diffusion是Stability AI發(fā)布的視頻生成大模型,于2023年11月正式發(fā)布,。
基于Stability AI原有的Stable Diffusion文生圖模型,,Stable Video Diffusion可實(shí)現(xiàn)文生視頻。
Stable Video Diffusion能夠適應(yīng)各種下游任務(wù),,包括多視圖合成,,Stability AI計(jì)劃擴(kuò)展這個(gè)基礎(chǔ),建立各種模型,。該模型以兩種形式發(fā)布,,可以生成14和25幀的視頻,幀率可定制,。
一,、多階段訓(xùn)練策略
Stable Video Diffusion采用了多階段的訓(xùn)練策略,,包括文本到圖像的預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練以及高質(zhì)量視頻微調(diào),。這種分階段的訓(xùn)練方法使得模型能夠逐步學(xué)習(xí)到從文本到圖像,,再到視頻的復(fù)雜映射關(guān)系,提高了生成視頻的質(zhì)量和準(zhǔn)確性,。
二,、強(qiáng)大的基礎(chǔ)模型
該技術(shù)在訓(xùn)練過程中,借助精心準(zhǔn)備的大規(guī)模數(shù)據(jù)集和系統(tǒng)化的策劃流程,,構(gòu)建了一個(gè)強(qiáng)大的基礎(chǔ)模型。這個(gè)基礎(chǔ)模型不僅為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征,,還具備多視圖3D先驗(yàn)?zāi)芰?,為生成多個(gè)視圖的對(duì)象提供基礎(chǔ)。
三,、高效的數(shù)據(jù)處理和過濾策略
Stable Video Diffusion在數(shù)據(jù)處理方面采用了多種策略,,包括使用密集光流來注釋數(shù)據(jù)集、應(yīng)用光學(xué)字符識(shí)別來清除包含大量文本的剪輯等,。這些策略有效地提高了數(shù)據(jù)集的質(zhì)量,,去除了可能對(duì)模型性能產(chǎn)生負(fù)面影響的示例。同時(shí),,通過CLIP嵌入來注釋每個(gè)剪輯的關(guān)鍵幀,,進(jìn)一步豐富了數(shù)據(jù)集的信息量。
四,、靈活的應(yīng)用場(chǎng)景
由于Stable Video Diffusion提供了強(qiáng)大的多視圖3D先驗(yàn)和運(yùn)動(dòng)表征能力,,它可以廣泛應(yīng)用于各種場(chǎng)景,包括文本到視頻的生成,、圖像到視頻的生成以及對(duì)攝像機(jī)運(yùn)動(dòng)特定的適應(yīng)性等,。此外,該模型還可以以前饋方式生成對(duì)象的多個(gè)視圖,,具有較小的算力需求和優(yōu)于基于圖像方法的性能,。
五、高質(zhì)量的生成效果
通過多階段的訓(xùn)練策略和精心準(zhǔn)備的數(shù)據(jù)集,,Stable Video Diffusion能夠生成高質(zhì)量,、動(dòng)作連貫且時(shí)間一致的視頻內(nèi)容。