Vidu是北京生數(shù)科技有限公司聯(lián)合清華大學(xué)發(fā)布的中國首個長時長、高一致性,、高動態(tài)性視頻大模型,,于2024年4月27日在中關(guān)村論壇未來人工智能先鋒論壇上發(fā)布,模型采用團(tuán)隊(duì)原創(chuàng)的全球首個Diffusion與Transformer融合的架構(gòu)U-ViT,。
2024年7月,,Vidu面向全球上線,核心功能包括參考生視頻、圖生視頻,、圖生視頻,。可生成4秒和8秒視頻,,分辨率最高達(dá)1080P,。上線百天用戶數(shù)即破千萬,2025年1月15日為止,,是全球增速最快的AI視頻模型,。
Vidu自上線以來就致力于解決“一致性”核心難題,Vidu1.5發(fā)布“多圖參考”功能,,是全球首個發(fā)布“多主體一致性”的視頻模型,。
Vidu的快速突破源自于團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項(xiàng)原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出,,早于Sora采用的DiT架構(gòu),,是全球首個Diffusion與Transformer融合的架構(gòu)。2023年3月,,團(tuán)隊(duì)開源了全球首個基于U-ViT融合架構(gòu)的多模態(tài)擴(kuò)散模型UniDiffuser,,率先完成了U-ViT架構(gòu)的大規(guī)模可擴(kuò)展性驗(yàn)證,。
2024年4月27日,,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個長時長,、高一致性,、高動態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,,性能全面對標(biāo)國際頂尖水平,,并在加速迭代提升中。
2024年6月6日,,Vidu模型能力迭代更新,,支持一鍵生成達(dá)32秒的視頻、支持音視頻生成,、支持Vidu4D生成,。
2024年7月30日,生數(shù)科技自研視頻大模型Vidu上線,。
2024年9月11日,,Vidu全球首發(fā)“主體參照”功能,,一張照片實(shí)現(xiàn)主體可控,。
2024年9月25日,Vidu正式開放API。
2024年11月13日,,Vidu1.5上線,,全球首發(fā)“多主體一致性”能力,標(biāo)志著視覺模型進(jìn)入全新的“上下文”時代,。
2025年1月15日,,Vidu2.0上線,推動視頻生成走向人人可用的奇點(diǎn)時刻,。3月17日晚間,,生數(shù)科技宣布,旗下視頻大模型產(chǎn)品Vidu正式與美國知名動漫制作工作室Aura Productions達(dá)成戰(zhàn)略合作,。
參考生視頻:全球首個參考生視頻功能,,讓創(chuàng)作的角色、物體,、場景等始終保持一致
圖生視頻:基于任意圖片描述您想象的畫面,,即刻動態(tài)呈現(xiàn),讓您的創(chuàng)意栩栩如生
文生視頻:用文字描述您想象的畫面,,自由表達(dá)創(chuàng)意,,即刻創(chuàng)作視頻
Vidu開放了參考生視頻、文生視頻,、圖生視頻三大核心功能,,提供4s和8s兩種時長選擇,分辨率最高達(dá)1080P,。
Vidu在生成速度,、一致性、動態(tài)性等方面具備領(lǐng)先優(yōu)勢,,生成一段4秒視頻僅需10秒,。
參考生視頻
通過上傳1-3張參考圖,Vidu 1.5可實(shí)現(xiàn)對單主體100%的精確控制,,同時實(shí)現(xiàn)多主體交互控制,、主體與場景融合控制,能夠無縫集成人物,、道具和場景等元素,。
動畫風(fēng)格
Vidu可以生成效果優(yōu)異的動畫視頻
錯峰模式
Vidu支持閑時免費(fèi)生成視頻。