Sora,,美國人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,,而是作為“世界模擬器”),于2024年2月15日(美國當?shù)貢r間)正式對外發(fā)布,。
Sora這一名稱源于日文“空”(そら sora),,即天空之意,以示其無限的創(chuàng)造潛力,。其背后的技術是在OpenAI的文本到圖像生成模型DALL-E基礎上開發(fā)而成的,。
Sora可以根據(jù)用戶的文本提示創(chuàng)建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,,可以深度模擬真實物理世界,,能生成具有多個角色、包含特定運動的復雜場景,。繼承了DALL-E 3的畫質(zhì)和遵循指令能力,,能理解用戶在提示中提出的要求。
Sora對于需要制作視頻的藝術家,、電影制片人或?qū)W生帶來無限可能,,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標志著人工智能在理解真實世界場景并與之互動的能力方面實現(xiàn)飛躍,。
2024年12月10日,,OpenAI正式向用戶開放人工智能視頻生成模型Sora。12月18日,,文生視頻大模型Sora入選“2024全球十大工程成就”,。
OpenAI在大模型領域的成功
2022年底,,OpenAI正式推出ChatGPT,,這款由人工智能技術驅(qū)動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步,,這款讓所有人都能體會到人工智能潛力的現(xiàn)象級產(chǎn)品,,展現(xiàn)出了文字對于過去人工智能的理解力和邏輯能力的超越。隨后,,OpenAI的開發(fā)重點逐步過渡到圖像的生成,,Dall-E模型在生成圖像方面也獲得了重大突破。
視覺算法的進步
視覺算法近年來的突破在泛化性,、可提示性,、生成質(zhì)量和穩(wěn)定性等方面均取得了進展,這預示著技術拐點的臨近以及爆款應用的涌現(xiàn),。特別是在3D資產(chǎn)生成和視頻生成領域,,由于擴散算法的成熟,,這些領域受益匪淺。然而,,與圖像生成相比,,3D資產(chǎn)和視頻生成在數(shù)據(jù)和算法方面面臨的難點更多。
盡管如此,,考慮到大型語言模型(LLM)對人工智能各領域的加速作用以及已經(jīng)出現(xiàn)的優(yōu)秀開源模型,,2024年該行業(yè)有望實現(xiàn)更大的發(fā)展。在2023年末至2024年初,,Pika,、HeyGen等人工智能生成的視頻應用逐漸受到關注,這驗證了多模態(tài)技術的持續(xù)進步與成熟,。但與此同時,,民主倡導者和人工智能研究人員警告說,這些工具已經(jīng)被用來欺騙和欺騙民眾,。
Sora在日語中是“天空”(そら)的意思,,引申含義還有“自由”,象征著其無限的創(chuàng)造潛力,。
Sora對于需要制作視頻的藝術家,、電影制片人或?qū)W生來說,都帶來了無限可能,。該模型可以深度模擬真實物理世界,,標志著人工智能在理解真實世界場景并與之互動的能力方面實現(xiàn)飛躍,也被認為是實現(xiàn)通用人工智能(AGI)的重要里程碑,,通過不斷深入研究和發(fā)展Sora等先進模型,,有望在未來實現(xiàn)更加智能、高效和多樣化的視頻生成與處理技術,。Sora的推出讓AIGC(生成式人工智能)再度成為行業(yè)焦點,,能否徹底“顛覆”行業(yè)也成為輿論議論的中心。
估值上漲
Sora發(fā)布后,,OpenAI的估值迅速上漲(有望超過800億美元,,2023年ChatGPT發(fā)布不久時其估值約為290億美元),且文生視頻大模型將會大幅推動人工智能基礎設施的需求,,英偉達,、OpenAI、軟銀等巨頭公司都被曝正在進行AI芯片的制造布局,,英偉達也因大模型訓練需要GPU算力支持而股價大漲,。與此同時,受Sora發(fā)布的影響,,美國圖片供應商Shutterstock的股價大跌,。
在中國,,龍年開市第一天,Sora相關概念全線“爆發(fā)”,,會暢通訊,、當虹科技、萬興科技,、易點天下,、因賽集團、東方國信,、數(shù)碼視訊,、華揚聯(lián)眾、國脈文化等股票均大幅上漲,,多家公司回應稱,,將根據(jù)自身業(yè)務特點,在文生視頻技術落地,、Sora應用等方面尋找突破入口,。
生產(chǎn)變革
浙商證券預測,Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進程中,,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),,UGC(用戶生成內(nèi)容)將借助AI工具逐步替代PGC。此間,,AI生成視頻工具的商業(yè)化將提速,。
Sora可生成一段長達60秒的視頻,遠超市面同類AI產(chǎn)品視頻生成時長,,60秒的視頻時長,,已經(jīng)超過抖音等短視頻平臺的平均視頻時長,Sora的誕生也為以后短視頻平臺的內(nèi)容生產(chǎn)提供了更大的可能性,。
職業(yè)取代
截至2024年2月,,已有一些視覺藝術家、設計師和電影制作人以及OpenAI員工獲得了Sora訪問權限,,他們也已開始在社交平臺不斷曬出使用Sora生成的新作品,,為人們展示AI生成視頻的創(chuàng)意可能。許多網(wǎng)友稱“不少人要丟工作了”,,甚至有人開始“悼念”一整個素材行業(yè)。
功能綜述
Sora可以快速制作最長一分鐘,、準確反映用戶提示,、可一鏡到底的視頻(其他AI視頻工具還在突破幾秒內(nèi)的連貫性),視頻可以呈現(xiàn)“具有多個角色,、特定類型的動作,、以及主題和背景的準確細節(jié)的復雜場景”,。
靜態(tài)圖生成視頻
Sora還具備根據(jù)靜態(tài)圖像生成視頻的能力,能夠讓圖像內(nèi)容動起來,,并關注細節(jié)部分,,使得生成的視頻更加生動逼真,這一功能在動畫制作,、廣告設計等領域具有應用前景,。
視頻擴展與缺失幀填充
Sora能夠獲取現(xiàn)有視頻并對其進行擴展或填充缺失的幀,這一功能在視頻編輯,、電影特效等領域具有應用前景,,可以幫助用戶快速完成視頻內(nèi)容的補充和完善。
連接視頻
可以使用Sora連接兩個輸入視頻,,在具有完全不同主題和場景組成的視頻之間實現(xiàn)無縫過渡,。
多幀預測生成
Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,,它生成的視頻一開始看起來像靜態(tài)噪音,,通過多個步驟逐漸去除噪聲后,視頻也從最初的隨機像素轉(zhuǎn)化為清晰的圖像場景,,其能夠一次生成多幀預測,,確保畫面主體在暫時離開視野時仍保持一致。
特殊架構(gòu)
Sora采用與GPT模型相似的Transformer架構(gòu),,OpenAI用Transformer結(jié)構(gòu)替代Diffusion模型中常用的U-Net結(jié)構(gòu),,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎,。Transformer架構(gòu)能夠處理長序列數(shù)據(jù),,并通過自注意力機制捕捉數(shù)據(jù)中的依賴關系,從而提高模型的生成能力,。但為了解決Transformer架構(gòu)在長文本和高分辨率圖像處理上的問題,,擴散模型采用更可擴展的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)的注意力機制,從而減少了算力需求,,并能夠生成高分辨率圖像,。
重述提示詞
Sora借鑒DALL-E 3的“重述提示詞技術”,為視覺訓練數(shù)據(jù)生成高度描述性的標注,,這使得模型能夠更忠實地遵循用戶的文本指令,,生成符合用戶需求的視頻內(nèi)容,同時也提高了模型的靈活性和可控性,。
數(shù)據(jù)表示
OpenAI將視頻和圖像表示為Patch,,類似于GPT中的token,這種統(tǒng)一的數(shù)據(jù)表示方式使得Sora能夠在更廣泛的視覺數(shù)據(jù)上進行訓練,,涵蓋不同的持續(xù)時間,、分辨率和縱橫比,,有助于模型學習到更豐富的視覺特征,提高生成視頻的質(zhì)量和多樣性,。
原生規(guī)模訓練
Sora采用“原生規(guī)模訓練”,,過往的圖像和視頻生成通常會將視頻調(diào)整為標準大小,但這樣會失去視頻的原始長寬比和細節(jié),,而原生規(guī)模的訓練方法可以帶來更好的效果,。Sora可以對各種尺寸和縱橫比的視頻進行采樣,允許直接為不同尺寸的設備創(chuàng)建內(nèi)容,,并快速原型化較低分辨率的內(nèi)容,。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整,、更美觀的視頻,。
故事板模版
Sora還包含一個名為故事板(Storyboard)的選項,允許用戶通過它詳細描述希望視頻在不同時間點發(fā)生的內(nèi)容,,從而更好地指導一系列片段的生成,,用戶可以瀏覽其他人創(chuàng)作的視頻集錦。