2月16日凌晨,OpenAI公司發(fā)布最新“文生視頻”大模型Sora,并附帶發(fā)布了多條由Sora生成的視頻,相較于目前“文生視頻”業(yè)內(nèi)主流的數(shù)秒鐘版本,此次發(fā)布的Sora可以一次性生成一分鐘的視頻。
Sora的發(fā)布毫無懸念地再次引發(fā)了整個(gè)市場(chǎng)的高度關(guān)注。有人認(rèn)為Sora創(chuàng)新的模型架構(gòu)為大模型的發(fā)展開辟了新道路,也有人認(rèn)為Sora的推出讓通用人工智能到來的日期大大提前,還有市場(chǎng)人士表示Sora的爆紅與OpenAI高超的營(yíng)銷密不可分。可以預(yù)見的是,Sora的橫空出世,無疑將促使人工智能引領(lǐng)新一輪行業(yè)變革。
Sora橫空出世
2月16日,美國(guó)人工智能公司OpenAI發(fā)布最新“文生視頻”大模型Sora,并同時(shí)公布了一系列樣片,展現(xiàn)了Sora令人驚嘆的視頻生成效果。據(jù)其官網(wǎng)介紹,Sora繼承DALL·E 3的畫質(zhì)和遵循指令能力,能生成長(zhǎng)達(dá)1分鐘的高清視頻。
從樣片來看,此次大模型在長(zhǎng)視頻(60秒)中表現(xiàn)出令人驚嘆的穩(wěn)定性與前后一致性。同時(shí),在部分樣片中,Sora還展現(xiàn)了對(duì)“物理規(guī)律”超強(qiáng)的學(xué)習(xí)能力,無論是飄逸的毛發(fā)還是水體波紋,Sora都能“合乎常理”地呈現(xiàn)出來。
對(duì)于這款大模型,天風(fēng)證券全球科技首席分析師孔蓉用“非常驚艷、超預(yù)期”來形容初次看到的感受。
“我覺得除了生成時(shí)長(zhǎng)以及前后高度穩(wěn)定性外,還有一個(gè)非常關(guān)鍵的地方就是,它是一個(gè)世界模擬器,它對(duì)物理規(guī)則有著高度的理解,這不僅僅是視頻?!痹诳兹乜磥?,這或許會(huì)成為真正意義上的“元宇宙”時(shí)刻。
伴隨Sora的亮相,外界普遍認(rèn)為,OpenAI的技術(shù)儲(chǔ)備深度可能遠(yuǎn)超想象。從目前來看,OpenAI僅透露Sora是一種擴(kuò)散模型,從噪聲開始,能夠一次生成整個(gè)視頻或擴(kuò)展視頻的長(zhǎng)度。
隨著模型的發(fā)布,業(yè)內(nèi)圍繞技術(shù)的猜想隨即展開。PyTorch創(chuàng)始人Soumith Chintala從視頻推測(cè)Sora是由游戲引擎驅(qū)動(dòng),并為游戲引擎生成組件和參數(shù)。英偉達(dá)高級(jí)研究科學(xué)家范麟熙(Jim Fan)認(rèn)為,Sora通過一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺”物理、長(zhǎng)鏡頭推理和語義基礎(chǔ)等。
紐約大學(xué)助理教授謝賽寧推測(cè),整個(gè)Sora模型可能有30億個(gè)參數(shù)。
是創(chuàng)新也是營(yíng)銷
Sora的橫空出世引發(fā)科技圈熱議。特斯拉創(chuàng)始人馬斯克在社交平臺(tái)連發(fā)多條動(dòng)態(tài)稱:“被人工智能增強(qiáng)的人類,將會(huì)在未來幾年之內(nèi)創(chuàng)作出最杰出的作品?!?/p>
在國(guó)內(nèi),三六零創(chuàng)始人周鴻祎近日連續(xù)發(fā)聲稱,Sora的誕生意味著AGI(通用人工智能)實(shí)現(xiàn)時(shí)間可能從10年縮短至一兩年。他表示,科技競(jìng)爭(zhēng)最終比拼的是人才密度和深厚積累。
“很多人說Sora的效果吊打Pika和Runway。這很正常,就創(chuàng)業(yè)者團(tuán)隊(duì)而言,OpenAl這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了AI以后創(chuàng)業(yè)公司只需要做個(gè)體戶就行,實(shí)際上今天再次證明這種想法是非??尚Φ摹!敝茗櫟t說。
孔蓉對(duì)此表示贊同?!皩?duì)于創(chuàng)業(yè)公司來說,目前壓力還是比較大的,因?yàn)镾ora的性能幾乎是碾壓的?!彼寡?,從目前來看,國(guó)內(nèi)頭部廠商還有不小的距離需要追趕。
事實(shí)上,在此次Sora發(fā)布后,“文生視頻”知名創(chuàng)業(yè)公司Pika創(chuàng)始人郭文景表示:“我們覺得這是一個(gè)很振奮人心的消息,我們已經(jīng)在籌備,將直接對(duì)標(biāo)Sora。”
“Sora具有三維空間的連貫性、模擬數(shù)字世界、長(zhǎng)期連續(xù)性和物體持久性、與世界互動(dòng)的技術(shù)特點(diǎn),是文生視頻領(lǐng)域取得的重大進(jìn)步和突破?!崩鋈f維CEO方漢告訴上海證券報(bào)記者,從技術(shù)上來看,Sora領(lǐng)先國(guó)內(nèi)同行大概半年。
不過,方漢表示,這一差距并沒有外界想象得那么大?!皟H從目前公布的樣片來看,Sora在理解層面沒有特別大的突破,不能夸大Sora在通用人工智能方面的進(jìn)步。國(guó)內(nèi)廠商和國(guó)外廠商在文生視頻的差距,不像大模型領(lǐng)域的差距那么大。”方漢說。
某種意義上來說,Sora此次的成功既有技術(shù)的驚艷,也離不開營(yíng)銷的運(yùn)作。
在Sora發(fā)布前數(shù)小時(shí),谷歌公布了大模型Gemini 1.5版。如果進(jìn)一步考慮OpenAI創(chuàng)始人阿爾特曼近期正在為其7萬億美元的芯片計(jì)劃四處奔走,Sora的發(fā)布時(shí)間也就更值得玩味了。
行業(yè)變革前夜
不能否認(rèn)的是,相比于GPT剛剛破圈時(shí)大眾的好奇與茫然,如今Sora一經(jīng)亮相,市場(chǎng)就已經(jīng)找到它未來的商業(yè)路徑。方漢直言,Sora的問世對(duì)影視、視頻、廣告等行業(yè)或?qū)聿恍〉臎_擊。
“Sora對(duì)于XR領(lǐng)域的各類頭戴式眼鏡設(shè)備將有著正向積極的作用?!笨兹仡A(yù)測(cè),隨著人工智能在2D轉(zhuǎn)3D的內(nèi)容生態(tài)上大展拳腳,XR當(dāng)前的內(nèi)容生態(tài)將得到極大的豐富,對(duì)于行業(yè)而言無疑是一件利好。
據(jù)不完全統(tǒng)計(jì),在Sora發(fā)布48小時(shí)后,國(guó)內(nèi)已有14家券商發(fā)布了最新的分析研報(bào)。大部分分析師認(rèn)為,AI創(chuàng)作將為整個(gè)視頻行業(yè)帶來巨大變革。
伴隨Sora的發(fā)布,一批A股上市公司也摩拳擦掌,更有不少公司已經(jīng)布局AI文生視頻相關(guān)技術(shù)及產(chǎn)品,有望在新一輪的產(chǎn)業(yè)變革中搶占先機(jī)。
2月18日,新華網(wǎng)被新增“Sora概念”。該公司于2023年12月11日在互動(dòng)易平臺(tái)回復(fù),新華智云的妙筆是AI文本生成,生花就是AI文生圖,這兩個(gè)2023年上線的新產(chǎn)品都是AIGC內(nèi)容生產(chǎn)工具。MAGIC短視頻智能生產(chǎn)平臺(tái)有文生視頻的功能,目前也在嘗試提升視頻生成效果,通過內(nèi)部測(cè)試后將對(duì)外發(fā)布。
因賽集團(tuán)此前公告稱,公司的InsightGPT預(yù)計(jì)2024年3月底前將開發(fā)實(shí)現(xiàn)文生視頻功能,之后推出公測(cè)版正式啟動(dòng)商業(yè)化。公司提到,InsightGPT自動(dòng)生成短劇腳本、視頻智能剪輯以及即將研發(fā)實(shí)現(xiàn)的文生視頻等功能,有助于短劇內(nèi)容制作降本增效。
萬興科技去年6月曾公告稱,公司基于AI文生視頻以及3D數(shù)字人等技術(shù)開發(fā)了數(shù)字人營(yíng)銷短視頻創(chuàng)作工具,面向跨境營(yíng)銷和電商領(lǐng)域用戶,通過AIGC與虛擬數(shù)字人技術(shù)快速生成“真人”主播,解決傳統(tǒng)電商營(yíng)銷視頻實(shí)拍模式下的外籍模特?cái)?shù)量少、多語言翻譯配音難度高、制作周期長(zhǎng)、成本居高不下等問題。
風(fēng)語筑今年2月6日在投資者互動(dòng)平臺(tái)上透露,目前,公司已結(jié)合AIGC技術(shù)在文生文、文生圖、文生音視頻等領(lǐng)域進(jìn)行場(chǎng)景應(yīng)用,隨著AIGC技術(shù)從“通用模型”向“行業(yè)垂直”方向加速迭代,公司還將強(qiáng)化在3D建模和虛擬空間生成等領(lǐng)域的定向訓(xùn)練和模型優(yōu)化。