“如果AI生成的角色拒絕相信他們是AI生成的,會(huì)怎么樣?”
近日,海外博主用谷歌最新視頻模型Veo 3生成的一些人物視頻火了。在這些視頻中,有一群人集體高呼抗議“We're not prompts(我們不是提示詞)”,還有一位男士舉著手機(jī)自拍,背景是美妙的高山峽谷,他指著身后,“你想說我背后的完美創(chuàng)造物,僅僅是0和1的結(jié)果,一串二進(jìn)制代碼,再無其他?這不合理。”
當(dāng)然臺(tái)詞和劇本是人創(chuàng)作的,但由AI生成的這些人物和場景都極具真實(shí)感,無論是光線在人臉上投下的陰影與高光,還是人物的長相、口型,在陽光下瞇起眼睛的神態(tài)都極為自然。配合Veo 3新的原生音頻生成功能,人們?cè)僖淮误@呼“真實(shí)不存在了”。
事實(shí)是否真的如此,視頻生成的GPT時(shí)刻終于來了嗎?第一財(cái)經(jīng)記者采訪的Veo 3的使用者們并不這么認(rèn)為。AI Talk主理人、AIGC創(chuàng)作者汗青提到,Veo 3確實(shí)是很好的技術(shù),但并沒有網(wǎng)傳那么夸張,例如視頻生成質(zhì)量有提升但不驚艷,價(jià)格不低,現(xiàn)階段對(duì)實(shí)際生產(chǎn)幫助還不大。
AIGC創(chuàng)作領(lǐng)域的KOL@尾鰭Vicky對(duì)第一財(cái)經(jīng)表示,Veo 3的文生效果是很好,但圖生效果與國內(nèi)第一梯隊(duì)產(chǎn)品差不多,而在AI創(chuàng)作中,圖生視頻是更重要的工作流模式,綜合價(jià)格看還未達(dá)到使用者的預(yù)期。
是時(shí)候和好萊塢說再見了?
Veo 3是谷歌在近日的I/O大會(huì)上發(fā)布的一系列更新之一,在當(dāng)時(shí)一眾眼花繚亂的產(chǎn)品線更新中,并不特別突出,但目前已經(jīng)超過了其基座模型、智能眼鏡更新,成為討論度最高的產(chǎn)品。
Veo 3最大的迭代是,新增了原生音頻生成功能,即模型在生成視頻的同時(shí)能生成環(huán)境音和人物對(duì)話等,走出了此前視頻生成的“無聲時(shí)代”。從谷歌的演示看,無論是城市街道的車流聲、公園中的鳥鳴,甚至是角色對(duì)話,均可通過文本提示生成。
在發(fā)布新視頻模型的同時(shí),谷歌也發(fā)布了針對(duì)電影制作人的視頻創(chuàng)作工具FLOW。汗青認(rèn)為,Veo 3配合FLOW的剪輯功能,是AI影像新一代工作流的雛形。
Veo 3發(fā)布后,汗青第一時(shí)間進(jìn)行了測試,他用大概兩個(gè)多小時(shí)生成了一條一分半鐘的短片《前行列車》,包括影像在內(nèi),所有的配音、音效、對(duì)口型工作均由Veo 3完成。記者觀察到,無論是畫面、長鏡頭的鏡頭運(yùn)動(dòng)、人物表情和神態(tài)都非常有電影的質(zhì)感。
汗青認(rèn)為,Veo 3的優(yōu)勢(shì)是真正原生多模態(tài),原來的工作流是生成圖像、生成動(dòng)畫、生成配音/音效/音樂,最后對(duì)口型,但Veo 3的工作流是:文字生成動(dòng)畫,全部搞定。
“Veo 3生成的視頻,會(huì)根據(jù)你的要求自動(dòng)配上音樂和音效,提示詞里如果有臺(tái)詞,甚至連配音和對(duì)口型都做完了。這應(yīng)該是本次模型最大的亮點(diǎn)之一。在這個(gè)新的多模態(tài)范式里,你不用再單獨(dú)去折騰音樂和找配音、對(duì)口型了。”汗青表示,這種一次性生成的體驗(yàn),不是一站式生成,價(jià)值不言而喻,如果體驗(yàn)打磨到位,會(huì)大大降低創(chuàng)作的門檻,提升效率。
國外也不乏贊美的聲音。海外AI影片制作者@PJ Ace在X上表示,自己曾經(jīng)拍攝過價(jià)值50萬美元的藥品廣告,但現(xiàn)在不到一天的時(shí)間內(nèi)就用500美元的 Veo 3積分完成了一個(gè)一分多鐘廣告視頻,“現(xiàn)在花 50 萬美元的理由是什么?(此前)拍這樣的廣告,從劇本到最終剪輯,我和50個(gè)工作人員得花兩個(gè)多月的時(shí)間。”
有網(wǎng)友評(píng)論表示,從上面提及的這些數(shù)字來看,一部時(shí)長3小時(shí)的AI制作的電影成本約為 9 萬美元,“是時(shí)候和好萊塢說再見了”。 @PJ Ace認(rèn)為,AI制作相比好萊塢便宜了10到20倍。
這次出圈的脫口秀視頻是海外博主@Hashem Al-Ghaili用Veo 3制作的,他用谷歌的Veo 3做了一個(gè)測試,“想象一下,如果AI角色意識(shí)到他們生活在模擬環(huán)境中會(huì)是什么樣子”。
谷歌DeepMind首席執(zhí)行官哈薩比斯(Demis Hassabis)轉(zhuǎn)發(fā)了這一視頻,并表示,Veo 3在建模直觀物理方面的表現(xiàn)令人驚嘆,在他看來,這對(duì)世界的計(jì)算復(fù)雜性有著重要的意義。他透露,Veo 3的逼真效果源于其對(duì)復(fù)雜物理現(xiàn)象的推斷能力。
在帖子下面,科技圈名人馬斯克也現(xiàn)身稱贊,認(rèn)為Veo 3“Nice work(干得漂亮)”。
在磐霖資本風(fēng)險(xiǎn)合伙人陳利人看來,一個(gè)高中生用Veo 3生成的短片就能在TikTok獲得百萬播放量,畫面質(zhì)量堪比漫威電影預(yù)告片,這就像數(shù)碼相機(jī)終結(jié)柯達(dá)對(duì)影像的壟斷,GitHub讓程序員不必?cái)D進(jìn)硅谷才能創(chuàng)造偉大產(chǎn)品。“當(dāng)工具將專業(yè)創(chuàng)作能力賦予普通人,壟斷文化生產(chǎn)的傳統(tǒng)中心將失去存在的必要性。”
I/O大會(huì)之前,谷歌組織了一次媒體溝通會(huì),第一財(cái)經(jīng)記者曾問及谷歌的產(chǎn)品經(jīng)理David,他們是如何實(shí)現(xiàn)Veo視頻模型的質(zhì)量提升的,他回復(fù)稱,團(tuán)隊(duì)通過早期版本的實(shí)踐,了解了需要改進(jìn)的方向、適用的架構(gòu)、數(shù)據(jù)類型,以及如何為模型提供準(zhǔn)確、高質(zhì)量和充足的數(shù)據(jù),所有這些經(jīng)驗(yàn)都融入了迭代過程,這才有了Veo模型的驚喜。
也有業(yè)內(nèi)人士認(rèn)為,谷歌模型的進(jìn)展離不開“數(shù)據(jù)金礦”YouTube,憑借海量的視頻資源,谷歌可以輕松訓(xùn)練AI模型,生成效果自然遠(yuǎn)超競爭對(duì)手。哈薩比斯近日在播客節(jié)目中提到Veo 3表示,在視頻模型方面,“我們對(duì)數(shù)據(jù)質(zhì)量管理非常嚴(yán)格”。
GPT時(shí)刻到了嗎
盡管Veo 3的視頻生成質(zhì)量有提升,但長期接觸視頻生成產(chǎn)品的AI創(chuàng)作者們并不覺得這是“GPT時(shí)刻”。
汗青認(rèn)為,從生成效果上看Veo 3有提升但并不驚艷,“相比Veo 2,效果低于我的預(yù)期。”而在真實(shí)度這方面,他提到,Veo系列本來就是天花板,此前發(fā)布的Veo 2真實(shí)性已經(jīng)很強(qiáng),Veo 3是向前又走了一步。
與此同時(shí),視頻生成的瑕疵還有很多,例如,在火出圈的視頻中,一個(gè)“方頭小孩”明顯生成失誤,還有被采訪的女孩說話時(shí),嘴型與發(fā)音略有偏差。汗青體驗(yàn)發(fā)現(xiàn),偶爾出現(xiàn)沒有音頻的現(xiàn)象,一致性很難把控等等。
汗青用Veo 3生成了一個(gè)女主和蜘蛛俠一起做播客訪談的視頻,可以看到其仿真度非常高,但背后LOGO的“AI.TALK”一直沒能顯示正確。
汗青也嘗試了在8秒的生成長度中能容納對(duì)話的上限能力,發(fā)現(xiàn)在臺(tái)詞較多的時(shí)候,會(huì)出現(xiàn)丟臺(tái)詞、對(duì)話主體混亂(A說了B的話)之類的問題,同時(shí)對(duì)中文的支持并不好,大部分情況下都會(huì)出錯(cuò)。這些都是Veo 3需要不斷完善的,遠(yuǎn)遠(yuǎn)達(dá)不到完美。
汗青肯定了Veo 3音畫同出的方式,確實(shí)大幅度提升了創(chuàng)作效率,但目前體驗(yàn)下來很多效果遠(yuǎn)遠(yuǎn)不夠理想,“它的意義是提出一個(gè)很有價(jià)值的方向,并且比Sora實(shí)現(xiàn)得要好得多,但千萬別指望現(xiàn)在就能用它做大量的商業(yè)生產(chǎn)。”
實(shí)際上,第一財(cái)經(jīng)問及視頻生成現(xiàn)階段的挑戰(zhàn)時(shí),David也表示,這個(gè)領(lǐng)域仍處于早期階段,視頻生成的首要挑戰(zhàn)是非常基礎(chǔ)的問題——指令遵循。用戶提出需求后,是否能得到預(yù)期的結(jié)果,這也是谷歌在持續(xù)改進(jìn)的方向。
對(duì)于創(chuàng)作者來說,除開這些瑕疵點(diǎn),Veo 3最大問題是文生工作流模式和昂貴的價(jià)格。
@尾鰭Vicky與多個(gè)視頻生成平臺(tái)都有合作,她表示,Veo 3主要是文生效果很好,但從現(xiàn)階段真實(shí)的商業(yè)化生產(chǎn)場景來說,文生視頻并不是主要生產(chǎn)力。實(shí)際上創(chuàng)作者們“干活”用即夢(mèng)、可靈、PixVerse、Vidu較多。
AI影視出現(xiàn)至今,AI創(chuàng)作者們有一個(gè)業(yè)內(nèi)基本遵循的工作流范式,即以圖像為核心,按圖像去生成視頻、再去音頻融合(配音口型),最后剪輯,這是基本流程,而文生視頻的流程,不確定性更高。因此當(dāng)一個(gè)新模型不支持圖生視頻時(shí),則意味著創(chuàng)作者們無法將其用于生產(chǎn)流程。
“即便是Veo 3的出現(xiàn),我也不認(rèn)為AI創(chuàng)作基本流程在短期內(nèi)會(huì)有太大的變化,因?yàn)榭貓D比控視頻的成本低太多了。”汗青也認(rèn)為,傳統(tǒng)的工作流在效率上存在很大的提升空間,F(xiàn)low的發(fā)布讓人們看見這種可能性正在形成,不過,還有很長的路要走。
Veo 3另一個(gè)問題是價(jià)格。目前要使用Veo 3,首先需要谷歌美區(qū)賬號(hào),同時(shí)訂閱谷歌最貴的AI ultra套餐,費(fèi)用高達(dá)每月249.99美元(約為人民幣1800元),這比OpenAI旗下最貴套餐ChatGPT Pro還貴近50美元。不過,目前首次使用AI ultra的用戶在前三個(gè)月可以享受50%的特別優(yōu)惠,現(xiàn)價(jià)暫時(shí)是124.99美元每月(約為人民幣900元)。
但如果用于商業(yè)流程,AI ultra套餐也并不夠用。汗青介紹,目前每個(gè)8秒的Veo 3視頻需要150積分,ultra的套餐只贈(zèng)送12500積分/月,超出部分需要加油包,100個(gè)積分1美元,算下來大約1個(gè)8秒的鏡頭就需要1.5美元。
“套餐里這點(diǎn)積分拿來做商業(yè)項(xiàng)目是肯定不夠的,一般都要涉及加油包的購買。由于文生視頻的不可控性,成片率并不高。”汗青表示,以他做的《前行列車》為例,這條一分半的視頻,用了6000-7000積分,花費(fèi)在70美元左右。
從整體上來看,汗青認(rèn)為Flow和Veo 3是有里程碑意義的一次發(fā)布,但絕不推薦大部分人目前重度使用它,除非是氪金玩家,或者有明確商業(yè)回報(bào)的項(xiàng)目。“惱人的瑕疵非常多,遠(yuǎn)談不上完美,也很貴。但意義是讓我們看到了新的AI影像工作流的雛形。”
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。