麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

文生視頻路在何方?萬興科技旗下萬興“天幕”或提出破局之法觀點

觀察君 2024-07-04 17:14
分享到:
導讀

隨著Sora驗證算法可行性后,行業玩家們未來又將如何打出差異化、實現真正落地?

衣著精致的女人行走在東京街頭,身著宇航服的宇航員正以堅毅的目光注視前方,頭頂黃色氣球的氣球人在跑跑跳跳……繼文本、圖像后,視頻行業也正在接受AI技術的重塑,不少人認為“AI視頻元年”已至。視頻為何會成為AI技術最后探索的領域?隨著Sora驗證算法可行性后,行業玩家們未來又將如何打出差異化、實現真正落地?

當我們談論AI視頻,我們在談論什么?

現階段,提及“AI視頻”,似乎包羅萬象——從文生視頻大模型Sora、Runway、快手可靈、萬興“天幕”,到虛擬人視頻HeyGen、萬興播爆、Synthesia,再到AI風格化視頻DemoAI等,甚至包括文字快剪等AI剪輯技術……一切與“AI+視頻”兩大元素相關的都可歸為這一概念,也讓行業對AI視頻的探討稍顯不聚焦。

事實上,細究以上所有AI視頻的分支,可以發現雖然都是AI技術加持下生成的視頻,但其背后的技術路徑卻大相徑庭。

以HeyGen、萬興播爆為代表的虛擬人視頻生成主要依靠虛擬人技術,涵蓋了面部識別處理、建模、渲染、驅動等技術過程,AI主要體現在驅動虛擬人形象層面,應用場景也主要集中于口播營銷、新聞播報等需要人物形象穩定出鏡的類別;以DemoAI為代表的AI風格化視頻,則是通過將一段原始視頻拆解的每一幀原始圖像替換為AI風格化圖像,再最終合并成一段完整的AI視頻形態。

這兩種技術,都是“從有到有”“從視覺到視覺”,而實現“從無到有”的,則是文生視頻技術,或者說是難度指數級升級版本的文生圖技術。

文生視頻技術可簡要分為“Sora前”和“Sora后”。在Sora橫空出世之前,文生視頻一直受限于時長,被稱為“10秒以內的時代”,而Pika和Runway則是AI視頻領域呼聲最高的商業類應用。

在這個階段,文生視頻技術基本建立在AI繪畫的基礎操作之上,本質上是對圖像這一基礎單位更為復雜的控制生成,需要對圖像這一基礎單位建立向前和向后等更為復雜的時空邏輯關系,其視頻訓練的本質也是拆解到對關鍵幀圖像的理解,主要技術路徑依靠擴散模型。在很長一段時間內,文生視頻技術都以相對較慢的速度向前發展。

AI視頻為何受限于“10秒以內”?

相較語言大模型、文生圖技術在短時間內相繼迎來技術突破,并迎來市場爆火,文生視頻技術的進展顯得尤為緩慢。控制、時間連貫性、長度是其中的主要問題。

控制,顧名思義,要求算法對視頻內所有物體以及發生的情節的絕對性控制,而控制背后的邏輯則是算法對不同物體之間物理關系的透徹理解。AIGC軟件A股上市公司萬興科技(300624.SZ)董事長吳太兵在采訪中指出,如果說文本大模型只需要理解人類,那么視頻大模型需要處理和還原視覺與聽覺等信息,相當于理解并構建一個接近真實的世界,這意味著指數級上升的數據和學習成本。

眾所周知,視頻里包含了大量的交互鏡頭,包括人與人、人與物體、物體與物體的交互。當一個人行走,他的手臂如何自然擺動、走的每一步中腳和地面之間是否處于相對靜止;又或者一個玻璃杯摔落,算法是否知道它會摔碎,如果摔碎那么每一個玻璃碎片又將按照怎樣的軌跡彈出;風吹過一片草地,每一根小草該如何隨風舞動……所有我們在日常生活中習以為常、視若無睹的極細微運動,均遵循著物理規律,而如此龐大的物理規律的堆疊,使得“控制”成為視頻生成領域最為困難的一個問題。

除對視頻內容的控制外,時間連貫性也同樣重要——如何讓角色、物體和背景在幀之間保持一致,而不會變形或扭曲,或者變換成另一個物體。如一個人在街邊走路,是否可以保證街邊景色的連貫,而正在走路的主人公,他的長相是否能夠保持一致……這是一個視頻是否可以實際使用的底線,但受限于技術的不可控性,往往很難達成。

此外,視頻長度同樣重要,且與時間連貫性密切相關。目前,許多公司限制旗下產品生成視頻的長度,究其原因,在于他們無法確保幾秒鐘后的畫面一致性。如果只能保證短時間內的連貫性,那么視頻將會面臨鏡頭過多、觀感差的問題,大大降低了文生視頻應用的可能性。

Sora為何成為文生視頻“紫微星”?

隨著今年初Sora的橫空出世,控制、時間連貫性、時長三大問題似乎都迎刃而解,大幅提升的生成質量讓不少人直呼文生視頻領域的“ChatGPT時刻”已經到來。根據OpenAI公開的技術文檔顯示,Sora主要依靠三大“秘密武器”解決了以上矛盾。

首先是DiT(Diffusion Transformer)架構。DiT最早完整體現在華人學者謝賽寧教授的論文《Scalable Diffusion Models with Transformers》,后經由OpenAI完整地工業化實現。簡單來講,DiT是將傳統的U-Net架構替換為Transformer架構,這樣做的理由和優勢是:當數據集量級大時,Transformer相比于U-Net更具擴展性,更能促成龐大數據集所帶來的涌現能力發生。

此外,Transformer的自注意力機制還極有可能幫助Sora在視頻的時間連貫性上取得更好的表現。Sora可以將時間離散化,然后通過自注意力機制理解前后時間線的關系。而自注意力機制的原理就是每個時間點和其他所有時間點產生聯系,這是Diffusion Model所不具備的。

第二大“武器”,是Sora特有的視頻分解邏輯。對于沒有視覺能力、只會理解二進制的計算機來說,如何將包含三維視覺信息的視頻拆分成計算機能夠理解的格式,以進一步推進訓練,是文生視頻技術的一大難點。目前,包括Sora在內的大部分大模型都采用了把視頻編碼成一個一個離散的token的方式,而Sora在此基礎上,將視頻在三維空間中均分成一個一個小的token,被OpenAI稱為“時空補丁”(spacetime patches),更有利于最大化利用視頻數據,完成OpenAI的“暴力美學”。

最后是強大的語言理解能力。在OpenAI文生圖模型DALLE3的加持下,Sora可以將許多沒有文本標注的視頻自動進行標注,并用于視頻生成的訓練。同時因為有GPT的加持,可以將用戶的輸入擴寫成更加詳細的描述,使得生成的視頻獲得更加貼合用戶的輸入,并且Transformer框架能幫助Sora模型更有效地學習和提取特征,獲取和理解大量的細節信息,增強模型對未見過數據的泛化能力。

Sora解決了部分問題,但這就夠了嗎?

Sora的三大“武器”推動了文生視頻“GPT時刻”的到來,也從一定程度上解決了以上種種困擾文生視頻領域一年多的問題,但行業的發展速度仍遠慢于2023年初大語言模型橫空出世之時。距離Sora官宣已近半年,但真正用到這一工具的用戶仍寥寥無幾,更有不少爭議甚囂塵上。距離文生視頻技術成為真正能夠代替生產力的工具,我們還有哪些懸而未決的問題?

首先,高質量的訓練數據從何而來?相較文本、圖像等數據形式,目前全球范圍內的高質量標記訓練視頻數據都處于緊缺狀態。雖然YouTube和TikTok等視頻平臺上不乏可公開訪問的視頻,但這些原始視頻沒有經過標注,同時在內容種類上也不夠多樣化。

從現階段來看,與專業視頻工作室、制作公司,乃至于電視臺等機構達成合作,或許是高質量視頻數據獲取的最優解,而國內顯然已有玩家開始探索這一合作模式。作為國內首個音視頻多媒體大模型,萬興“天幕”在發布之初,就已落戶馬欄山,并與中廣天擇達成大模型算料戰略合作,針對中國本土數據采集進行了前瞻性布局,并且已完成了百億本土化高質量音視頻數據沉淀,或可作為案例來借鑒。

其次,誰將負責工作流程?視頻創作并非單純的AI生成可滿足,而是需要動畫、字幕、音樂、特效等等資源層層結合加碼,也正因為音視頻制作鏈路的門檻和復雜性,注定了相關需求無法由單一模型“一氣呵成”。

當前,許多創作者常見的創作流程包括從ChatGPT等語言大模型上獲取創作靈感、腳本及提示詞,從Midjourney等圖像大模型上通過文字生成關鍵幀畫面,在Runway等視頻大模型上通過關鍵幀延伸創作出動畫視頻,在Suno等音頻大模型上生成配樂,再將所有素材導入傳統剪輯軟件進行后期剪輯并制作出成品。縱觀整個流程,創作者需輾轉多個平臺、切換不同軟件、多次導入文件,由此帶來了飆升的工作量。

而采取“車間模式”協同生產的音視頻大模型,或許可以為此問題提出一個可能的解決方向。吳太兵認為,大模型1.0時代生成方式以文本為主并輔以跨模態,內容的可控性不高;2.0時代,垂直大模型增長趨勢明顯,好比“工匠”,可更快速、更靈活解決細分領域專業性問題,可對“原材料”進行組裝等加工,做成“半成品”乃至“成品”,其生成模式更多是多媒體融合的方式,可從模型到應用場景對用戶一條龍賦能。

基于此理念,萬興科技推出了萬興“天幕”,以音視頻生成式AI技術為基礎,聚焦數字創意垂直場景,由視頻大模型、音頻大模型、圖片大模型、語言大模型組成,并擁有超百個AI原子能力,讓用戶能夠“一站式”完成內容創作。

從2022年至今,短短不到兩年的時間內,世界見證了AI行業的飛速發展,也更加證實了未來的潛力。雖然偶有困難,但是AI視頻技術的明天無疑是光明的,它將繼續推動著我們向一個更加豐富、多元和互動的數字世界新時代邁進。

萬興科技 Sora驗證算法
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 亚洲天堂精品在线 | 香蕉97超级碰碰碰免费公 | 国产精品福利在线观看免费不卡 | 香蕉久久夜色精品国产小优 | 欧美色综合高清免费 | 欧美一级艳片视频免费观看 | 7777奇米 | 成人永久免费福利视频网站 | 2019国产精品 | 成年人黄色录像 | 亚洲第一区欧美日韩精品 | sihu国产午夜精品一区二区三区 | 热99在线视频 | 免费日韩 | 亚洲系列第一页 | 日韩成本大片35分钟免费播放 | 俄罗斯freeⅹ性欧美 | 2018高清国产一道国产 | 亚洲精品免费视频 | 日本在线播放 | 国产区久久 | 91porn最新地址 | 暖暖的免费观看高清视频韩国 | 欧洲美女女同 | 美女黑人做受xxxxxⅹ | 四虎影院永久网址 | 99久久伊人精品波多野结衣 | 亚洲精品私拍国产福利在线 | 国产精品欧美亚洲韩国日本 | 天堂成人影院 | 美女扒下内裤让男人桶的图片 | 久久视频这有精品63在线国产 | 香蕉视频在线观看网址 | 国产91青青成人a在线 | 国产男女爱视频在线观看 | 美女被爆 | 黑白配高清hd在线视频 | 成人小视频在线观看 | 精品视频免费 | 亚洲精品91香蕉综合区 | 妹妹骑上来蹭着蹭着就射了 |