阿里視頻生成大模型萬相2.1開源!效果超Sora,消費級顯卡就能跑快訊
全球開發者可在Github、HuggingFace、魔搭社區下載體驗,阿里云視頻生成大模型萬相2.1(Wan)正式開源,阿里展示了諸多萬相大模型生成的視頻。

【TechWeb】2月27日消息,大模型開源的風吹到了視頻生成大模型。阿里云日前放出重磅消息:萬相,開源!
阿里云視頻生成大模型萬相2.1(Wan)正式開源,此次開源采用Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace、魔搭社區下載體驗。
從2023年開始,阿里云就堅定大模型開源路線,其千問(Qwen)衍生模型數量已超過10萬個。隨著萬相的開源,阿里云實現了全模態、全尺寸的開源。
四個開源模型

此次開源共有四個模型,文生和圖生各兩個,兩個參數版本。兩個文生視頻模型分別是1.3B和14B兩個規格;兩個圖生視頻模型都是14B,分辨率一個480P一個720P。
14B版本萬相模型:在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現突出,在權威評測集Vbench中,萬相2.1以總分86.22%大幅超越Sora、Luma、Pika等國內外模型,穩居榜首位置。
1.3B版本萬相模型:不僅超過了更大尺寸的開源模型,甚至還和一些閉源的模型結果接近,同時能在消費級顯卡運行,僅需8.2GB顯存就可以生成480P視頻,適用于二次模型開發和學術研究。
有用戶表示,1.3B的萬象模型在RTX4090上跑一條5秒鐘的480P視頻的時間大概只要4分鐘。
阿里云特別強調,萬相2.1(Wan)大模型是首個具備支持中文文字生成能力,且同時支持中英文文字特效生成的視頻生成模型。
實驗結果顯示,在運動質量、視覺質量、風格和多目標等 14 個主要維度和 26 個子維度測試中,萬相表現出色,并且斬獲 5 項第一。尤其在復雜運動和物理規律遵循上的表現上大幅提升,萬相能穩定呈現人物的旋轉、跳躍等高難度動作,并逼真模擬物體碰撞、反彈和切割等真實物理效果。
良好表現的背后,是基于主流的DiT和線性噪聲軌跡Flow Matching范式,萬相大模型通過一系列技術創新實現了生成能力的重大進步。包括自研高效的因果3D VAE、可擴展的預訓練策略、大規模數據鏈路構建以及自動化評估指標,這些創新共同提升了模型的最終性能表現。
阿里展示了諸多萬相大模型生成的視頻,大家看看效果:

開源地址:
Github: https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區:https://modelscope.cn/organization/Wan-AI
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。