Wan:アリババによるAI動画生成のオープンソースの強力なツール
2024年初頭、OpenAIのSoraは、かつてはハリウッドだけのものであったリアルな動画を生成し、AIの世界を驚かせました。Soraのようなモデルは素晴らしいものですが、その裏側は公開されていません。そのため、オープンソースのコミュニティは追いつくのに苦労しています。しかし、状況は変わろうとしています。
Wanは、アリババグループが開発した、画期的なオープンソースの動画生成モデルです。商用レベルの動画生成ツールとオープンソースの世界とのギャップを埋めるように設計されたWanは、単なる技術的な成果ではなく、意思表示でもあります。競争力のある性能、幅広い応用範囲、そして(一般的なGPUでも)驚くほど効率的なWanは、オープンな生成モデルで何が可能かを再定義します。
ボトルネックの解消:Wanが作られる必要があった理由
動画生成は急速に進化していますが、依然としていくつかの大きな課題が、その普及と技術革新を妨げています。ほとんどのオープンソースモデルは、基本的なテキストからの動画生成といった限定的なタスクにとどまっており、高画質の動き、多言語対応、効率的な展開といった点で苦戦しています。一方、商用モデルは、莫大な資金とデータに支えられ、大きく飛躍しています。
Wanは、この不均衡を解決するために開発されました。Wanは、オープンで拡張性があり、そして何よりもダイナミックで、リアルで、繊細な動画を生成できるように設計されています。雪が舞い、中国語と英語の両方で看板が読め、カメラの動きが物理空間で意味をなす、といった動画を想像してください。これらすべてが、再現性、モジュール性、そして拡張性を考慮して設計されたモデルによって支えられています。
中核となるエンジニアリング:Wanの次世代アーキテクチャの内側
Wanの中核には、空間的・時間的なVAE、拡散トランスフォーマー、多言語テキストエンコーダーという3つの主要なコンポーネントで構成された、高度に最適化されたアーキテクチャがあります。各部分は、性能だけでなく、実際のタスクでの使いやすさも考慮して設計されています。
Wan-VAEは、時間と空間の両方で動画を圧縮する役割を担っています。これは3Dの因果的変分自己符号化器であり、動画データ量を250倍以上に削減しながら、細かな動きのディテールを維持します。因果的な畳み込みと巧妙な特徴キャッシュ機構を使用することで、効率的な長尺動画処理を実現しています。これは、ほとんどの動画モデルにとって悩みの種でした。
これを補完するのが拡散トランスフォーマーです。これは、圧縮された潜在的な特徴を処理するために設計された、完全なトランスフォーマーモデルです。完全な空間的・時間的な注意機構を使用し、動画コンテンツのシーケンスとレイアウトの両方を考慮します。ここで注目すべきは、より安定した数学的に根拠のあるODEモデリングを優先し、反復的なノイズ予測を回避する、新しいトレーニング方法であるFlow Matchingを使用していることです。
ユーザーのプロンプトを解釈し、生成をガイドするために、Wanは多言語テキストエンコーダーであるumT5を使用します。これは、英語と中国語の両方で複雑で説明的な指示を処理することができ、モデルが単に動画を生成するだけでなく、指示に従うことを保証します。
データのバックボーン:Wanが数兆のトークンでトレーニングされた方法
モデルの性能は、トレーニングに使用されたデータによって決まります。Wanのデータパイプラインは、最新のデータセットエンジニアリングの見本です。数十億もの画像と動画が厳選され、クレンジングされ、強化されて、このモデルのトレーニングに使用されました。
そのプロセスは、大規模なフィルタリングから始まりました。ウォーターマーク付きのコンテンツ、不適切なコンテンツ、ぼやけすぎた映像、低解像度のクリップなどを削除しました。しかし、Wanはさらに踏み込みました。滑らかで表現力豊かな動きと、バランスの取れた動きと静止の比率を持つ動画を優先するために、動きの質を評価する分類器を導入しました。一方、視覚的なテキストパイプラインは、合成されたテキストと現実世界のテキストの画像サンプルを処理し、Wanが画面上のテキストを読みやすく正確にレンダリングする能力を高めました。
モデルが各フレームで何が起こっているかをより深く理解できるように、アリババは独自の緻密なキャプションシステムを構築しました。このシステムは、GoogleのGemini 1.5 Proにも匹敵するようにトレーニングされており、カメラアングル、オブジェクト数、モーションの種類、シーンのカテゴリなどの要素にラベルを付け、編集やパーソナライズなどの下流タスクのための、豊富な注釈付きのトレーニングセットを作成します。
大きなモデル、小さなフットプリント:Wan 1.3Bと14Bを紹介
Wanには、13億のパラメータを持つモデルと、より強力な140億のパラメータを持つフラッグシップモデルの2つのバージョンがあります。どちらも最大480pの高解像度動画を生成することができ、同じ堅牢なアーキテクチャを共有しています。
本当の驚きは、13億のパラメータを持つモデルが、わずか8.19 GBのVRAMを搭載した一般的なGPUで動作するように設計されていることです。これは画期的なことです。アーティスト、開発者、小規模スタジオは、A100を大量に用意しなくても、高品質の動画生成にアクセスできるようになったのです。
一方、140億のパラメータを持つモデルは、限界を押し広げるように設計されています。数兆のトークンでトレーニングされており、長尺動画の一貫性、リアルな動き、複雑なテキストプロンプトへの追従に優れています。自然なシーンを生成する場合でも、様式化されたアニメーションを生成する場合でも、140億のパラメータを持つモデルは、オープンソースが最前線で競争力を持つことができることを証明しています。
直接対決:Wanは競合他社に対してどのように機能するか
ベンチマーク評価と、人間による好みテストの両方において、Wanは一貫してトップの成績を収めています。MochiやHunyuanVideoなどのオープンソースモデルに勝つだけでなく、Runway Gen-3などの商用大手とも互角に競い合っています。
これは単に品質の問題ではありません。Wanは、細かなカメラの動き、視覚的なテキストレンダリング、プロンプトへの追従、そしてスタイルの多様性を可能にします。これらはすべて、以前のモデルが苦戦したり、手動での調整が必要だった領域です。
さらに、アブレーションスタディにおいて、Wanチームは、そのフローマッチング損失関数と緻密なキャプション戦略が、そのような強力なアライメントとコヒーレンスを実現する上で極めて重要であることを示しました。これにより、Wanは単に優れているだけでなく、原則に基づいたモデルとなりました。すべての設計上の選択が検証され、最適化されているのです。
Vbenchでのモデル性能スコア。
モデル名 | 品質スコア | セマンティックスコア | トータルスコア |
---|---|---|---|
MiniMax-Video-01 (MiniMax, 2024.09) | 84.85% | 77.65% | 83.41% |
Hunyuan (オープンソース版) (Kong et al., 2024) | 85.09% | 75.82% | 83.24% |
Gen-3 (2024-07) (Runway, 2024.06) | 84.11% | 75.17% | 82.32% |
CogVideoX1.5-5B (5s SATプロンプト最適化) (Yang et al., 2025b) | 82.78% | 79.76% | 82.17% |
Kling (2024-07 高性能モード) (Kuaishou, 2024.06) | 83.39% | 75.68% | 81.85% |
Sora (OpenAI, 2024) | 85.51% | 79.35% | 84.28% |
Wan 1.3B | 84.92% | 80.10% | 83.96% |
Wan 14B (2025-02-24) | 86.67% | 84.44% | 86.22% |
スピード、スケール、効率性:実際に使えるモデル
Wanがさらに優れているのは、トレーニングと推論の効率性です。トレーニング中、アリババは高度な2Dコンテキスト並列処理スキーム(Ulysses + Ring Attention)を使用し、GPU間の通信オーバーヘッドを削減しています。推論中には、サンプリングステップ間の類似性を利用して処理を高速化する拡散キャッシュを導入しました。
FP8量子化とアクティベーションオフローディングを組み合わせることで、Wanはリアルタイムまたはほぼリアルタイムの生成速度を実現します。その結果、従来のモデルと比較して1.62倍の高速化を実現し、動画の品質はほとんど損なわれません。
単なるテキストからの動画生成にとどまらない:今すぐ使える実際のアプリケーション
Wanは1つのタスクに限定されず、プラットフォームとして機能します。Wanは、以下を含むマルチモーダル動画タスクの全範囲をサポートしています。
- 画像からの動画生成:1枚の画像をダイナミックなシーンに変換します。
- 指示に基づいた動画編集:自然言語コマンドを使用してクリップを修正します。
- パーソナライズされた生成:アバターまたはブランドコンテンツのゼロショットカスタマイズ。
- カメラ制御:テキストを使用して、ズーム、パン、または視点を調整します。
- リアルタイム動画生成:スマートキャッシュと軽量モデルのおかげです。
- 音声生成:生成された映像に同期したサウンドを追加します。
あなたが映画製作者、教育者、広告主、またはゲーム開発者であっても、Wanはあなたのニーズに適応できます。
全体像:Wanが研究と産業にもたらす意味
学術的な観点から見ると、Wanは宝の山です。オープンなコード、オープンな重み、そして透明性の高いトレーニング方法論により、動画生成コミュニティにおける再現性のための新しい基準を確立します。研究者は、そのモジュールを基に構築し、評価を実行し、新しいドメインに合わせてシステムを微調整することができます。
ビジネス面では、Wanは費用対効果の高い高品質なコンテンツ生成への扉を開きます。マーケティング動画、教育的な解説動画、ソーシャルメディアのクリップなどは、ブラックボックスAPIにフレームごとの料金を支払うことなく、大規模に作成できるようになりました。これにより、クリエイター、スタートアップ、そして企業に、深刻な競争優位性がもたらされます。
今後の展望:Wanの今後の展開
Wanはすでに利用可能な動画生成モデルの中でも最も有能なものの1つですが、そのロードマップは始まったばかりです。チームは、1080pおよび4K生成を推進し、3D認識を統合し、グローバルなアクセシビリティを高めるために多言語サポートを拡大する予定です。
また、モデルがリアルタイムでユーザーからのフィードバックに基づいて動画を生成するインタラクティブなストーリーテリングや、ヘルスケア、教育、ゲームなどの分野向けのプラグアンドプレイアダプターにも取り組んでいます。
試せる場所
すべてが今すぐ利用可能です。
あなたが研究者、アーティスト、スタートアップ、または単に好奇心旺盛な人であっても、Wanはオープンで準備ができています。
要約
Wanは、現在までに最も強力なオープンソースの動画生成ツールです。 最先端のアーキテクチャ、厳格なトレーニング、そして幅広いアクセシビリティを備えたWanは、閉鎖的なモデルと競争するだけでなく、オープンAIが達成できることの新しいベンチマークを打ち立てます。