ByteDance(バイトダンス)、画期的なOmniHuman-1 AIフレームワークを人間アニメーション向けに発表

著者
CTOL Editors - Ken
12 分読み

ByteDance、超リアルな人間アニメーションを実現する画期的なAIフレームワーク「OmniHuman-1」を発表

ByteDanceの研究チームが、画期的な論文「OmniHuman-1:ワンステージ条件付き人間アニメーションモデルのスケーリングアップ再考」を発表し、AIおよびアニメーション業界を賑わせています。2月3日に公開されたこの論文では、OmniHumanフレームワークを紹介しています。これは、トレーニング中に多様なモーション関連の条件をブレンドすることにより、人間のビデオ生成に革命をもたらす可能性を秘めた、マルチモーダルな拡散Transformerベースのアプローチです。製品やダウンロードはまだ利用できませんが(「現在、サービスやダウンロードはどこでも提供していません。」)、この画期的な研究は、驚くほど、ほぼ写真のようにリアルなアニメーション結果により、すでに広範な注目を集めています。


2月3日、ByteDanceの研究チームは、AI駆動の人間アニメーションにおける最新のイノベーションであるOmniHuman-1を発表しました。この最先端のフレームワークは、テキスト、オーディオ、ポーズ、および視覚的な参照信号の組み合わせを使用して、非常にリアルな人間のビデオを生成するために、拡散Transformerアーキテクチャを活用しています。研究論文"OmniHuman-1:ワンステージ条件付き人間アニメーションモデルのスケーリングアップ再考,"では、チームが、高品質のトレーニングデータの不足や、以前のエンドツーエンドモデルの制限など、ビデオ合成における従来の課題を、新しいマルチモーダルトレーニング戦略を導入することにより、どのように克服したかを詳細に説明しています。

フレームワークの主な要素は次のとおりです。

  • マルチモーダル条件付け: OmniHumanは、テキストからビデオへのタスクには事前トレーニング済みのSeaweedモデル、オーディオ機能の抽出にはwav2vec、モーションガイダンスには特殊なポーズエンコーダー、参照画像のエンコードにはVAEを使用して、さまざまな駆動信号を統合します。
  • 革新的なトレーニング戦略: フレームワークは、データの品質と条件の強度をバランスさせる3段階のトレーニングプロセスを採用し、混合品質のデータセット(18.7K時間の人間関連データ、そのうち13%が高品質のオーディオおよびポーズデータで構成されています)を使用する場合でも、安定性とリアリズムを保証します。
  • 堅牢な推論テクニック: 推論中、OmniHumanはアクティブな条件を動的に調整し(たとえば、オーディオとテキストを有効にし、必要に応じてポーズを選択的に無効にします)、パフォーマンスと計算効率を最適化するために、classifier-free guidanceを適用します。

この研究では、モデルが実際の人間映像とほとんど区別できないアニメーションを生成する30秒のビデオクリップなど、画期的なデモンストレーションが強調されています。デモでは、Jensen Huangがディスコを歌ったり、有名なコメディアンによるボイスオーバーなど、注目すべき例が紹介されており、映画制作やデジタルコンテンツ作成などの業界へのフレームワークの潜在的な影響をさらに強調しています。


主なポイント

  • 革新的なマルチモーダルフレームワーク: OmniHuman-1は、テキスト、オーディオ、ポーズ、および視覚的な参照信号をシームレスに統合して、本物そっくりの人間アニメーションを生成する拡散Transformerアーキテクチャ上に構築されています。
  • 革新的なトレーニング技術: 3段階のトレーニング戦略を採用し、不完全ながらも有益なサンプルを含む混合データを利用することにより、フレームワークは、データ不足とモデルの制限における長年の課題を克服します。
  • 高品質で用途の広い出力: デモンストレーションにより、OmniHumanは、印象的な時間的一貫性とID保持を備えたビデオを生成できることが明らかになり、CelebV-HQテストセットで3.875の画像品質スコアを達成し、現在の特殊モデルを上回っています。
  • 業界を破壊する可能性: 任意の長さのビデオ生成や、非人間アニメーションとの堅牢な互換性などの機能を備えたOmniHuman-1は、ビデオ編集、映画制作などに大きな影響を与える可能性があります。
  • まだ一般公開されていません: 結果は画期的ですが、ByteDanceはまだ一般向けのサービス、ダウンロード、またはオープンソースリリースを提供しておらず、業界の専門家は今後の商用化を心待ちにしています。

詳細な分析

OmniHumanフレームワークは、マルチモーダル条件と高度な拡散モデルの綿密な統合を通じて、AI駆動の人間アニメーションにおける大きな飛躍を表しています。その技術革新を詳しく見てみましょう。

マルチモーダル条件付けとアーキテクチャ

  • 拡散Transformerバックボーン: OmniHumanはDiT(Diffusion Transformer)アーキテクチャに基づいて構築されており、モデルはさまざまな入力モダリティを効果的に処理およびマージできます。
  • 多様な駆動条件:
  • オーディオ: wav2vecモデルを利用して、詳細な音響機能を抽出します。これらの機能は、MLPを介してMMDiTモジュールの隠れ層と位置合わせされ、クロスアテンションメカニズムを使用して隣接するオーディオトークンと結合されます。
  • ポーズ: ポーズガイダーを使用して、ポーズヒートマップシーケンスをリッチポーズトークンに変換します。これらのトークンは、ノイズ潜在表現と積み重ねられると、モデルは正確な視覚的アライメントと動的モデリングを実行できます。
  • テキストと外観: MMDiTテキストブランチからのテキスト条件を維持しながら、VAEを使用して参照画像をエンコードし、視覚的な外観のキューが自己注意メカニズムを介して効果的に統合されるようにします。

トレーニング戦略とデータの利用

  • 3段階のトレーニングプロセス:
  1. 基礎段階: モデルは最初に、事前トレーニング済みのSeaweedモデルを介して、テキストと参照画像を使用してビデオおよび画像コンテンツを生成することを学習します。
  2. 中間段階: オーディオ機能が組み込まれており、正確なリップシンクと表現力豊かなモーションを実現するには、適度に高品質のデータが必要です。
  3. 高度な段階: 最高品質のデータ(データセットの約13%)を使用して、俳優が微妙な動きを完成させるのと同じように、正確なポーズ制御を調整します。
  • 2つの主要な原則:
  • 弱い条件を活用する: より強力な条件タスクは、弱い条件タスクから利用できるより広範なデータセットの恩恵を受けることができ、堅牢性を確保します。
  • バランスの取れたトレーニング比率: 過剰適合を防ぐために、より強力な条件はより低い比率でトレーニングされ、利用可能なデータを最大限に活用します。

推論とパフォーマンス

  • 適応型推論戦略: OmniHumanは、シナリオに基づいて特定の条件(オーディオ、ポーズなど)をインテリジェントにアクティブ化または非アクティブ化し、時間的およびIDの一貫性を維持しながら、最適なパフォーマンスを保証します。
  • 評価指標: フレームワークのパフォーマンスは、FID、FVD、q-align、Sync-C、HKC、HKVなどの指標を使用して厳密に検証され、結果は従来の単一モダリティモデルよりも明らかに優れていることを示しています。

潜在的な影響

OmniHumanは、データフィルタリングとアーキテクチャの制限という二重の課題に対処することにより、次世代の人間アニメーションモデルへの道を開きます。品質を犠牲にすることなく不完全なデータを処理できることは特に注目に値し、デジタルメディア以降のクリエイティブなワークフローを変革することが期待されます。現在オープンソースではありませんが、商用化により、エンターテインメント、広告、および仮想コンテンツ作成セクター全体で莫大な価値が解き放たれる可能性があります。


知っていましたか?

  • 俳優のトレーニングのアナロジー: OmniHumanのトレーニングプロセスは、プロの俳優の段階的な育成に似ています。最初は広範なスクリプト解釈(テキストと画像)から始まり、ボーカルモジュレーションを経て、正確な身体表現で最高潮に達します。
  • 大規模なデータの利用: このモデルは、18.7K時間という驚異的な量の人間関連ビデオデータでトレーニングされており、高品質と低品質の両方のソースから学習する能力を示しています。
  • マルチモーダルの魔法: OmniHumanは、テキスト、オーディオ、ポーズ、および視覚的な参照入力を1つのモデルでブレンドできる最初のフレームワークの1つであり、AI駆動型アニメーションの新しい標準を設定しています。
  • ほぼフォトリアリズム: デモビデオでは、OmniHumanによって生成されたコンテンツは非常にリアルであるため、本物の人間の映像と区別することはほぼ不可能です。これは、事実上すべてのビデオがAIで生成される可能性がある未来を示唆しています。
  • 業界の破壊: フレームワークは、任意の長さのビデオ生成(現在は最大30秒)と、さまざまなスタイル(リアルな人間アニメーションから擬人化された漫画まで)を処理する際の柔軟性をサポートしており、映画制作とデジタル編集に革命をもたらす可能性があります。
  • 信憑性のための秘密コード: AI生成コンテンツが普及する時代において、専門家はこれらの新技術が違法な目的で使用されることを警告しています。

技術的な詳細をさらに詳しく知りたい方は、公式のOmniHuman Lab GitHub.ioページで完全な論文とプロジェクトの詳細をご覧ください。

あなたも好きかもしれません

この記事は、 ニュース投稿のルールおよびガイドラインに基づき、ユーザーによって投稿されました。カバー写真は説明目的でコンピューターにより生成されたアートであり、事実を示すものではありません。この記事が著作権を侵害していると思われる場合は、 どうぞご遠慮なく弊社まで電子メールでご報告ください。皆様のご協力とご理解に感謝申し上げます。これにより、法令を遵守し、尊重あるコミュニティを維持することが可能となります。

ニュースレターに登録する

最新のエンタープライズビジネスとテクノロジー情報をお届けします。さらに、新しいサービスや提供物をいち早く独占的にチェックできます。

当社のウェブサイトでは、特定の機能を有効にし、より関連性の高い情報を提供し、お客様のウェブサイト上の体験を最適化するために、Cookieを使用しています。詳細については、 プライバシーポリシー および 利用規約 で確認できます。必須情報は 法的通知