CogView4:テキストから画像を生成するオープンソースAIモデル
AIが作る画像の世界を変える
AIで作る画像の世界で、大きなニュースです。中国のAI企業、Zhipu AIが、テキストから画像を生成するモデルの最新版、CogView4を公開しました。しかも、オープンソースです。CogView4は、60億のパラメーターを持ち、日本語と英語に対応し、業界の基準で最高の性能を発揮します。AIによる画像生成が大きく進歩しました。
特に重要なのは、中国のテキストから画像を生成するモデルとして初めて、Apache 2.0ライセンスで公開されたことです。これにより、世界中の開発者が、OpenAIのDALL-E 3やMidJourneyのような有料モデルを使わなくても、最先端のツールを自由に使えるようになりました。
CogView4は何が違う?
1. 高度な意味理解と指示への対応
CogView4は、高度な意味理解と指示への対応能力を持っています。複雑なテキストの指示を正確に理解し、その内容に沿った画像を生成できます。以前のモデルでは難しかった、微妙なニュアンスの指示にも対応できるため、広告、デザイン、デジタルコンテンツ制作などの分野で活躍するプロフェッショナルにとって、強力なツールとなります。
2. 日本語と英語に標準対応
CogView4の最大の特徴の一つは、日本語と英語に標準で対応していることです。多くのオープンソースモデルが英語を主な対象としているのに対し、CogView4は日本語と英語の両方の指示を理解できます。これは、複数の言語を使う市場でビジネスを行う企業やクリエイターにとって、非常に大きなメリットとなります。
3. 高解像度と長い指示文に対応
CogView4は、最大2048x2048ピクセルの画像解像度に対応しており、オープンソースモデルの中でも最高品質の出力を誇ります。さらに、指示文の長さ制限が1024トークンに拡張されたため(以前のバージョンは224トークン)、ユーザーはより複雑で詳細な説明を入力して画像を生成できます。
4. オープンな環境とApache 2.0ライセンス
DALL-E 3がクローズドソースであるのに対し、CogView4はApache 2.0オープンソースライセンスで提供されています。これは、開発者がモデルを自由に修正、統合、配布できることを意味し、AI研究や商用アプリケーションでの幅広い利用を促進します。
開発ロードマップには、ControlNet、ComfyUIとの統合、追加のファインチューニングツールキットも含まれており、開発者向けのカスタマイズオプションがさらに拡張される予定です。
性能評価:オープンソースの中でトップ
1. DPG-Benchでトップ
CogView4-6Bは、意味の理解と指示への対応をテストするために設計されたベンチマークであるDPG-Benchで1位を獲得しました。Stable Diffusion XLやPixArt-alphaなどの主要なモデルを上回り、複雑なテキストの指示に忠実な画像を生成します。
2. さまざまな指標で高い性能
DPG-Bench以外にも、CogView4はGenEval、T2I-CompBench、中国語テキスト精度評価でも高い性能を発揮し、以下の点で優れていることを示しています。
- 物体の数と空間的な配置
- 色の属性と配置
- 複数の物体間の相互作用
- 漢字の描画
モデル | DPG-Benchスコア | GenEvalスコア | T2I-CompBenchスコア |
---|---|---|---|
CogView4-6B | 85.13 | 0.73 | 0.78 |
SD3-Medium | 84.08 | 0.74 | 0.81 |
DALL-E 3 | 83.50 | 0.67 | 0.77 |
Janus-Pro-7B | 84.19 | 0.80 | 0.51 |
投資家向けの課題と考慮事項
1. 高い計算コストと限られたアクセス
CogView4を効率的に実行するには、高性能なハードウェアが必要です。A100またはRTX 4090(VRAM 40GB以上)、またはCPUオフロードで少なくとも32GBのRAMが必要となるため、現時点では、一般消費者向けではなく、企業や研究機関での利用に適しています。
🧐 投資家の視点: 軽量化の最適化が行われない限り、CogView4が8GB VRAM程度のGPUでも実行可能なStable Diffusionのような一般消費者向けのAIアートツールを大きく変える可能性は低いでしょう。収益化の鍵は、企業での利用となるでしょう。
2. オープンなファインチューニングツールの不足
CogView4はオープンソースですが、DreamBoothやLoRAアダプターのような広く使われているファインチューニング方法をまだサポートしていません。そのため、高度に専門的なAI生成ビジュアルを必要とする業界(例:ブランドコンテンツ、パーソナライズされたアバター)でのカスタマイズは限られています。
🧐 投資家の視点: Zhipu AIがファインチューニングツールを導入すれば、スタートアップやクリエイティブエージェンシーでの導入が大幅に増加する可能性があります。それまでは、強力なカスタマイズ機能を備えた有料モデルが競争力を維持するでしょう。
3. クローズドソースの巨人に対する競争力
CogView4の最大の強みは、オープンソースであることです。DALL-E 3がクローズドソースのままであり、MidJourneyがサブスクリプションモデルで運営されている中、CogView4は、無料で高品質な代替手段を探している世界中の開発者を引き付ける可能性があります。
🧐 投資家の視点: オープンソースの利点は、特に中国や新興市場において、世界のAI研究と導入を促進する可能性があります。これらの地域では、有料のAIツールは規制やコストの障壁に直面する可能性があります。
AIオープンソースイノベーションにおける強力な一手
CogView4は、最先端の機能とオープンソースライセンスの自由さを兼ね備えており、テキストから画像を生成するAIにおいて大きな前進を意味します。アクセスの課題により、短期的な普及は限られるかもしれませんが、日本語と英語のサポート、高解像度、業界をリードする性能は、注目すべきモデルです。
投資家にとって、重要な点は以下のとおりです。
- Zhipu AIはファインチューニング機能を導入するか?
- より広い市場に到達するために、計算コストを削減できるか?
- 有料のAI競合他社はどのように対応するか?
AIが生成する画像の世界が進化するにつれて、CogView4は技術的なブレークスルーであると同時に、クローズドソースモデルの現状に対する挑戦でもあります。その成功は、企業と個人のアクセシビリティのギャップをどれだけうまく埋められるかにかかっています。