第1章 DALL-E 3の基本情報

1-1 画像生成AI『DALL-E』とは

そもそもDALL-E(ダリ)についてあまり知らない方も多いと思いますので、ここではDALL-Eの基本的な情報を伝えていきます。

DALL-EはOpenAIによって開発された画像生成のための人工知能(AI)システムです。
このシステムは、プロンプト(指示する文章)を受け取り、それに基づいたリアルな画像を生成することができます。

例えば、「A girl playing with a cat, anime style.」というテキストプロンプトを英語でDALL-Eに提供してみます。
すると、それに対応する少女と猫が遊んでいるアニメ風の画像を生成することができます。

DALL-Eは、テキストと画像の間の関係を理解し、テキストの記述を視覚的に表現する能力をもっています。

DALL-Eの起こりは2021年のこと。最初のバージョンである初代「DALL-E」が発表されました。
その後、2022年に「DALL-E2」という改良版も登場しました。

ただ、このDALL-E2も素晴らしかったですが、プロンプトに関してはややクセがありました。
そのため、品質の低い画像しか生成できず、なかなか苦戦する方も多くみられました。

私も初期の頃のDALL-Eを試してはみました。
しかし、AIがすごく進歩しているとはいえ、「画像生成はまだまだこんなもんだよな~」と思うくらいのクオリティだったのを覚えています。

さらに、同年には他にもAIモデルが続々登場します。
例えば「Midjourney(ミッドジャーニー)」や「Stable Diffusion(ステイブルディフュージョン)」です。

これら2大AIモデルの環境構築のしやすさやAI画像生成の精度の高さなどの点で、DALL-E2よりも評価されていたこともあり、ChatGPTで覇権を握ったOpenAIも画像生成の方はイマイチ…というのがこれまでの印象でした。

しかし、2023年9月に、そんな弱点を克服した最新バージョンである「DALL-E3」がリリースされました。

DALL-E3は、以前までのDALL-Eシリーズと比べても、画像品質、解像度、プロンプト解釈能力が飛躍的にグレードアップしています。

加えて、DALL-E3はプロンプトを自動的に最適化・高品質化してくれる特徴があります。
これにより、従来の画像生成AIで必要だったプロンプトの微細な修正に欠ける手間を大幅に省略することが可能となりました。

次で他の画像生成AIとの違いについて解説していきます