5-2 マルチモーダル機能を利用した「image to image」

日本語でも簡単に画像出力ができる!!
というのがDALL-E 3の最大の魅力であることをここまで伝えてきました。

しかしながら、本来DALL-E 3は、英語でのプロンプトに最適化されています。

そのため、細部にこだわった画像を生成したいのであれば、プロンプトを英語で作成してみましょう。
はじめは、日本語で作成したプロンプトを、DeepLGoogle翻訳のような翻訳サイトでの英訳でOKです。

また、プロンプトの最後に、
「rewrite natural English and then use this prompt」
という指示を加えてあげるのもいいですね。

ただ英訳以前に、そもそもどのように言語化したらいいものか分からない場合もあります。

例えば、本書の1章で紹介した、女性の人差し指でポイントを示した女性の画像ですね。

この女性と同じのポーズの画像を出力しようとしたとき、どのように言語化したらいいでしょうか。
なかなか悩ましいですね。


そこで、ChatGPTのマルチモーダル機能で、画像認識をしましょう。
この操作は、Midjourneyでいうところの「describe機能」にあたります。

簡単に説明すると、この女性の画像をChatGPT上にアップロードして、画像認識させた上で、この女性を描写するプロンプトを作成してもらおうというわけです。

マルチモーダル機能を利用した、具体的なプロンプト作成&画像生成は以下の5ステップになります。

マルチモーダル機能を利用した英語版プロンプト&画像作成術
  1. 添付写真から英文プロンプト作成『 image to prompt 』
  2. 1で「再生成」を繰り返し、プロンプトを"たたく"
  3. "いいトコ取りプロンプト"で、プロンプトを合成高精度化
  4. 作成したプロンプトをもとに画像生成

1と4は、必須のステップ。
2と3は、より高精度なプロンプトを作成したい人向けのステップです。

単なる指示文と、プロンプトとの違いを理解できる内容にもなっていますので、一読の価値ありですよ。

では、早速実演してみましょう。