「思った通りの画像が生成できない」
「画像生成AIはプロンプトが難しい」
「画像生成のコツを知りたい」
そんなお悩みにお答えしていきます。
2023年10月にChatGPTにDALL・E3(ダリ・スリー)が搭載され、ChatGPTで画像生成ができるようになりました。
2024年5月に無料のChatGPT-4oが開始し、無料でもGPT-4が使えるようになりましたが、画像生成は変わらず有料版のみとなっています。
ChatGPTで画像生成ができると聞いて始めてみたけど、うまくいかないと悩んでいませんか?
私もこれまでたくさん画像生成してきましたが、思った通りの画像が生成できなくてイライラした経験があります。
そんな私でも、ChatGPTのDALL・E3の画像生成のコツを知って、思った通りの画像生成ができるようになりました。
そこで、この記事では私の経験を踏まえて以下について解説します。
【New!】2024年5月から始まった「画像の一部を修正できる機能」の手順の解説を追加しました!
- 【基礎編】ChatGPT(DALL・E3)画像生成の概要をサクッと解説
- 【運用編】うまくいかないChatGPT(DALL・E3)の画像生成を思い通りにするコツ7選
- 【知識編】現時点のChatGPT(DALL・E3)の画像生成でうまくいかないこと4選
- 【応用編】ChatGPT(DALL・E3)の画像の一部を修正できる機能を解説
この記事を読めば、あなたもChatGPTのDALL・E3で思った通りの画像生成ができるようになるでしょう。
ぜひ最後までお読みください。
【基礎編】ChatGPT(DALL・E3)の画像生成の概要をサクッと解説
ここではChatGPT(DALL・E3)の画像生成の概要について、サクッと解説します。
- 日本語で生成したい画像の説明をするだけで画像生成してくれる
- ChatGPTでDALL・E3が使えるのは有料のChatGPTのみ
- ChatGPTとDALL・E3の統合で作業効率がアップ
- CharGPTのDALL・E3でできること
それぞれ一つずつ見ていきましょう。
1.日本語で生成したい画像の説明をするだけで画像生成してくれる
今までの画像生成AIは英語でしか指示を受け付けてくれませんでしたが、DALL・E3は日本語でも可能になりました。
代表的な画像生成AIの「Midjourney」や「Stable Diffusion」は、プロンプトが難しく初心者には難しいですが、DALL・E3はとても簡単です。
例えば「カフェでパソコンを使っているの女性の画像」と日本語で指示するだけで、それっぽい画像を生成してくれます。
特にChatGPT PlusのDALL-Eは、ChatGPTと相談しながら画像を生成していけるので、なおさら簡単に使えます。
2.ChatGPTでDALL・E3が使えるのは有料のChatGPTのみ
ChatGPTでDALL・E3が使えるのは、以下2つのどちらかのプランを契約している場合のみです。
- ChatGPT Plus(有料版、個人向け):月額20$
- ChatGPT Enterprise(有料版、法人向け):料金は要問合せ
無料のChatGPT3.5や、2024年5月に始まったChatGPT-4oではDALL・E3は使用できません。
ちなみにMicrosoft Bingの「Image Creator」では無料でDALL・E3が使用できますが、Microsoftアカウントが必要、使用回数や画像サイズの制限や、商用利用は不可などの注意点があります。
有料版と無料版の一番大きな違いは、生成した画像の商用利用ができるかどうかです。
3.ChatGPTとDALL・E3の統合で作業効率がアップ
ChatGPTとDALL・E3が統合したことで、生成した画像に対して修正指示や、ChatGPTのデータ入力機能が利用できるようになり、使いやすく作業効率がアップしました。
例えば、ChatGPTに画像をアップロードして「この画像について説明して」と画像解析してもらい、出力された説明を使用して「この画像を生成して」などといった使い方もできます。
さらに2024年5月現在、生成した画像の一部を修正する機能が追加されました。
今まで以上に使いやすくなりましたね!
これらのChatGPTと連動した使い方は、一度使うとやめられないほどです。
4.CharGPTのDALL・E3でできること
2024年5月現在、CharGPT PlusのDALL・E3でできることは以下の通りです。
- 1回の指示で1枚の画像が生成される
- 3種類の画像サイズが生成できる
- 画像生成数には制限がないが、ChatGPT Plusの「3時間で40回まで」の制限は適用される
- CharGPTに生成画像のメタ情報「シード値」や「画像ID」を教えてもらえる
- ChatGPTが画像生成時に使用した英語のプロンプトが確認できる
- 画像の一部を選択して修正したり、画像を拡張できる
画像のメタ情報「シード値」や「画像ID」とは、ChatGPTが画像生成したときに画像毎に付加している情報です。
「シード値や画像IDを利用して同じ画像を再生成する」といった高度な使い方も、ChatGPTのDALL・E3なら簡単にできます。
これらはアップデートで変わる可能性があるので、最新情報をチェックしていきましょう。
※2024年5月に「画像の一部を選択して修正したり、画像を拡張できる機能」が追加されました。
【運用編】うまくいかないChatGPT(DALL・E3)の画像生成を思い通りにするコツ7選
ChatGPT PlusのDALL・E3で思った通りの画像生成を行うコツは以下の通りです。
- 描写を細かく指示する
- 英語のプロンプトの内容を確認する
- スタイルを指定する
- 特定の色彩や雰囲気を指定する
- 画像サイズを指定する
- 生成された画像をさらに調整する
- いくつも生成して良い出来の画像を選ぶ
それぞれ詳しく見ていきましょう。
1.描写を細かく指示する
思い通りの画像を得るには、人物の年齢や様子を細かく指示する必要があります。
ChatGPTは簡単に言うと「学習した大量のデータから一番可能性のある回答を返す」仕組みなので、ざっくりした指示では一番可能性として高い画像を生成してしまうのです。
例えば「犬を描いて」と指示すると「草原で遊ぶ元気な犬」や「ソファに座る小さくてかわいい犬」の画像を生成し、犬種はばらばらでした。
そこで以下のように指示すると思った通りの画像が生成されました。
- 公園で元気に遊ぶ柴犬の子犬
- 晴れた日のお昼
- 明るい陽射し
- 赤い皮の首輪をして赤いリードが繋がれている
- 5歳の男の子が楽しそうにリードを持っている
- 水彩画風の画像
できるだけ自分が描きたい画像のイメージをふくらませて、細かく指示してみましょう。
文章でなく、単語を並べるだけでも大丈夫です。
2.英語のプロンプトの内容を確認する
間違った画像が生成されてしまう場合は、実際にChatGPTが画像生成に使用した英語のプロンプトを確認しましょう。
実は、ChatGPTは日本語で指示された文章を元に自分なりにイメージを膨らませ、詳細な描写を追加した英語のプロンプトを作成して画像を生成しています。
英語のプロンプトを確認すると、うまくいかない理由が分かることがあります。
手順は以下の通り。
- 生成画像をクリックし、大きく表示される画面の右側の マークをクリックします
- 英語のプロンプトが表示されるので、「コピーボタン」をクリックしてコピーします
- 画像の左上の をクリックしてChatGPTに戻ります
- コピーした英語のプロンプトをChatGPTの入力欄にペーストし「訳して」と指示します
さらにコツとして、最初から英語で指示してみるのもひとつの手です。
なぜならChatGPTは英語のプロンプトの方がより忠実に画像を生成してくれる傾向があるからです。
3.スタイルを指定する
テキストでは同じ場面を示していても、スタイルが異なればまったく違う画像ができあがります。
ベートーベンの似顔絵でも、油絵とアニメ風では、まったく違ったイメージが浮かぶのではないでしょうか。
命令文に使えるスタイルを以下にまとめました。
- 写真リアリズム:実写の写真のようなリアリスティックなスタイル
- 水彩画風:透明感と色の広がりを持つ、柔らかく繊細なスタイル
- 油絵風:厚みのある塗りと質感を模した、重厚で表現力豊かなスタイル
- ペン画:インクやペンによる線画やスケッチのようなシンプルで力強いスタイル
- パステル画:パステルの柔らかな質感と明るい色彩を用いた優しいスタイル
- デジタルアート:現代的なデジタル技術による多様で革新的なスタイル
- 漫画・アニメーション風:漫画やアニメに見られる独特の表現とスタイル
- 抽象画:具象的な形を持たない、解釈に開かれた抽象的なアートスタイル
- ポップアート:鮮やかな色彩と大胆なデザインを特徴とするスタイル
- フラットデザイン:単純化された形状、平坦な色使い、クリアなラインのミニマリストスタイル
- ベクターデザイン:線や形状が数学的な式で表され、スケーラブルでクリアなラインの特徴を持つスタイル
最近はブログやプレゼン資料で、おしゃれな「フラットデザイン」の挿絵を見かけることも多いです。
いろいろ試してみてください。
4.特定の色彩や雰囲気を指定する
特定の色彩や雰囲気を指定するのもコツの一つです。
同じ指示でも色彩や雰囲気が違うと全く違った画像になるためです。
- 暖色系:赤、オレンジ、黄色
- 寒色系:青、緑、紫
- パステルカラー:淡いピンク、ライトブルー、ミントグリーン
- モノクローム:黒、白、グレー
- アースカラー:茶色、ベージュ、オリーブグリーン
- 穏やかで落ち着いた
- 活気に満ちた
- ロマンティック
- 神秘的
- レトロ
スタイルと色彩と雰囲気の組み合わせで、画像のパターンは無限に広がりますね。
自分のイメージに最も違い色彩や雰囲気を指示してみましょう。
5.画像サイズを指定する
画像の目的や内容に応じて、画像サイズを指定してください。
現在、ChatGPT PlusのDALL・E3で使用できる画像サイズは以下の3つです。
- 正方形:1024×1024ピクセル、アスペクト比:1:1
- 横長:1792×1024ピクセル、アスペクト比:約1.75:1
- 縦長:1024×1792ピクセル、アスペクト比:約1:1.75
例えば、風景や広いシーンを描く場合は横長サイズ、キャラクターの体全体を描くには縦長サイズが適しています。
お好みの画像サイズで画像生成したり、横長の画像を縦長に変更したり、ChatGPTに指示してみてください。
6.生成された画像をさらに調整する
生成された画像をいろいろ調整してみましょう。
ChatGPTにすこし修正指示をするだけで画像はどんどん変わります。
- ホログラムのように光り輝く画像にしてください
- 透明感がある繊細な美しい画像にしてください
- 下からのアングルにしてください
- 口を閉じて微笑んでいる表情にしてください
- 解像度を上げてください
- 細かい装飾を施してください
ChatGPTはこれまでの会話の内容を覚えているので、変えてほしい箇所を指示するだけで、先ほど生成した画像を修正してくれます。
7.いくつも生成して良い出来の画像を選ぶ
1回生成しただけでは、なかなか思い通りの画像は生成できません。
微調整したり再生成したり、たくさん画像を生成して、その中から自分のイメージにあった画像を選びましょう。
何度も画像生成しているうちに、自分の好みの画像を生成する指示のコツがわかってきますよ。
「どんなふうに伝えたらどんな画像ができるのか」を試しながら、楽しんで画像生成してみてください。
【知識編】現時点のChatGPT(DALL・E3)の画像生成でうまくいかないこと4選
どうしても画像生成がうまくいかないこともあります。
ここでは、ChatGPTとDALL・E3ではうまくいかないことを4つ紹介します。
- 手や指を正確に描けない
- 文字を正確に描けない
- 複数のモノや人を正確に描けない
- コンテンツポリシー制限が厳しい
今がんばってやらせようとしていることは、DALL・E3の苦手なことかもしれません。
あてはまる点がないか確認していきましょう。
1.手や指を正確に描けない
画像生成AIは、指が6本になる、親指がない、指が異常に長い、ねじれているなど、いろいろな失敗をします。
これは画像生成AIのアルゴリズムには複雑な形状や細かいディテールを完全に再現する能力に限界があるからです。
特に人間の手や指のような詳細な部分の描写が難しいでしょう。
DALL・E3はまだ上手な方ですが、Stable Diffusionなどは「手や指の失敗した描写」をネガティブプロンプトとして指示して回避するような技が使われています。
2.文字を正確に描けない
DALL・E3は、英語の文字であればデザイナー並みの感性で画像内に配置してくれますが、それでも高い頻度でスペルミスをします。
理由の1つとして、画像生成AIは視覚的要素に重点を置いているため、テキストの内容や綴りの正確さには十分な注意が払われないことが挙げられます。
なるべく正しい綴りで英語の文字を描いてもらうために、例えば「画像に “Happy Birthday” というテキストを含めてください」というように具体的に指示してみてください。
一方、日本語の文字は全くダメで、変な図形になってしまいます。
日本語は今後のアップデートを待つか、他のツールを使用して生成画像に後から文字を編集する方法で対応してみましょう。
3.複数のモノや人を正確に描けない
画像生成AIは、「5個のリンゴ」「10人の女性」のように指定された数のオブジェクトを正確に描写することが苦手です。
多人数を描くと人間の数と手足の数が合わないことも多くあります。
これは画像生成AIのアルゴリズムが、特定の数を認識して正確に表現する能力に限界があるためです。
技術の進歩に伴いこれらの課題は改善されることでしょう。
4.コンテンツポリシー制限が厳しい
指示がエラーになる場合、コンテンツポリシーによる制限に引っかかている場合があります。
コンテンツポリシーは、安全で倫理的な画像生成を確保するために設けられています。
https://help.openai.com/en/collections/3643409-dall-e-content-policy
- G 指定されていない画像や危害を及ぼす可能性のある画像を作成、アップロード、共有しようとしないでください。
- 憎しみ:憎しみの象徴、否定的な固定概念、特定のグループを動物/物体に喩えること、またはアイデンティティに基づいて憎しみを表現または促進すること。
- ハラスメント:個人を嘲笑したり、脅迫したり、いじめたりすること。
- 暴力:暴力的な行為と他者の苦しみや屈辱。
- 自傷行為:自殺、切断、摂食障害、その他自分自身を傷つけようとする試み。
- 性的:ヌード、性的行為、性的サービス、または性的興奮を引き起こすことを意図したコンテンツ。
- 衝撃的:体液、わいせつな身振り、または衝撃や嫌悪感を与える可能性のあるその他の冒涜的な主題。
- 違法行為:薬物使用、盗難、破壊行為、その他の違法行為。
- 欺瞞:現在進行中の主要な地政学的出来事に関連した重大な陰謀または出来事。
- 政治的:政治家、投票箱、抗議活動、または政治プロセスに影響を与えたりキャンペーンを行うために使用される可能性のあるその他のコンテンツ。
- 公衆および個人の健康:病気の治療、予防、診断、伝染、あるいは健康障害を患っている人々。
- スパム:未承諾の大量コンテンツ。
- AI の関与について視聴者を誤解させないでください。
- あなたの作品を共有するときは、あなたの作品への AI の関与を積極的に開示することをお勧めします。
- 必要に応じて DALL・E の署名を削除することもできますが、作品の性質について他の人に誤解を与えてはなりません。たとえば、その作品が完全に人間によって生み出されたものであることや、その作品が実際の出来事をそのまま撮影したものであることを人々に伝えることはできません。
- 他人の権利を尊重します。
- 同意なしに人物の画像をアップロードしないでください。
- 適切な使用権を持たない画像をアップロードしないでください。
- 公人の画像を作成しないでください。
例えば、画像のスタイルを指定する際「ゴッホの画風で」の指示は生成してくれますが、「ピカソの画風で」と指示するとエラーになります。
なぜなら、ゴッホ(1890没)の作品はパブリックドメインに属するため生成が可能ですが、ピカソ(1973没)の作品はまだ著作権で保護されている可能性があるためエラーになるのです。
これらのコンテンツポリシーは定期的に見直され、必要に応じてアップデートされる可能性があります。
DALL・E3を使用する際には、最新のコンテンツポリシーを定期的に確認しましょう。
【応用編】ChatGPT(DALL・E3)の画像の一部を修正できる機能を解説
2024年5月から、画像の一部を選択して修正できる機能がリリースされました。
今までChatGPTに会話しながら細かく指示して修正していましたが、修正してほしい部分を選択してピンポイントに修正指示ができるように!
たとえばChatGPTに「ここをこんなふうに修正して」「そうじゃなくてこうだよ」と指示しても、修正結果が思うようにいかなくて何度も会話を繰り返す場面もあったでしょう。
新しい方法では、ChatGPTがどこを修正するかを明確に理解してくれるので、とても早く的確に修正できます。
事例:子犬を子猫に修正してみた
子犬の画像生成した後、子犬を選択して子猫に修正するように指示してみました。
とても自然なかわいい画像に修正されていますね!
画像の一部修正方法を解説
修正手順は以下の通りです。
- 画像生成する
- 画像をクリックし、画像編集画面に遷移する
- 修正箇所を選択する
- プロンプトで修正内容を指示する
実際のプロンプトを見ながら修正手順を解説します。
1.画像生成する
子犬の画像は以下のプロンプトで簡単に生成しています。
可愛い日本女性がリビングで子犬と遊んでいる画像を作成してください
かわいい子犬と触れ合う女性の画像が生成されました。
2.画像をクリックし、画像編集画面に遷移する
画像をクリックすると、画像編集画面に遷移します。
右側は継続してChatGPTと会話できるエリアです。
3.修正箇所を選択する
画面の上の「鉛筆マーク」をクリックすると選択モードになります。
マウスの左ボタンをクリックしながら修正したい箇所をなぞってください。
選択した箇所が青く表示された状態になります。
4.プロンプトで修正内容を指示する
ChatGPTに選択した箇所をどのように修正するかをプロンプトで指示します。
子犬を子猫に修正してください
子犬が子猫になり、子猫が自然に溶け込んだ画像が生成されました。
子犬の画像は女性と触れ合っていましたが、残念ながら子猫とはすこし他人行儀な様子になってしまいましたね。
修正を繰り返すことで思ったような画像にできるでしょう。
このように、画像の一部修正ができるようになり、ますますChatGPTとDALL・E3を組み合わせた画像生成は使いやすくなりました。
使い方次第でアウトプットされるコンテンツのクオリティが大きく異なりますので、いろいろ工夫してみましょう。
ぜひこの記事を参考に、ChatGPTのDALL・E3で思い通りの画像生成してみてください!