今年は、ChatGPTを筆頭に仕事や日常生活にもAIが、当たり前のように浸透してきました。AIは未来の話ではなく、気づいたら、そこら中がAIになっています。
今回、画像生成AIであるStable Diffusionを使って、画像生成をしてみました。超初心者の私ですが、簡単に高クオリティで非常にかわいい女子高生が誕生させることができて、非常に驚いています。
今回は、Stable Diffusionの環境設定や、機能、使用法は割愛し、どんなAI画像が生成できたかをご紹介します。
プロンプト(呪文)とは
Stable Diffusionなどの、画像生成AIに対してどんな画像を欲しいかを伝える必要があります。伝える手段がプロンプト(呪文)です。
プロンプトは短文やキーワードをカンマ区切りで作成します。プログラムのようにかっちりとしたルールが決まっておらず思ったキーワードを並べても、それなりの画像を作ってくれるのはありがたいです。ただ、AIの気まぐれをコントロールしイメージしている画像に近づけるには、ある程度のテクニックや経験が必要です。
ChatGPTでも、命令や依頼の文章をプロンプトと言いますし、プロンプトの書き方でChatGPTの応答も変わってきます。ChatGPTが頭は良いですが、その頭を使いこなすためには人間がプロンプトをチューニングする必要があります(少なくとも現在は)。そして目的のアウトプットを得るためにプロンプトを使いこなすプロンプトマネージャという職業まで登場しています。
デビュー作のお披露目

デビュー作がこちらです。何も分からず、見よう見まねで簡単に、こんな美形の女性が作成できました。大規模な写真ライブラリから、プロンプトに近い画像を検索して表示したのでななく、AIが白いキャンバスのピクセルに色を埋めていった結果このような画像になったのですから、驚きです。AIとしてはかわいい子を作ろうなどという意思は全くありません。
ただ、かわいいですがどこかAIっポイ感じですね。
モデル(check point)とは
モデル(check point)は、生成される画像の画風のようなもので、「2Dアニメっぽい」もの、「リアルな写真風のもの」など、を選択して好みの画風に合わせたモデル(check point)を選択します。
AIが学習するときにどのような画風の画像を使って学習したのかが決まるので、AIモデルの性格のようなイメージで捉えると何となく分かるかと思います。
今回は、以下の2つのモデルを使って画像を生成させました。
- DreamShaper 8
- chilled_remix_v2
比較のために同じプロンプトを使って作成しています。プロンプトが同じでモデル違いですので、モデルの画風の違いを確認できるかと思います。
①DreamShaper 8

整ったお顔立ちです。
②chilled_remix_v2

こちらは、少し♥めな画風になるようです。プロンプトは出してほしい画像の指定とは別に、ネガティブプロンプトという出してほしくないプロンプトを記述する箇所もあり、そこに入力する指示でエロを抑制したりできます。

表示したくないものが出てきた場合は、ネガティブプロンプトに入力すれば良いということですね。
何回か生成しての感想ですが胸から上の画像の生成確率が多いですが、この画像のように腰の下までの画像はレアです。今後になりますが、全身を表示させるプロンプトの制御方法を調べていきたいと思います。
共通のプロンプト・設定(①、②)
Prompt:
(natural skin texture, hyperrealism, soft light, sharp)
Japanese_idol, looking_at_viewer, upper_body,large breasts, cleavage, chest open,dress,motel,knee,
(smile,laugh:1.3)
Negative prompt:
EasyNegative,(worst quality:2),(low quality:2),(normal quality:2),
verybadimagenegative_v1.3,bad-hands-5,[:(badhandv4:1.6):0.7],BadDream, UnrealisticDream ,verybadimagenegative_v1.2-6400,(monochrome,grayscale,watermark:1.2)
設定: Steps: 100 Sampler: DPM++ 2M CFG scale: 7 Seed: 2687147951 Size: 512x512 Model hash: 48c4cec131 Denoising strength: 0.5 Clip skip: 2 Hires upscale: 2 Hires upscaler: R-ESRGAN 4x+ Used embeddings: EasyNegative [119b], verybadimagenegative_v1.3 [89de], bad-hands-5 [10ca], BadDream [48d0], UnrealisticDream [5f55]
プロンプト・設定(デビュー作)

最初に紹介したデビュー作のプロンプトを記載します。あれもこれもと、詰め込んで非常に長いプロンプトになっています。
Prompt:1 beautiful young woman,18yo,very cute, detailed face,extremely detailed eyes and face, eyes with beautiful details,smiling, cinematic lighting, action,(shiny skin),detailed skin,extremely detailed face,extremely detailed eyes,eyes with beautiful details,extremely beautiful face, (soft saturation:1.3), (fair skin:1.2), wearing a white clothes, 85mm lens,f/8.0, medium breasts, looking at viewer, beautiful eyes BREAK (8k, RAW photo, best quality, masterpiece:1.2), ((masterpiece:1.4, best quality)), ((masterpiece, best quality)),High detail RAW color photo, professional photograph, (realistic, photo realistic:1.37), professional lighting, physically-based rendering, school girl,(black hair, lower side-tail hair style), blush, (sailor uniform, pleated skirt:1.2)
Negative prompt:
(bad-hands-5:0.9),(nipple:1.2),
nsfw, painting, sketches, (low quality, worst quality:1.5), deformed, bad anatomy, lowres, monochrome, grayscale, ugly face, half-open eyes, deformed eyes, long body, inaccurate limb, bad hands, mutated hands, mutated legs, missing fingers, extra fingers, extra arms, text, error, cropped, jpeg artifacts, signature, watermark, username, artist name, out of focus, make-up, (mascara), rouge, face paint, infant, toddler, large breasts, cleavage, chest open, multiple angles
設定:
Steps: 20
Sampler: Euler a
CFG scale: 12.0
Seed: 1655818755
Size: 512x512
Model hash: 879db523c3
Model: dreamshaper_8
Clip skip: 2
まとめ
今回は、Stable Diffusionを使いAIで、画像生成に挑戦しました。
初心者で今回のような高品質な画像を作成できるのは、非常に優秀だと感じました。
デビュー作のプロンプトは、入れたいキーワードを盛りすぎていて、冗長な気がします。盛り込みすぎてAIが何を重視していいのか判断しづらいということがあるらしく、キーワードの重みを付け(何を重要視して欲しいのか)をするために「(word)」、「((word ))」や、重みパラメータ(word:1.3)を入れてはみたものの、思い通りの構図、描写、ディテールを得るには、これから修行を積む必要がありそうです。
最後まで読んで頂きまして、ありがとうございました