これまで、Stable DiffusionのAI画像生成において、アジア系のリアルな美女画像に定評があるモデルを試してきました。
- DreamShaper 8
- chilled_remix_v2
- BRA6 (Beautiful Realistic Asians Version 6)
- BRA4 (Beautiful Realistic Asians Version 4)
今回は、前回ご紹介しましたBRA6から派生した(マージされた)モデルである、yayoi_mixを使ってみたいと思います。
モデル「yayoi_mix」とは
今回使用する、モデル「yayoi_mix」も、リアルな美しい女性が描けるモデルです。
リアル系のモデル、BRAV6、Soda Mix、XXMix_9をマージして作成されたモデルということで期待できます。ダウンロードしたら、フォルダに入れるだけで使えます。(…/stable-diffusion-webui/models/Stable-diffusion)
今回の目標
画像生成AIを使い始めて2週間ですが、振り返ってみると、行き当たりばったりのやり方で画像が生成されて喜んでいるだけのような気がします。
プロンプトを操り思うような画像を生成するにはまだまだ時間が掛かりそうです。また、Stable Diffusion web uiもテキストから画像を生成するという機能(txt2img)しか使っておらず、img2imgやControlNetなど他にもいろいろ強力な機能があるらしいですが、試せていません。
とはいってもいきなりレベルアップは難しいです。まずは、プロンプトの書き方を基礎から学ぶところのレベルアップから行います。そのためにも、まずはお手本に忠実に絵を出せるようになることが重要だと思います。そこで今回は、お手本に倣って、お手本と同じ絵を出すことを目標とします。
お手本
それではお手本を入手についてです。考えられるのは2点です。
- Stable Diffusionのハウトゥー本
- ネットで検索
手軽にネットで入手したいですが、プロンプトの記載のあるサイトを探しても、そう多くはないようです。ハウトゥー本はいくつか出ていて、noteやamazon電子書籍などで販売されているものもあるようです。
CIVITAIは、プロンプトや設定値が公開されている場合が多いため、参考になる
他のサイトでは、プロンプトはあるが、どのモデルを使用したか記載されていない場合がほとんどであり、モデルのページではモデルは確定しているため、手掛かりが多くなります。ただ、Clip Skipは不明なので、そこは手さぐりになります。
目標の画像は、CIVITAIのyayoi_mixモデルのページにある、着物の女性の絵とします。転籍できないのでリンク先を確認してください。
Stable Diffusion web ui の設定
これまでは、ランダムに画像を生成して良いものをピックアップしてブラッシュアップいく手順で進めてきましたが、今回はお手本通り入力してきます。
不明なパラメータ
実際に行ってみると情報は揃っていると思いましたが、何を入れて良いか分からないパラメータが出てきました。
- Clip Skip
- 画像サイズ
Clip Skip
Clip Skipは、これまで試してきた経験から、出力結果に大きく影響が出るパラメータです。
ただ、1~3以外は使えない画像になる事が多いので3つ試すことにしました。
画像サイズ
画像をダウンロードして、サイズを確認してみました。
幅:1536、高さ:1920
Stable Diffusionのデフォルトが512×512のサイズということでしたので、ランダムで試す段階は512×512や、512×768を使っていました。
今回は、縦長の画像を出したいので、
ひとまず、縦横比を合わせて実行することにしました
出力画像
上記の設定で、出力した結果が下の画像になります。

少し雰囲気が違う印象です

顔のディティールと着物の地味さが気になります

話がそれてしまいますが、上の出力をするときに、誤ってClip skipではなく、「Eta」というものを設定してしまいました。その結果がこちらですが、バリエーションを検討するには良いのかもしれません。

現時点では、何のパラメータなのか、どこで設定するものなのか不明ですので、今後調べていきたいと思います。
気になる箇所を調整
同じ設定にすれば同じ結果が得られることを期待しましたが、少し甘かったようです。
画像サイズと、プロンプトを追加して「着物の柄」を調整します。
画像サイズ
これまで使っていた縦長サイズ(幅:512、高さ:768)を選択しましたが、お手本の画像と縦横比は合わせておいた方が良いと思いました。
同じプロンプトでも縦横比の違いで出力される画像が変わるようです。例えば縦に長い画像だと全身を表示できる可能性が高かったり、横長だと寝ているような画像を出力しやすかったり、まさにカメラで撮影する際に、カメラを縦にするのか横にするのかや、ワイドでの撮影方法によって得られる写真が変わるのに似ています。

着物の柄
プロンプトを修正して、着物に花柄を追加します。花柄のキーワードのfloralを追加しました。

結果的には、お手本と同じにすることは、できませんでした。
yayoi_mixの傾向をチェック
それでは最後に、いつものようにプロンプトは同じにして、シードをランダム(=-1)で画像を出力してみます。
顔の形、顔のパーツや髪型の指定をしていないせいか、似たような顔の女性が出力されました。


まとめ
今回は、CIVITAIのプロンプトをお手本として同じ設定を行い、同じ絵を出した後プロンプトを解釈しカスタマイズして自分なりの画像生成できるようになるための、取り組みの第一歩でした。
しかし、同じ結果は得られませんでした。
理由として考えられることは、設定を合わせたのは、txt2imgの部分だけであり、CIVITAIに掲載の画像は、その後他の機能を使ったり高解像度化でアップスケーラーを使ったしていると思われるので、今回の途中プロセスの段階では、同じ画像を得られないのではないかと思いました。
他のモデルでも試して結論が正しいか確認していきたいと思います。txt2img以外の他のツールも習得していきたいと思います。txt2imgの機能は慣れてきたのと、そろそろ他のツールを使いたいというモチベーションが湧いてきたので、タイミングとしては良い時期だと思います。それでは次回!