前回は、Stable Diffusionデビュー作を公開してしまうという、お恥ずかしい記事でした。
Stable Diffusion web uiの設定も、少し勉強し何を変えると結果がどう変わるか、少しずつ経験を積んでいきます。今回は、「CFGスケール」というパラメータについて見ていきたいと思います。
CFGスケールとは
Stable Diffusionを使って、AI画像を生成する場合、CFGスケール(CFG scale)というパラメーターは重要な意味を持ちます。
CFGスケールとは、Stable Diffusionがどれだけプロンプトや入力画像に忠実に画像を生成するかを調整する値です。CFGスケールが大きいと、プロンプトや入力画像に近い画像が生成されますが、画質が悪くなったり、画像が崩れたりするリスクが高くなります。逆に、CFGスケールが小さいと、プロンプトや入力画像から離れた画像が生成されますが、画質は良くなります。つまり、CFGスケールは、忠実さと品質のトレードオフを表すパラメーターなのです。
大: プロンプトに忠実・品質下がる
小: プロンプトから乖離:品質高い
CFGスケールの設定は、自分の目的や好みに合わせて調整します。
例えば、プロンプトや入力画像に沿って新しいアイデアを得たい場合は、CFGスケールを大きくします。一方、品質の高い画像を作りたい場合は、CFGスケールを小さくします。
chiled remix v2を使って生成画像で比較
今回も、前回も使用しましたモデル(check point)のchilled_remix_v2を使ってAI画像を生成し、CFGスケールを変えることで、画像がどのように変化するか確認してみます。
CFGスケールのデフォルトというか、最初に試す推奨値は、7.0くらいが良いとされています。
CFGスケール:9.0
CFGスケールを推奨値より大きくして画像生成した結果がこちらです。
つまり、プロンプトの指示により忠実な画像が生成される想定です。

CFGスケール:4.0
CFGスケールを推奨値より小さくして画像生成した結果がこちらです。
つまり、プロンプトの指示を少し無視して、独自のテイストを取り入れた画像が生成される想定です。

その他の、設定値もご紹介
先ほど、CFGスケールの値を、9.0と4.0で試しましたが、それほど推奨値から大きく離れた値ではないです。CFG=12.0以上は使えない画像になりました。

おまけ:Sampling Stepsの調整
Sampling Stepsの数値は、大きいほどノイズが減り綺麗になります。その代わり時間かかる 。
綺麗にしたい時は100くらいが良いでしょう。通常、ランダムに出現する画像を確認するフェーズでは20~30で十分でしょう。
今回使用したプロンプト(呪文)
今回、使用したプロンプトは前回のプロンプトとほぼ同じで、シードをランダム生成(ガチャ)して得られたものを使用しています。よって、違いとしては、シード値になります。
Prompt: 1 beautiful young girl,18yo,very cute, detailed face,extremely detailed eyes and face, eyes with beautiful details,smiling, cinematic lighting, action,(shiny skin),detailed skin,extremely detailed face,extremely detailed eyes,eyes with beautiful details,extremely beautiful face,(soft saturation:1.3), (fair skin:1.2),wearing a white clothes,85mm lens,f/8.0, upper_body,large breasts, cleavage, knee,looking at viewer, beautiful eyes,(nsfw:1.2), (8k, RAW photo, best quality, masterpiece:1.2), ((masterpiece:1.4, best quality)), ((masterpiece, best quality)),High detail RAW color photo, professional photograph, (realistic, photo realistic:1.37),professional lighting, physically-based rendering, school girl,(black hair, lower side-tail hair style), (sailor uniform, pleated skirt:1.2) Negative Prompt: (bad-hands-5:0.9),(nipple:1.2), painting, sketches, (low quality, worst quality:1.5), deformed, bad anatomy, lowres, monochrome, grayscale, ugly face, half-open eyes, deformed eyes, long body, inaccurate limb, bad hands, mutated hands, mutated legs, missing fingers, extra fingers, extra arms, text, error, cropped, jpeg ,CG,2D,artifacts, signature, watermark, username, artist name, out of focus, make-up, (mascara), rouge, face paint, infant, toddler, (multiple angles:1.5)
まとめ
今回は、Stable Diffusion web ui のCFGスケールというパラメータの設定を色々かえて、出力される画像にどのような影響が出るのか確認してみました。
同じモデルでプロンプトも同じだとしても
シード、CFGスケール、Sampling Stepで大きく変わってくることが分かりました。
つまり、変動幅が大きいためプロンプトに注力するだけではダメで、他のパラメータと総当たりに近い形で確認していく必要があると感じました。
まだまだ分からないことばかりですが、頑張っていきます!!




コメント