Stable Diffusion Web UI (1111版) text2image機能解説

機能解説の情報については自分が書くまでもなくあちこちで出ていると思いますが…

1111版の更新が思った以上に早くて情報がやや古い、なんて場合もあったので備忘録がてらゆるっと簡潔に書いていきたいと思います。

一応インストール方法とかアプデ方法についてはこちらに記事にしているのでよければご参照ください。

https://banilog.com/stable-diffusion-4/

txt2img
おわりに

txt2img

Prompt

もはや書くまでもないとは思いますが、生成する画像に関する単語をこちらに入力します。
あまりに長すぎると後半のPromptが無効になるので程よい長さに調整。

追記

1111版をお使いの方は本体のアプデにより、75トークンの制限がなくなったためPromptの長さに関して気にする必要がなくなりました。

Prompt editing

Prompt中の単語に対して()をつけるとその部分の要素が占めるウェイトが増え、逆に[]でかこうとその部分の影響するウェイトを減らう事ができます。

また[from:to:when]という形でPrompt中に単語を挿入しPromptを制御する機能もあります。
このfromとto部分は任意のテキストで、when部分は数字です。

指定した数値の段階でfrom:to部分のテキストを参照しサンプリングを切り替えます。
ざっくり書くと途中でAの描写をやめてBを描くねって感じです。

[to:when]は一定のステップ数のあとPromptにtoを追加。
[from::when]は一定のステップ数のあとPromptからfromを削除。

基本何度かPromptに加えて試せばわかると思いますが、気になる方はこちらを参照。

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#prompt-editing

ただこちらについては本腰入れると呪文度合が跳ね上がって面倒なので、自分は今のところ使ってないです。

Negative prompt

普通のPromptについては解説する必要がないと思いますのでまずはこちらから。
Negative promptは、画像を生成する際にこの欄に入力した要素を除外します。

例えばアニメ・イラスト調の画像を生成したい際には3DCG等に関連する要素を入力すると、リアル調の描写が消えてよりイラスト寄りの画像を生成することができたりします。

ただ風景を交えた画像であった場合、画面全体の奥行などの描写に3DCG等を参照していた場合にはそこら辺の描写が弱くなってしまう場合もあるので良し悪しかなと。

Sampling Steps

簡潔にステップ数とか言われていたりしますね。
この数値を上げれば上げるほど処理ステップ量が増えて生成されるまでの時間が伸びます。

ちなみにですが数値を上げたからといって全体的なクオリティ(品質)が上がる訳ではありません。アニメ調のイラストを生成したい場合は逆にステップ数を下げないとよくわからん腕とか足が生える確率が体感上がります。

逆に書き込みの多いものを生成したい場合にはステップ数を上げて様子をみたりしていますね。

Euler a辺りは比較的低Stepsでも問題ないですが、DPM2やDDIMなどをサンプラーとして使用する場合はSteps数を上げないと上手く画像が出力されなかったりします。

Sampling method

よくサンプラーと呼ばれているやつです。
これに関しては1111版Stable Diffusionなどでもデフォルトの”Euler a”でいいと言われていた気がしますが、全体的な画風に若干影響があったりもします。

後記する機能を使ってざっと出力したのがこんな感じ。
うさちゃんを生成したのですが、細かい相違点がちょっとわかりにくいですね。

ディティールの細かいものを生成するとボケ感や書き込み、質感などが結構変わったりするので気になれば試してみるといいかと思います。

Roll

ランダムなアーティストをPromptに追加します。

Restore face

簡単に書くと顔を崩れにくく左右対称にしやすくする機能です。
ただちょっと問題があって、イラスト調の画像を生成する際にこちらの機能をONにするとガイドラインとして使ってるであろう目・鼻・口が生成した画像に残っちゃう場合があるんですよね。

なのでリアル調の画像を生成する際にはいいかもしれませんが、イラスト調の画像を生成したい方はOFFでいいかと思います。

Tilling

生成した画像がタイル状になるよう生成される機能です。

Highres. fix

低解像度で画像を生成してそれを元に高解像度で生成するって感じの機能です。
なので普通に解像度を上げるのと違って分裂したりしにくいって感じ。

Batch Count

生成する画像の枚数です。

Batch Size

”一度に”生成する画像の枚数です。

CFG Scale

入力したPromptを生成する画像にどれぐらい影響させるかという数値です。
上げすぎても下げ過ぎても崩壊しがちなので変更するにしてもデフォルトから離れすぎない範囲でいいのかなと個人的に思います。

Width・Height

画像の解像度です。
Widthが横幅、Heightが縦幅。

デフォルトの512×512から上げすぎると崩壊しやすいので注意です。

追記

NAI版をお使いの方は解像度を上げても画像が崩壊しにくくなっているため、そこら辺はあまり気にしなくていいかもしれません。

Seed

画像を生成する際のシード値です。
-1でランダムシードになります。

Extraタブにチェックを入れると同一シードでさらに詳細なカスタムができるようになります。

Script

Prompt matrix

|を使用してPromptを区切ることで、Promptごとの画像を一度に生成することができます。

※例
cat and dog | a | b

というPromptを入力した場合、前半の”cat and dog”を前提としてPromptに一度に”a”と”b”を加えてた画像と、それぞれ”a”と”b”を加えた画像が生成されます。

aとbどちらのPromptがどれぐらい有効なんだ？って時になんかに使ったりしますね。

X/Y plot

上記のSampling methodに掲載した画像のように条件を変えて一度に画像を生成できます。
生成する画像の差異を確認するのに便利なのでかなり重宝します。

おわりに

ちょっとtext2imageだけでかなり長くなっちゃったので今回はここまでにします。
image2imageについては後日また記事にします……

おそらくこの記事を書いてる段階で新機能が追加されている可能性があるので、一部記載漏れとかあれば申し訳ないですと先に謝っておきます。

本当はこの記事にimage2image含め全部書いちゃおうと思っていたんですが、さすがに長すぎて無理でした……

そんな訳でここまで閲覧いただきありがとうございました。
それではまた～。