Stable Diffusion Web UIというツールを使って、いくつかの画像生成モデルを比較検証してみました。その結果を、この記事でお伝えします。
Stable Diffusion Web UIとは
「Stable Diffusion Web UI」とは、画像生成AIであるStable diffusionを、ブラウザをインターフェースとして利用するためのツールです。このツールはAUTOMATIC1111氏が開発・配布しており、無料で使うことができます。
このツールの特徴は、以下のような点です。
- Stable diffusionを使うために必要な環境構築を自動で行ってくれる
- ブラウザを介してGUIで簡単に設定変更や画像生成ができる
- 日本語化できる
- 更新頻度が高く、どんどん使い勝手が良くなる
- 拡張機能をインストールすることで便利な機能を追加できる
このツールを使うには、ローカル環境にインストールする方法とクラウド環境にインストールする方法がありますが、ローカル環境の場合は一定以上のPCスペックが必要となります。特にグラフィックボードの性能が重要で、VRAM(=ビデオメモリ)容量が10GB以上あることが推奨されます。
グラフィックボードの性能が足りない方は、この機会に是非グレードアップを検討してみてください。
◆ AI画像生成の入門モデルとしておすすめのグラフィックボード
◆ ワンランク上のハイエンドモデルとしておすすめのグラフィックボード
◆ 最高峰の超ハイエンドモデルとしておすすめのグラフィックボード
◆ Stable Diffusion AI画像生成ガイドブック
画像生成モデルとは
簡単に説明すると、画像生成モデルとは、コンピューターが絵を描くためのルールや手法のことです。コンピューターは、文字や絵のかけらを見て、それに似た絵を描くことができます。例えば、「猫」という文字を見せると、猫の絵を描いたり、「犬」という文字を見せると、犬の絵を描いたりします。また、「笑顔の女の子」という絵のかけらを見せると、笑顔の女の子の絵を描いたり、「怒っている男の子」という絵のかけらを見せると、怒っている男の子の絵を描いたりします。
画像生成モデルには、いろいろな種類があり、それぞれに違うルールがあります。例えば、
手法①:変分オートエンコーダー
「絵を小さなかけらに分けて、それぞれに数字や記号をつける」というものです。そして、「数字や記号から絵のかけらを作り出す」というものです。このルールでは、コンピューターは、数字や記号から絵を作るときに、少しずつ変化させていきます。例えば、「1」から「2」に変えるときに、「丸」から「三角」に変えたり、「赤」から「青」に変えたりします。このようにして、コンピューターは、色々な絵を作ることができます。
手法②:敵対性生成ネットワーク
「本物の絵と偽物の絵を見分けることができる人と、偽物の絵を描くことができる人が競争する」というものです。このルールでは、コンピューターは、偽物の絵を描く人として学習します。コンピューターは、本物の絵と偽物の絵を見分ける人に騙されないように、どんどん上手に偽物の絵を描くようになります。このようにして、コンピューターは、本物そっくりな絵を作ることができます。
手法③:拡散モデル
「元の絵に少しずつノイズ(ざわざわしたもの)を加えていき、最後にノイズだけにする」というものです。そして、「ノイズから少しずつ元の絵に近づけていく」というものです。このルールでは、コンピューターは、ノイズから元の絵を作るときに、どんなノイズがどんな絵になるかを学習します。このようにして、コンピューターは、ノイズから色々な絵を作ることができます。
いろいろなアプローチがあって面白いですね。
画像生成モデルの比較
それでは、いろいろな画像生成モデルを使って、生成された画像を比較してみます。
比較するにあたって、プロンプトなどを以下の設定に固定し、モデルのみ変更します。
また、今回設定するプロンプトでは生成画像のランダム性が強いので2枚ずつ生成して比較します。
| 項目 | 設定値 |
|---|---|
| ポジティブプロンプト | (masterpiece:1.2), (best quality:1.2), ultra-detailed, beautiful lighting, (1 beautiful girl:1.2), looking at viewer, shiny eyes, super detailed skin, beautiful detailed hair, standing picture, (casual clothes:1.1) |
| ネガティブプロンプト | (bad_prompt_version2:0.8), (nsfw:1.3), EasyNegative, bad-artist, bad-hands-5, (worst quality:1.3), (low quality:1.3), extra fingers, fewer fingers, (exposed skin:1.1) |
| サンプリング方法 | DPM++ SDE karras |
| サンプリングステップ数 | 20 |
| サイズ | 512 x 512 |
| CFGスケール | 7 |
| Clip skip | 2 |
それでは、上記の設定で画像生成モデル毎の結果を見ていきましょう。
イラスト系
| 画像生成モデル | 生成画像 |
|---|---|
| AbyssOrangeMix3(AOM3A1) | ![]() ![]() |
| AbyssOrangeMix3(AOM3A2) | ![]() ![]() |
| AniDosMix | ![]() ![]() |
| Anything V3 | ![]() ![]() |
| Anything V4.0 | ![]() ![]() |
| Anything V4.5 | ![]() ![]() |
| AOAOKO [PVC Style Model] | ![]() ![]() |
| CinnamonMix | ![]() ![]() |
| Meina | ![]() ![]() |
| PastelMix [Stylized Anime Model] | ![]() ![]() |
| WaifuDiffusion V1.4 | ![]() ![]() |
リアルイラスト系
| 画像生成モデル | 生成画像 |
|---|---|
| AbyssOrangeMix3(AOM3A3) | ![]() ![]() |
| CitrineDreamMix | ![]() ![]() |
| DosMix | ![]() ![]() |
| NeverEndingDream | ![]() ![]() |
| OrangeChillMix | ![]() ![]() |
| ReV Animated | ![]() ![]() |
実写系
| 画像生成モデル | 生成画像 |
|---|---|
| BasilMix | ![]() ![]() |
| ChilloutMix | ![]() ![]() |
| DDosMix | ![]() ![]() |
| Deliberate | ![]() ![]() |
| RealDosMix | ![]() ![]() |
| StableDiffusionV2.1 | ![]() ![]() |
まとめ
各モデルの生成結果を比較してみましたが、いかがでしたでしょうか?
それぞれに特徴があって面白いですね。
また、今回は人の描画でしたが、風景やファンタジー要素などの描画ではまた違った特色が出ると思います。
画像生成モデルは機械学習の分野で注目されている技術で、さまざまな応用が期待されています。AI画像生成に興味がある方は、ぜひこの記事を参考にしてAI画像生成にチャレンジしてみてください。
グラフィックボードの性能が足りない方は、この機会に是非グレードアップを検討してみてください。
◆ AI画像生成の入門モデルとしておすすめのグラフィックボード
◆ ワンランク上のハイエンドモデルとしておすすめのグラフィックボード
◆ 最高峰の超ハイエンドモデルとしておすすめのグラフィックボード
◆ Stable Diffusion AI画像生成ガイドブック
































コメント