[AI画像生成] Stable Diffusion Web UIを使って画像生成モデルを比較検証！

2023年5月3日2024年9月9日

当ページのリンクには広告が含まれています。

Stable Diffusion Web UIというツールを使って、いくつかの画像生成モデルを比較検証してみました。その結果を、この記事でお伝えします。

Stable Diffusion Web UIとは

「Stable Diffusion Web UI」とは、画像生成AIであるStable diffusionを、ブラウザをインターフェースとして利用するためのツールです。このツールはAUTOMATIC1111氏が開発・配布しており、無料で使うことができます。

このツールの特徴は、以下のような点です。

Stable diffusionを使うために必要な環境構築を自動で行ってくれる
ブラウザを介してGUIで簡単に設定変更や画像生成ができる
日本語化できる
更新頻度が高く、どんどん使い勝手が良くなる
拡張機能をインストールすることで便利な機能を追加できる

このツールを使うには、ローカル環境にインストールする方法とクラウド環境にインストールする方法がありますが、ローカル環境の場合は一定以上のPCスペックが必要となります。特にグラフィックボードの性能が重要で、VRAM（＝ビデオメモリ）容量が10GB以上あることが推奨されます。

おすすめのグラフィックボードのご紹介

グラフィックボードの性能が足りない方は、この機会に是非グレードアップを検討してみてください。

◆ AI画像生成の入門モデルとしておすすめのグラフィックボード

MSI MSI GeForce RTX 4060 VENTUS 2X BLACK 8G OC / PCI-Express 4.0 グラフィックスボード 4060 VENTUS 2X BLACK

◆ ワンランク上のハイエンドモデルとしておすすめのグラフィックボード

MSI MSI GeForce RTX 4070 Ti SUPER 16G VENTUS 3X OC / PCI-Express 4.0 グラフィックスボード RTX 4070 Ti SUPER 16G VENTUS 3X OC

◆ 最高峰の超ハイエンドモデルとしておすすめのグラフィックボード

MSI GeForce RTX 4090 GAMING X SLIM 24G 正規代理店保証付 vd8655

created by Rinker

Stable Diffusionについて、さらに詳しく知りたい方はこちらも参考にしてみてください。

◆ Stable Diffusion AI画像生成ガイドブック

Stable Diffusion AI画像生成ガイドブック

created by Rinker

画像生成モデルとは

簡単に説明すると、画像生成モデルとは、コンピューターが絵を描くためのルールや手法のことです。コンピューターは、文字や絵のかけらを見て、それに似た絵を描くことができます。例えば、「猫」という文字を見せると、猫の絵を描いたり、「犬」という文字を見せると、犬の絵を描いたりします。また、「笑顔の女の子」という絵のかけらを見せると、笑顔の女の子の絵を描いたり、「怒っている男の子」という絵のかけらを見せると、怒っている男の子の絵を描いたりします。

画像生成モデルには、いろいろな種類があり、それぞれに違うルールがあります。例えば、

手法①：変分オートエンコーダー
「絵を小さなかけらに分けて、それぞれに数字や記号をつける」というものです。そして、「数字や記号から絵のかけらを作り出す」というものです。このルールでは、コンピューターは、数字や記号から絵を作るときに、少しずつ変化させていきます。例えば、「1」から「2」に変えるときに、「丸」から「三角」に変えたり、「赤」から「青」に変えたりします。このようにして、コンピューターは、色々な絵を作ることができます。

手法②：敵対性生成ネットワーク
「本物の絵と偽物の絵を見分けることができる人と、偽物の絵を描くことができる人が競争する」というものです。このルールでは、コンピューターは、偽物の絵を描く人として学習します。コンピューターは、本物の絵と偽物の絵を見分ける人に騙されないように、どんどん上手に偽物の絵を描くようになります。このようにして、コンピューターは、本物そっくりな絵を作ることができます。

手法③：拡散モデル
「元の絵に少しずつノイズ（ざわざわしたもの）を加えていき、最後にノイズだけにする」というものです。そして、「ノイズから少しずつ元の絵に近づけていく」というものです。このルールでは、コンピューターは、ノイズから元の絵を作るときに、どんなノイズがどんな絵になるかを学習します。このようにして、コンピューターは、ノイズから色々な絵を作ることができます。

いろいろなアプローチがあって面白いですね。

画像生成モデルの比較

それでは、いろいろな画像生成モデルを使って、生成された画像を比較してみます。
比較するにあたって、プロンプトなどを以下の設定に固定し、モデルのみ変更します。
また、今回設定するプロンプトでは生成画像のランダム性が強いので2枚ずつ生成して比較します。

項目	設定値
ポジティブプロンプト	(masterpiece:1.2), (best quality:1.2), ultra-detailed, beautiful lighting, (1 beautiful girl:1.2), looking at viewer, shiny eyes, super detailed skin, beautiful detailed hair, standing picture, (casual clothes:1.1)
ネガティブプロンプト	(bad_prompt_version2:0.8), (nsfw:1.3), EasyNegative, bad-artist, bad-hands-5, (worst quality:1.3), (low quality:1.3), extra fingers, fewer fingers, (exposed skin:1.1)
サンプリング方法	DPM++ SDE karras
サンプリングステップ数	20
サイズ	512 x 512
CFGスケール	7
Clip skip	2

それでは、上記の設定で画像生成モデル毎の結果を見ていきましょう。

イラスト系

画像生成モデル	生成画像
AbyssOrangeMix3(AOM3A1)
AbyssOrangeMix3(AOM3A2)
AniDosMix
Anything V3
Anything V4.0
Anything V4.5
AOAOKO [PVC Style Model]
CinnamonMix
Meina
PastelMix [Stylized Anime Model]
WaifuDiffusion V1.4