画像生成AIソフト「AMUSE」について、個人的に気になること その2 Scheduler(Sampler)

パソコンネタ
スポンサーリンク

はじめに

AMUSEで画像生成しているとき、Schedulerについてはあまり気にせず初期値のままで生成させていました。ただ、数種類もSchedulerがある。何が違うのか気になってしまう。

そこで何が違うのか、全種類を画像生成させてその違いを見てみたいと思います。

【広告】アマゾンをお使いの方は、このリンクへ

おことわり

画像生成AIソフト「AMUSE」は、2025年8月29日現在、ベータ版であります。そのため、仕様変更は、かなり行われると思います。今回はバージョン3.1.0をベースに作成しています。

また、ネットでの情報、Google Gemini、Grokでの回答、私自身の知識と経験を元に記述しているため、誤った情報となってしまう可能性もあります。気づいた時点で修正していきたいと思っております。

【広告】楽天会員の方は、このリンクへ

Schedulerの種類

今回使用したModel(SD1.5ベース)のSchedulerは以下の13種類になります。

LMS
LMS (Karras)
Euler
Euler (Karras)
Euler-Ancestral
Euler-Ancestral (Karras)
DDPM
DDIM
KDPM2
KDPM2 (Karras)
KDPM2-Ancestral
KDPM2-Ancestral (Karras)
LCM

では、ここで個別に説明しますといきたいのですが、まず、Samplerとは?というところでつまづき、ネットの解説を見てもStable Diffusionを基準としているので、ますます難解・・・

なので、Google GeminiとGrokを使って、代わりに解説と説明をしてもらうことにしました。なお、Grokの回答は最初英語で回答してきましたので、改めて日本語に訳してもらったものです。

【広告】私も使っています。

その1 Google Geminiの回答

はい、画像生成AIソフト「AMUSE」に搭載されているScheduler(スケジューラー)について、それぞれ詳しく解説します。

まず、「Scheduler」は一般的に「Sampler(サンプラー)」と呼ばれるものと同じです。ノイズ画像から最終的な画像を生成するまでの計算手順を定義するアルゴリズムであり、これを選ぶことで生成速度や画質が大きく変わります。

リストにあるスケジューラーを理解するために、まず2つの重要な「追加要素」を知っておくと便利です。

  • -Ancestral (確率的): 名前に Ancestral と付くものは「確率的」サンプラーです。生成の各ステップで少量のランダムなノイズを追加するため、シード値を固定しても生成するたびに細部が微妙に異なる絵になります。多様なアイデアを探したい時や、偶然性を楽しみたい時に向いています。付いていないものは「決定的」で、同じ設定なら何度でも同じ絵を生成します。
  • (Karras) (高品質化): 名前に (Karras) と付くものは、特別な「ノイズスケジュール」を使用します。これは、ノイズを減らしていくペースを最適化する技術で、特に少ないステップ数(例:20〜30)でも画像の品質を向上させる効果があります。迷ったら (Karras) 版を選ぶのがおすすめです。

各Scheduler(Sampler)の詳細解説

リストのSchedulerを系統ごとに分けて解説します。

1. Euler (オイラー) ファミリー:最速・シンプル

最も基本的で計算がシンプルなため、非常に高速です。

  • Euler:
    • 特徴: 決定的。全サンプラーの中で最速クラスです。
    • 用途: プロンプトが意図通りに機能するかを素早くテストしたい時、アイデア出しの段階に最適です。
    • 注意点: 品質は他の高度なサンプラーに劣る傾向があります。ステップ数を上げすぎると逆に絵が崩れることもあります。
  • Euler-Ancestral:
    • 特徴: 確率的。Euler と同様に高速ですが、生成ごとに結果が変わります。
    • 用途: アーティスティックな表現や、カッチリしすぎない絵柄(特にアニメイラストなど)と相性が良いと言われています。
  • Euler (Karras) / Euler-Ancestral (Karras):
    • 特徴: それぞれの Karras 版です。元の Euler よりも少ないステップ数で若干品質が向上する可能性があります。
2. LMS (Linear Multi-step) ファミリー:古典的

Euler より少し高度な計算を行う古典的なサンプラーです。

  • LMS / LMS (Karras):
    • 特徴: Euler よりは高品質な結果を出す傾向がありますが、現在主流のサンプラーと比較すると見劣りすることがあります。
    • 用途: 古いバージョンのStable Diffusionで標準的だったため、過去の生成環境を再現したい場合などに使われることがあります。基本的には Karras 版の使用が推奨されます。
3. DDPM / DDIM:安定性の高い定番

Stable Diffusionの初期から存在する、信頼性の高いサンプラーです。

  • DDPM (Denoising Diffusion Probabilistic Models):
    • 特徴: Stable Diffusionの元となった理論モデルのサンプラー。確率的で、非常に多くのステップ数を必要とするため生成が非常に遅いです。
    • 用途: 現在では学術的な興味以外で積極的に使われることは稀です。
  • DDIM (Denoising Diffusion Implicit Models):
    • 特徴: DDPM を大幅に高速化し、決定的にした改良版。非常に安定しており、ステップ数を変えても絵が破綻しにくいです。
    • 用途: 安定感を求めるなら今でも優秀な選択肢です。Inpaint(部分修正)との相性も良いとされています。品質を出すには30ステップ以上が推奨されます。
4. KDPM2 ファミリー:DPM系の高品質サンプラー

DPM(Diffusion Probabilistic Model)ソルバー系統のサンプラーです。現在主流の「DPM++ 2M」などの前身にあたりますが、高品質な画像を生成できます。

  • KDPM2 / KDPM2 (Karras):
    • 特徴: 決定的。EulerLMS よりも少ないステップ数で高品質な画像を生成できます。
    • 用途: このリストの中では、品質と速度のバランスが良い選択肢の一つです。特に Karras 版は、20〜30ステップで良好な結果が期待できます。
  • KDPM2-Ancestral / KDPM2-Ancestral (Karras):
    • 特徴: 確率的。KDPM2 の品質を保ちつつ、生成ごとに多様性を生み出します。
    • 用途: 写実的な表現で、質感や細部に豊かなバリエーションが欲しい場合に適しています。
5. LCM (Latent Consistency Models):革新的な超高速サンプラー

LCM は他のサンプラーとは全く異なるアプローチを取る、革新的な技術です。

  • LCM:
    • 特徴: 圧倒的な生成速度を誇ります。通常20〜30ステップ必要なところを、わずか4〜8ステップで同等以上の品質の画像を生成できます。
    • 仕組み: 従来のサンプラーがノイズを少しずつ取り除くのに対し、LCMは学習によって途中のステップを飛ばし、一気に完成形に近い画像を予測するよう最適化されています。
    • 用途: ほぼリアルタイムで画像を生成したい場合に最適です。
    • 注意点: LCM を最大限に活用するには、モデル自体がLCMに対応しているか、別途「LCM LoRA」という追加ファイルを適用する必要があります。これが無い場合、うまく機能しない可能性があります。

AMUSEでの選び方 おすすめガイド

目的おすすめのScheduler理由
【最速】アイデア出し・試行錯誤Euler または Euler-Ancestralとにかく速い。プロンプトの効果をすぐに確認できる。
【超高速】リアルタイム生成LCM対応モデルやLoRAがあれば、4〜8ステップで高品質。革命的な速さ。
【バランス重視】高品質な画像を安定してKDPM2 (Karras)このリストの中では、現在の主流サンプラーに最も近い性能。速度と品質のバランスが良い。
【安定性・再現性】DDIM破綻しにくく、設定を固定すれば必ず同じ絵が出る。じっくり調整したい時に。
【多様性】毎回違う発見がしたいKDPM2-Ancestral (Karras)高品質を保ちつつ、生成ごとに異なるディテールや雰囲気を楽しみたい時に。

結論として、まず試すなら KDPM2 (Karras) を20〜30ステップで使ってみるのがおすすめです。 もしAMUSEで LCM LoRA が使えるなら、LCM を4〜8ステップで試すと、その驚異的な速さを体験できるでしょう。

【広告】国内旅行を安心して旅したい・・・

その2 Grokの回答

AMUSE AI画像生成ソフトウェアの文脈において、このソフトウェアはStable Diffusionモデルを活用してWindows PC上でローカル画像作成を行い(AMDハードウェアに最適化されている)、スケジューラー(サンプラーとしても知られる)は、画像生成中のノイズ除去プロセスを導くアルゴリズムである。これらは、ランダムな開始点から最終画像を生成するためにノイズを徐々に除去する方法を制御し、生成速度、画像品質、詳細、多様性、収束などの要素に影響を与える。スケジューラーは通常、推論ステップの数(例: 大多数で20-50、LCMのような高速なものでは少ない)などのパラメータと組み合わせて使用される。

これらのスケジューラーは、Hugging Face Diffusersやk-diffusionなどのライブラリから派生しており、” (Karras)” のバリアントは、特殊なノイズスケジュール(sigmas)を使用し、ノイズ低減をより均等に分散させることで、低いステップ数で結果を改善することが多い。Ancestralバリアントは、ストカスティシティを導入してより多様な出力を実現する。以下は、各リストされたスケジューラーの詳細な説明で、主要な特性、強み、違い、AMUSE/Stable Diffusionでの典型的な使用例を含む。

LMS

Linear Multistep Scheduler (LMSDiscreteSchedulerとして実装)。これはk-diffusionライブラリの多段法に基づく離散時間スケジューラーである。以前のステップの情報を使用してノイズを反復的に予測し除去し、効率的なノイズ除去を行う。

  • 主要な特性: 決定論的(同じシードで予測可能な出力)、速度と品質のバランスが取れており、20-50ステップでよく機能する。構造化された画像に効果的だが、複雑な詳細にはより多くのステップが必要になる可能性がある。
  • 違い: Eulerのようなよりシンプルな方法とは異なり、複数の以前のステップを使用してより良い精度を実現し、単一ステップソルバーよりも安定している。
  • 使用例: 現実的または芸術的な画像のための汎用;AMUSEの初心者にとって良い出発点。

LMS (Karras)

LMSと同じだが、Karras sigmasで初期化(use_karras_sigmas=True)され、対数的なノイズスケジュールを使用してノイズレベルを動的に最適化する。

  • 主要な特性: 低いステップ(例: 15-30)で収束を改善し、よりシャープな詳細と少ないアーティファクトを生み出すことが多い。依然として決定論的。
  • 違い: 標準LMSと比較して、Karrasバリアントは初期段階でノイズをより積極的に低減し、少ないイテレーションでより良い品質を実現;計算が制限されている場合に特に有用。
  • 使用例: AMUSEでの迅速な生成に効率的、詳細が重要だが速度が鍵となるポートレートや風景など。

Euler

Euler Discrete Scheduler (EulerDiscreteScheduler)、基本的な常微分方程式(ODE)ソルバーで、イテレーションごとに単一ステップでノイズ除去を推定する。

  • 主要な特性: シンプルで高速、決定論的;20-40ステップでよく機能する。スケジュールに基づいて正規化されたノイズを減算する数学的にストレートな方法。
  • 違い: LMSのような多段法よりも基本的;ステップ間でエラーが蓄積する可能性があるが、DDPMのような確率的モデルよりも速い。
  • 使用例: AMUSEでの高速プロトタイピングに理想的、特にシンプルなプロンプトやアイデアの迅速なテストに。

Euler (Karras)

Karras sigmasを有効にしたEulerスケジューラー。

  • 主要な特性: 標準Eulerを強化し、ノイズ分布を最適化することで、15-30ステップで良い結果と改善されたシャープネスを実現。
  • 違い: プレーンなEulerから、ノイズ低減をより均等に扱い、切断エラーを低減して中低ステップ数での詳細を改善。
  • 使用例: Eulerと似ているが、AMUSEのハードウェア制約のあるセットアップでより優れ、詳細なシーンの効率的な生成など。

Euler-Ancestral

Euler Ancestral Discrete Scheduler (EulerAncestralDiscreteScheduler)、Eulerの確率的バリアントで、ステップ中にランダムノイズを追加してancestralサンプリングを組み込む。

  • 主要な特性: 非決定論的(より多様な出力)、多様性を促進;20-50ステップで最適。創造的な結果のためにより広い潜在空間を探求。
  • 違い: 決定論的なEulerとは異なり、ancestralの追加がランダム性を導入し、再現性は低いものの非ancestralバージョンよりも革新的。
  • 使用例: AMUSEでの創造的または抽象的なアート、多様性(例: 異なるポーズやスタイル)が求められる場合。

Euler-Ancestral (Karras)

Karras sigmasを備えたEuler-Ancestral。

  • 主要な特性: ストカスティシティと最適化されたノイズスケジューリングを組み合わせ、少ないステップ(15-30)で多様で高品質な出力を実現。
  • 違い: 標準Euler-Ancestralを改善し、より良いノイズ制御でアーティファクトを少なくしながら多様性を維持。
  • 使用例: AMUSEユーザーが創造的な多様性を効率的に求める場合に汎用、コンセプトの複数バリエーション生成など。

DDPM

Denoising Diffusion Probabilistic Models Scheduler (DDPMScheduler)、基礎的なマルコフ拡散モデルで、前方ノイズ追加と逆ノイズ除去プロセスをシミュレート。

  • 主要な特性: 確率的、高品質のために多くのステップ(50-100+)を必要;ベータスケジュール(例: 線形)を使用して分散を制御。熱力学に着想を得たサンプリングに関連。
  • 違い: DDIMのような暗黙モデルよりも遅くステップ集約的;高忠実度に焦点を当てるが、速度の代償を伴う。
  • 使用例: 時間が問題でない場合のAMUSEでの高解像度、詳細な画像、フォトリアリスティックなレンダリングなど。

DDIM

Denoising Diffusion Implicit Models Scheduler (DDIMScheduler)、DDPMの非マルコフ拡張で、より高速な推論を実現。

  • 主要な特性: 決定論的、DDPMの10-50倍速い;10-50ステップで効果的。潜在空間での補間を可能にし、計算を品質とトレードオフ。
  • 違い: DDPMのマルコフ連鎖(多くの遅いステップ)とは異なり、DDIMは訓練を変えずに加速のための暗黙指導を使用。
  • 使用例: AMUSEでの迅速で高品質な生成、インペインティングのような反復ワークフローに理想的。

KDPM2

K-DPM2 Discrete Scheduler (KDPM2DiscreteScheduler)、k-diffusionからの2次ソルバーで、ノイズ除去のための微分方程式を近似。

  • 主要な特性: 決定論的、20-40ステップで効率的;適応更新による正確なノイズ推定に焦点。
  • 違い: Eulerよりも先進的(2次 vs. 1次)、基本ソルバーよりも安定性を提供するが、ancestralタイプほど確率的ではない。
  • 使用例: AMUSEでの一般画像生成のバランス、良い詳細を持つ制御された出力など。

KDPM2 (Karras)

Karras sigmasを備えたKDPM2。

  • 主要な特性: 低いステップ(15-30)でノイズを最適化し、効率を改善しアーティファクトを低減。
  • 違い: 標準KDPM2から、Karrasは初期ステップのノイズ扱いを強化し、より速い収束を実現。
  • 使用例: AMUSEでの効率的な詳細作業、テクスチャや構成など。

KDPM2-Ancestral

KDPM2 Ancestral Discrete Scheduler (KDPM2AncestralDiscreteScheduler)、KDPM2にancestralサンプリングを追加。

  • 主要な特性: 多様性のための確率的;20-50ステップで最適。新規な画像空間を探求。
  • 違い: 決定論的なKDPM2とは異なり、ランダム性を導入して多様性を増すが、再現性を犠牲に。
  • 使用例: AMUSEでの多様な生成、創造的なプロンプトの探求など。

KDPM2-Ancestral (Karras)

Karras sigmasを備えたKDPM2-Ancestral。

  • 主要な特性: 最適化されたノイズを備えた確率的;15-30ステップで効率的な多様性。
  • 違い: ancestralの多様性とKarrasの効率を組み合わせ、プレーンなKDPM2-Ancestralとは異なり、低ステップ性能が優れる。
  • 使用例: AMUSEでの創造的で高速なバリエーション、バッチ生成など。

LCM

Latent Consistency Models Scheduler (LCMScheduler)、一貫性蒸留を使用して超高速推論のために設計。

  • 主要な特性: 極めて高速(1-8ステップ);非マルコフ指導とタイムステップスケーリングを使用して、最小計算で高解像度出力を実現。
  • 違い: DDPMやEuler(20+必要)よりもはるかに少ないステップ;速度に最適化され品質損失は少ないが、細かな制御が欠ける可能性。
  • 使用例: AMUSEでの迅速プロトタイピング、特に低スペックハードウェアやリアルタイムアプリケーションで。

この考え方をみて、色々な考え方があるのかなと単純に思います。AIを構成することについて相当な知力が必要であり、数学的知識が必要なのかを理解しました。

言い方が昔的になると思うのですが、円周率を出すために針を落として、確率を計算するっていうう古典的考え方が基礎にあるって思います。うまく説明できませんが・・・

各Samplerは、いろいろなアプローチで画像生成していることがわかります。では、どのように変わるか力業で実際に13種類を試してみました(試すしか無い)

【広告】このサイトは、XServerを利用しています。手軽にサーバーを構築できます。

では、実際の画像での差異は?

実際13種類のSamplerを使って、画像に差異があるか検証してみたいと思います。

今回は、実写風のModelとアニメ調のModelの2種類を使用し、各々のSamplerで画像生成させています。夏なので、海と人物(日本人女性)をメインに生成させてみました。

実写風Model

実写風のModelは、以下のPrompt等に設定しています。

Model:unStable  Illusion(SD1.5)

Prompt:masterpiece,best quality,a japanese girl,blush, smile,beach,natural lighting

Negative Prompt:worst quality,ugly,bad anatomy,jpeg artifacts,nsfw

解像度:縦512×横768

ステップ数:50

Guidance Scale:5.00

シート値:1264786814

UpScale、AMD XDNA Super Resolutionは使わずに検証します。

LMS

LMS (Karras)

Euler

Euler (Karras)

Euler-Ancestral

Euler-Ancestral (Karras)

DDPM

DDIM

KDPM2

KDPM2 (Karras)

KDPM2-Ancestral

KDPM2-Ancestral (Karras)

LCM

シード値を固定していることもあって、LCMを別にして、構成に関して大まかに違いはありません。しかし、詳細をみると女性の衣装、髪、背景の差異が感じられます。背景・衣装の差異に、系統的なものを感じます。皆様はいかがでしょうか。

ただ、明らかにLCMは構成自体が別物です。

【広告】のんびり静かな宿は・・・

アニメ調のModel

以下のPrompt等に設定しています。

Model:Dark Sushi Mix(SD1.5)

Prompt:masterpiece,best quality,a japanese girl,blush, smile,beach,natural lighting

Negative Prompt:worst quality,ugly,bad anatomy,jpeg artifacts,nsfw

解像度:縦512×横768

ステップ数:50

Guidance Scale:5.00

シート値:145802495

UpScale、AMD XDNA Super Resolutionは使わずに検証します。

LMS

LMS (Karras)

Euler

Euler (Karras)

Euler-Ancestral

Euler-Ancestral (Karras)

DDPM

DDIM

KDPM2

KDPM2 (Karras)

KDPM2-Ancestral

KDPM2-Ancestral (Karras)

LCM

アニメ調でもシード値を固定していることもあって、LCMを別にして、構成に関して大まかに違いはありません。見た感じ女性の顔の変化がないように思います。女性の体の向き、衣装、背景の差異が感じられます。また背景・衣装の差異に、系統的なものを感じます。アニメ調の場合は、実写風のModelに比べ、変化が見受けられます。皆様はいかがでしょうか。

ただ、明らかにLCMは他のModelと顔の変化は無いのですが、構成自体が別物になってます。

【広告】お買い物は手軽にアマゾンへ

実際生成させてみての注意

今回は、Model、Prompt、ステップ数、シード値を固定しているので、差異はほぼ無いと思っていました。ただ、詳しくみると差異があることがわかりました。

主としているもの、特に日本人女性と指示しているので、Model自体で日本人女性の顔のイメージを持っているため、実写風のModel、アニメ調のModelともに、顔に変化は見受けられませんでした。これは、Modelを変えれば好みの顔になるのかもしれません(これは好みの問題になります。)。

別の話になりますが、KDPM2系を生成した場合、ステップ数より多く処理を行います。指示しているステップ数は50になるのですが、実際の作業は99ステップに及び、処理時間が延びます。そこは注意した方がいいと思います。

【広告】楽天ポイントをお持ちの方は、楽天市場へ!

最後に

今回は、AMUSEで使えるModelを元にSchedulerに主眼として試してみました。他のModelでも検証することができますが、掛け算の世界になるので、好みの2Modelに絞って行いました。

Modelが変われば、生成される画像が大分変わると思います。ローカルPCで気軽に画像生成できるので、みなさまお試しいただければと思います。

今回のブログは、かなり生成AIの力を借り、ほぼAIが生成した文書になりました。あえて、回答文は手を入れていません。私自身はこの回答に満足していますが、皆様はいかがでしょうか?

タイトルとURLをコピーしました