dskjal
広告
広告

NAG Normalized Attention Guide の原理

カテゴリ:deeplearning

CFG との違い

CFG はプロンプトとネガティブプロンプトとを使用して推論し、モデルの出力を引き算する。なので推論時間は約2倍になる。

CFG は数ステップで推論する蒸留モデルでは効果が小さい。

NAG は CFG よりも計算が速く、蒸留モデルでも使える。

NAG のアルゴリズム

NAG はプロンプトとネガティブプロンプトとでアテンションの KV 行列を2つ作成する。Q はノイズ画像。プロンプトで計算した QKV の出力と、ネガティブプロンプトで計算した QKV の出力を引き算する。

外部リンク

Normalized Attention Guidance

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models

GitHub


広告
広告

カテゴリ