NAG Normalized Attention Guide の原理
カテゴリ:deeplearning
CFG との違い
CFG はプロンプトとネガティブプロンプトとを使用して推論し、モデルの出力を引き算する。なので推論時間は約2倍になる。
CFG は数ステップで推論する蒸留モデルでは効果が小さい。
NAG は CFG よりも計算が速く、蒸留モデルでも使える。
NAG のアルゴリズム
NAG はプロンプトとネガティブプロンプトとでアテンションの KV 行列を2つ作成する。Q はノイズ画像。プロンプトで計算した QKV の出力と、ネガティブプロンプトで計算した QKV の出力を引き算する。
外部リンク
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models