NovelAI Diffusion V3 の改善点
カテゴリ:deeplearning
llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning
Danbooru タグ検索
カテゴリ:deeplearning
Stable Diffusion のファインチューンの Tips
カテゴリ:deeplearning
LoRA はLoRA の学習方法へ移動した。
LoRA 以外の情報(Hypernetwork や Textual Inversion、Dreambooth)はStable Diffusion の古い情報へ移動した。
目次
U-Net の学習
わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する。
学習のプロセスは以下のようになる。
- ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
- 教師画像にタイムステップ t に対応するノイズを付与する
- U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト(embedding 化したキャプション)を入力
- U-Net が除去すべきノイズを出力する
- 付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差(MSE)を計算する
- 差分を逆伝播して学習する
タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。
概要
2023 年8月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth(正則化画像) はほとんど使われていない。
U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか
カテゴリ:deeplearning
固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説
カテゴリ:deeplearning
NoobAI-XL 1.0 のアーティストブレンド例
カテゴリ:deeplearning
AUTOMATIC1111 の Dreambooth の使い方
カテゴリ:deeplearning
LoRA はLoRA の学習方法に移動した。
目次
- 概要
- 正則化画像の必要性
- Parameters
- Advanced
- Concepts
- A Few Dreambooth Observations and Tips, Leafier Closer Shots With the New Vae File (higher CFG)
- モデルの圧縮(脱水)
バッチ正規化の Tips
カテゴリ:deeplearning
バッチ正規化自体に性能を向上させる能力はない
Textual Inversion の使い方
カテゴリ:deeplearning