蒸留技術まとめ
基盤技術と初期研究
Progressive Distillation for Fast Sampling of Diffusion Models。教師モデルのサンプリングステップを段階的に半減させる反復的蒸留アプローチ。この手法は8192ステップの教師モデルを4ステップまで蒸留する。
Consistency Models。ノイズから画像を直接予測する方法を学ばせる。
SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation。ODE ではなく SDE を使って蒸留する。
DMD1 One-step Diffusion with Distribution Matching Distillation。ノイズとノイズから生成された画像とから学習するが、Distribution Matching Gradient も同時に計算し、その loss も学習させる。
LoRA-Enhanced Distillation on Guided Diffusion Models。蒸留+LoRA
理論的基盤と分析
Theory of Consistency Diffusion Models: Distribution Estimation Meets Fast Sampling
Improved Techniques for Training Consistency Models
Optimal Stepsize for Diffusion Sampling
Simple and Fast Distillation of Diffusion Models。従来手法の最適化。
スコア蒸留と敵対的学習(GAN)
Score Distillation Sampling with Learned Manifold Corrective。Score Distillation Sampling (SDS) の損失関数の問題点の解説とその解決方法の説明。
Adversarial Diffusion Distillation。スコア蒸留+GAN。
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs。拡散モデル+GAN。蒸留ではない。
Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation。蒸留、GAN、分布マッチング。
Latent Consistency Models (LCM)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference。Consistency Model を潜在空間で実行。
LCM-LoRA: A Universal Stable-Diffusion Acceleration Module。蒸留をファインチューニングととらえて、LoRA に蒸留内容を学習させる。
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis
フローマッチングと軌道最適化
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation。Rectified Flow を使った蒸留。
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation。多段階フローマッチングモデルをワンステップ超解像モデルに蒸留。
ワンステップ生成の特殊化
SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation。Score Distillation Samplingを活用し、訓練画像データなしで蒸留。
SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher。LoRA の採用と最適化。
高度な蒸留技術
Target-Driven Distillation: Consistency Distillation with Target Timestep Selection and Decoupled Guidance。蒸留に使うタイムステップを厳選。学習中に Guidance Scale を分離して、CFG が使えるようにする。
DMD2 Improved Distribution Matching Distillation for Fast Image Synthesis。回帰 loss を廃止して、データセット作成コストを削減。ノイズから生成された画像以外の画像も使うことで教師を超える性能を実現。
LoRA-Loop: Closing the Synthetic Replay Cycle for Continual VLM Learning。VLM を使用して品質を向上させる方法。シードガチャをして、質のいいものだけを学習させる。
Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
知識蒸留の拡張
Knowledge Diffusion for Distillation。学生モデルの出力の feature をデノイズするモデルを作る?
Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models。学生のデノイズ結果が教師を上回った場合は学習しないようにすることで、蒸留モデルが教師を上回る性能になる。
新興技術
Distilling ODE Solvers of Diffusion Models into Smaller Steps。ODE ソルバーを蒸留する?
Accelerating Diffusion Sampling with Optimized Time Steps。ODE ソルバーと学習に使う最適なタイムステップとの選択方法の解説。
Learning Few-Step Diffusion Models by Trajectory Distribution Matching。Distribution Matching + Trajectory Matching。
動画と超解像
DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization
Acceleration Method for Super-Resolution Based on Diffusion Models by Intermediate Step Prediction
RL Dreams: Policy Gradient Optimization for Score Distillation based 3D Generation