蒸留技術まとめ

基盤技術と初期研究

Progressive Distillation for Fast Sampling of Diffusion Models。教師モデルのサンプリングステップを段階的に半減させる反復的蒸留アプローチ。この手法は8192ステップの教師モデルを4ステップまで蒸留する。

Consistency Models。ノイズから画像を直接予測する方法を学ばせる。

DMD1 One-step Diffusion with Distribution Matching Distillation。ノイズとノイズから生成された画像とから学習するが、Distribution Matching Gradient も同時に計算し、その loss も学習させる。

Score Distillation Sampling with Learned Manifold Corrective。Score Distillation Sampling (SDS) の損失関数の問題点の解説とその解決方法の説明。

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module。蒸留をファインチューニングととらえて、LoRA に蒸留内容を学習させる。

One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation。多段階フローマッチングモデルをワンステップ超解像モデルに蒸留。

Target-Driven Distillation: Consistency Distillation with Target Timestep Selection and Decoupled Guidance。蒸留に使うタイムステップを厳選。学習中に Guidance Scale を分離して、CFG が使えるようにする。

DMD2 Improved Distribution Matching Distillation for Fast Image Synthesis。回帰 loss を廃止して、データセット作成コストを削減。ノイズから生成された画像以外の画像も使うことで教師を超える性能を実現。

LoRA-Loop: Closing the Synthetic Replay Cycle for Continual VLM Learning。VLM を使用して品質を向上させる方法。シードガチャをして、質のいいものだけを学習させる。

Knowledge Diffusion for Distillation。学生モデルの出力の feature をデノイズするモデルを作る？

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models。学生のデノイズ結果が教師を上回った場合は学習しないようにすることで、蒸留モデルが教師を上回る性能になる。

Accelerating Diffusion Sampling with Optimized Time Steps。ODE ソルバーと学習に使う最適なタイムステップとの選択方法の解説。

従来の蒸留モデルは低ステップで生成できるが、品質は下がり、ステップ数を増やしても生成画像の品質は改善しない。

通常、蒸留は学習するステップが固定だ。しかし TiM は現在のデノイズ状況から、複数のステップのデノイズ状況への遷移を学習することで、低ステップでの品質と高ステップでの品質の両立を実現した。

800M の蒸留モデルで、10B のモデルに相当する品質を実現している。