dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Advantage Weighted Matching のアルゴリズム

カテゴリ:deeplearning

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない。

  • Z Image base:ファインチューニングはされているが、強化学習・RLHF はされていない。LoRA 作成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 100 ステップ

base が公開されれば、「Turbo - base」を LoRA 化することで蒸留 LoRA を作成可能。base に自作 LoRA と蒸留 LoRA を適用すれば、自作 LoRA でも高速高画質な生成が可能。

目次

特徴

続きを読む

AI の手がうまく描けない問題はどのように解決されたか

カテゴリ:deeplearning

続きを読む

YOLO v8 のファインチューニング

カテゴリ:deeplearning

続きを読む

AUTOMATIC1111 の Dreambooth の使い方

カテゴリ:deeplearning

LoRA はLoRA の学習方法に移動した。

目次

続きを読む

画像生成 AI の限界

カテゴリ:deeplearning

画像生成の出力は以下の限界がある。

  1. 学習データセット
  2. テキストエンコーダー・モデルの表現力
  3. 汎化能力が思ったほど高くない
  4. オペレータの語彙と想像力

言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。

1. データセットと汎化能力

続きを読む

Qwen Image Edit 2509 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ:deeplearning

プロンプトリストはプロンプトよく検索されているプロンプト(R18)danbooru タグ検索を参照。

目次

続きを読む

Flow-GRPO の学習方法

カテゴリ:deeplearning

Flow-GRPO: Training Flow Matching Models via Online RL

Flow-GRPO より Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models の方が学習が早い。

Flow-GRPO の強み

DDPO はユーザーの選好データを集めるコストが高い。Flow-GRPO は以下のような画像評価モデルを使用し、教師画像を使わずモデルのみで画質やプロンプトの追従性を向上させられる。ただし Flow-GRPO は非常に計算コストが高く、予算もしくは豊富な計算資源を持っている場合に使える。

評価モデル例

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む


広告
広告