deeplearning カテゴリの記事一覧を表示しています。

広告

広告

よく検索されているプロンプト（R18）

カテゴリ：deeplearning

続きを読む

ComfyUI の ModelSamplingAuraFlow とは何か

カテゴリ：deeplearning

ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。

中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。

ノイズを増量することで画像にディティールを追加する使い方もできる。

続きを読む

Stable Video Infinity のエラーリサイクリングファインチューニングとは何か

カテゴリ：deeplearning

vita-epfl/Stable-Video-Infinity

この論文の考え方はとても重要だ。既存の生成 AI は推論時にエラーが発生するにも関わらず、学習時には推論エラーがないものとして学習していた。なので推論が長くなるとエラーが蓄積し出力が劣化する。これは動画だけでなく LLM でも同様の現象が起こる。

エラーリサイクリングファインチューニングは意図的にモデルの推論エラーを学習データに注入することで、モデルに自己修正能力を持たせるファインチューニング手法だ。

既存技術

続きを読む

Z Image の LoRA 作成 tips

カテゴリ：deeplearning

続きを読む

Danbooru タグ検索

カテゴリ：deeplearning

続きを読む

LoRA の学習方法

カテゴリ：deeplearning

画像加工

データの水増し

過学習防止

正則化画像は必要か

prior_loss_weight

学習

高速化

シードの固定

画風の学習

外部リンク

続きを読む

スケール則の終わり

カテゴリ：deeplearning

LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の３つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。

しかし LLM のデータセットは Web のスクレイピングデータで、それで差別化するのが困難になった。その結果 CoT や RLVR のような計算リソースをつぎ込んで性能を上げる手法を使うようになった。現在の方向では最も低コストな計算リソースを所有する企業が勝者になり、それは自社で学習・推論用 TPU を設計・製造できる Google になる可能性が高い。

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ：deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers（中身は FlashAttention）も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

Diffusion-DPO（Diffusion-Direct Preference Optimization）の学習方法

カテゴリ：deeplearning

Diffusion-DPO Diffusion Model Alignment Using Direct Preference Optimization は SD3 でも使われた強化学習手法。SD3 ではランク 128 の LoRA として作成している。

ただし、画風や新しい概念の学習のような一般的なタスクは SFT（教師ありファインチューニング）が適している。「○○がうまく描けない」というニーズは○○が言語化できているので SFT を使うべき。SFT はデータセットを用意しやすいし学習負荷も低い。

Diffusion-DPO を使うケース

言語化が困難だが描いてほしくないもの（暴力的・性的表現）がある
ユーザーの選好データを持っている
細部の表現の崩れを改善したい

SFT（教師ありファインチューニング）と Diffusion-DPO との違い

続きを読む

RLVR 用に Yolo で崩れた手の検出モデルを作る

カテゴリ：deeplearning

続きを読む

広告

広告

カテゴリ