RLVR 用に Yolo で崩れた手の検出モデルを作る
カテゴリ:deeplearning
Stable Diffusion の古い情報
カテゴリ:deeplearning
DMD(Distribution Matching Distillation)のアルゴリズム
カテゴリ:deeplearning
res_multistep サンプラーの特徴
カテゴリ:deeplearning
DDIM とオイラー法は何が違うか
カテゴリ:deeplearning
QWEM-Anime
カテゴリ:deeplearning
Wan2.2 の timestep 境界 0.875 の計算
カテゴリ:deeplearning
0.875 にはならないが以下の方法で計算していると考えられる。
Tsukasa-Speech を Windows で GPU で動かす
カテゴリ:deeplearning
デフォルトの状態ではメモリが解放されず、動作を続けると VRAM が不足するのでアプリの再起動が必要になる。
512 トークン制限があり、一度に生成できる文字数は日本語の場合 200 文字に届かない程度。
ファイルアップロードバグ
gr.Audio にはバグがあり、"Too little data for declared Content-Length" のエラーメッセージで、リファレンス音声の再アップロードに失敗する。詳細は Audio component: gradio RuntimeError: Response content shorter than Content-Length #8878 を参照。大きいファイルではエラーが起こらず、小さいファイルを再アップロードすると発生することから、キャッシュが悪さをしている可能性がある。
対処法としては
- アプリを再起動
- ファイルをリネームしてアップロード
NAG Normalized Attention Guide の原理
カテゴリ:deeplearning
Python 3.11.6 で reforge を使う
カテゴリ:deeplearning
ROCm の whl のサポートが 3.11 からなので、3.11 で動作することは重要だ。
forge-classic は python 3.11、torch 2.8.0、cuda 12.8 なのでこちらを使った方が早い。