dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす

カテゴリ:deeplearning

続きを読む

Tsukasa-Speech を Windows で GPU で動かす

カテゴリ:deeplearning

Tsukasa-Speech

デフォルトの状態ではメモリが解放されず、動作を続けると VRAM が不足するのでアプリの再起動が必要になる。

512 トークン制限があり、一度に生成できる文字数は日本語の場合 200 文字に届かない程度。

ファイルアップロードバグ

gr.Audio にはバグがあり、"Too little data for declared Content-Length" のエラーメッセージで、リファレンス音声の再アップロードに失敗する。詳細は Audio component: gradio RuntimeError: Response content shorter than Content-Length #8878 を参照。大きいファイルではエラーが起こらず、小さいファイルを再アップロードすると発生することから、キャッシュが悪さをしている可能性がある。

対処法としては

  • アプリを再起動
  • ファイルをリネームしてアップロード

続きを読む

Python 3.13 で kohya-ss sd-scripts の環境構築

カテゴリ:deeplearning

xformers は使わない(--sdpa を使う)ので入れていない。

続きを読む

蒸留技術まとめ

カテゴリ:deeplearning

続きを読む

NovelAI Diffusion V3 の改善点

カテゴリ:deeplearning

続きを読む

AUTOMATIC1111 の便利な機能

カテゴリ:deeplearning

AUTOMATIC1111 は更新を停止している。ComfyUI か、AUTOMATIC1111 の後継で余計な機能を排除してアップデートされた sd-webui-forge-classic に移行した方がいい。

目次

続きを読む

YOLO v8 のファインチューニング

カテゴリ:deeplearning

続きを読む

Danbooru タグ検索

カテゴリ:deeplearning

続きを読む

画像生成 AI の限界

カテゴリ:deeplearning

画像生成の出力は以下の限界がある。

  1. 学習データセット
  2. テキストエンコーダー・モデルの表現力
  3. 汎化能力が思ったほど高くない
  4. オペレータの語彙と想像力

言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。

1. データセットと汎化能力

続きを読む