dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

ComfyUI で circlestone-labs の Anima を使う

カテゴリ:deeplearning

Anima は軽量で NSFW の絡みが出せるのが強みだ。

テキストエンコーダーが 0.6B しかない(現在の軽量モデルは 4B を使うのが主流)ので細かい指示はできない。たとえば、コマの位置の指定ができなかったり、自然言語でポーズを指定できなかったり、タグの伝染が起こったりする。

Anima はダンボールタグにあるポーズしか出せないし、ダンボールタグにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。

しかしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。

なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。

アーティストタグを使うなら以下のワークフローはすでに実用レベル:

  1. Anima で下絵
  2. アップスケール
  3. Illustrious の派生モデルで i2i (ディティールの追加・シャープネスアップ・画風の固定)
  4. SAM2 や SAM3 でセグメンテーション(なくてもいい)
  5. Illustrious の派生モデルで Detailer

目次

続きを読む

よく検索されているプロンプト(R18)

カテゴリ:deeplearning

続きを読む

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

VRAM8GB で Z Image の LoRA作成

カテゴリ:deeplearning

目次



続きを読む

musubi-tuner で FLUX.2 klein の LoRa 作成

カテゴリ:deeplearning

FLUX.2 klein 4b は RAM 32 GB、VRAM8GB で余裕をもって LoRA を作成できるが、4b はベースの能力がそれほど高くないので実用性は限られる。

学習画像枚数 * エポック数が 1,000 未満だと不十分。学習画像枚数 * エポック数は 1,500 以上、できれば 3,000 あるといい。

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

python, torch, cuda の tips

カテゴリ:deeplearning

CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。

続きを読む

RTX3050+ComfyUI で SageAttention の導入

カテゴリ:deeplearning

目次

RTX3000 世代は fp8 モデルは非対応

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ:deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

AUTOMATIC1111 の便利な機能

カテゴリ:deeplearning

AUTOMATIC1111 は更新を停止している。以下の移行先がある。

  • ComfyUI:最もユーザーが多く最新技術がいち早く取り入れられる。AUTOMATIC1111 と互換性はない
  • sd-webui-forge-classic:SD 1.5・SDXL 専用。AUTOMATIC1111 と互換性あり
  • sd-webui-forge-neo:classic と同じ作成者で最新機能を取り入れるブランチ。すでに Qwen Image Edit・Lumina Image 2.0・Wan・SageAttention などの技術は実装済み。AUTOMATIC1111 と互換性あり
  • vladmandic/sdnext:A1111 と互換性はないが、最新モデルの対応が早く、AMD の ROCm に対応

目次

続きを読む


広告
広告