Forge-NeoでNunchakuを使ってQwen-Image-Edit 2511を高速化する方法

この記事で学べる事
- NunchakuとSVDQuantの仕組みとGGUFとの違い。
- Forge-NeoでQwen-Image-Edit-2511を使う基本手順。
- NunchakuモデルをForge-Neoに導入する方法。
- Forge-NeoとComfyUIの生成速度・品質の比較結果。
- 品質向上テクニックとプロンプトの画像指定方法。(💎会員限定)
今回はWebui Forge-NeoでQwen-Image-Editの使い方を解説します。さらに新しい量子化手法のNunchaku(SVDQuant)を使って高速に生成します。WebUIは使い慣れているが、ComfyUIは複雑なので使いづらい方にはForge-neoでQwen-Image-Editをおススメします。生成結果はComfyUIほど高品質ではありませんが、十分に使える品質なので一度試してみてはいかがでしょうか?Forge-NeoやQwen-Image-Editの使い方は以前に記事を書いているのでそちらを参考にしてください。
Nunchaku(SVDQuant)とは?
Nunchakuは、4ビット量子化ニューラルネットワーク向けの高性能推論エンジンで、NVIDIA RTX系などの民生用GPUでも大規模な生成AIモデルを高速・省メモリで動作させることができます。中核技術はSVDQuantという量子化手法で、重みと活性化をともに4ビット(W4A4)に圧縮しながら、量子化の難しい成分だけをSVD(特異値分解)で16ビットの低ランク行列として保持することで、画質を維持しつつモデルサイズを大幅に削減しています。
対応モデルはFLUX.1シリーズ、Qwen-Image/Qwen-Image-Edit、SANAなど多岐にわたります。パフォーマンス面では、FLUX.1-dev(12Bパラメーター)において通常のBF16比で約3.6倍のメモリ削減と、NF4(W4A16)比で約3倍の高速化を達成しています。RTX 4090ラップトップではCPUオフロードを排除することで対16ビット比で10倍もの高速化も報告されており、CPUオフロードを使えば最小4GB VRAMから動作します。LoRA・ControlNet・画像編集(Qwen-Image-Edit等)にも対応しています。LoRAは既存の通常モデル(BF16/FP16形式)をそのまま使用でき、再量子化は不要です。ControlNetも通常のモデルをそのまま使用できます。なお、ベースモデル(FLUX.1-devなど)はNunchaku専用の量子化済みモデルが必要です。ComfyUIとの統合も提供されています。
GGUFとの違い
同じく4ビット系の量子化フォーマットとしてGGUFがありますが、仕組みと速度に大きな違いがあります。GGUFはllama.cppが起源で、重みのみを4〜8ビットに圧縮し、演算時には16ビットに復元(デクォンタイズ)してから計算する方式(W4A16)です。メモリ使用量は減りますが、復元処理がボトルネックになるため推論速度の向上は限定的です。
一方、NunchakuのSVDQuantは重みと活性化の両方を4ビットのまま演算する(W4A4)ため、実際の行列演算が軽くなり推論速度が大幅に向上します。ただし、活性化量子化は外れ値(アウトライアー)の影響を受けやすく画質が劣化しやすいという課題があります。この問題をSVDが解決しており、外れ値を含む成分だけをSVDで分離して16ビットの低ランク行列として処理することで画質を保っています。結果として、GGUFの「省メモリ・メモリ帯域削減による速度改善」に対し、NunchakuのSVDQuantは「省メモリかつ演算レベルでの大幅な高速化」を実現しています。
対応GPU
Nunchakuは、コンピュート能力がsm_75(Turing)〜 sm_120(Blackwell)の範囲にあるNVIDIA GPUに対応しています。
| アーキテクチャ | 世代 | コンピュート能力 | 精度モード |
|---|---|---|---|
| Turing | RTX 20系 | sm_75 | INT4 |
| Ampere | RTX 30系 | sm_80, sm_86 | INT4, FP4 |
| Ada | RTX 40系 | sm_89 | INT4, FP4 |
| Blackwell | RTX 50系 | sm_120a, sm_121a | INT4, FP4, NVFP4 |
精度モードの違い
- INT4:コンピュート能力 ≥ 7.5(Turing以降)のすべてのNVIDIA GPUで使用可能。RTX 20シリーズのデフォルト精度。
- FP4:コンピュート能力 ≥ 8.0(Ampere以降)が必要。INT4と同等の性能でより高品質。
- NVFP4:Blackwellアーキテクチャ(RTX 5090など)で使用可能。BF16比で約3倍の高速化と優れた画質を実現。
Forge-NeoでNunchakuをインストールする方法
Forge-NeoでNunchakuをインストールする方法はとてもシンプルで、起動ファイルwebui-user.batのset COMMANDLINE_ARGS=行に--nunchakuを追加するだけです。次回の起動時にNunchakuが自動的にインストールされます。
--nunchaku
Forge-NeoでQwen-Image-Editを使う方法
まずはNunchakuを使わずにQwen-Image-Editを使ってみましょう。以前の記事と同様に今回も「Qwen-Image-Edit-2511」を使います。
Qwen-Image-Editの使用モデルのダウンロード
モデルはComfyUIと時と同じモデルを使います。ディレクトリ構成は基本的にはいつも通りです。Diffusion Modelは\sd-webui-forge-neo\models\Stable-diffusionに配置します。
インプット画像について
インプット画像にとくに指定はありませんが、ComfyUIとの比較の為に以前の記事で使用したComfyUIのWorkflowサンプルで使用した画像を使用します。以下のドライブよりダウンロードできます。
Qwen-Image-EditのUIの使い方
Forge-NeoでQwen-Image-Editの基本的な使い方は以下の手順になっています。
- UI Presetの切り替え
- Checkpointの指定
- VAE / Text Encoderの指定
- Diffusion in Low Bitsの切り替え
- モードの切り替え
- 入力画像の指定
- プロンプトの入力
- サンプリング/スケジューラーの指定
- 画像サイズの指定
- 他のパラメーターの入力
それではひとつずつ見ていきましょう。
1. UI Presetの切り替え
画面上部の「UI Preset」をqwenに切り替えます。
2. Checkpointの指定
「Checkpoint」にはqwen_image_edit_2511_bf16.safetensorsを指定します。
3. VAE / Text Encoderの指定
「VAE / Text Encoder」にはqwen_image_vae.safetensorsとqwen_2.5_vl_7b_fp8_scaled.safetensorsを指定します。
4. Diffusion in Low Bitsの切り替え
UI右上の「Diffusion in Low Bits」は以下の基準で設定してください。
- LoRAを使用する場合:
Automatic (fp16 LoRA) - LoRAを使用しない場合:
Automatic
今回は「Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors」を使うのでAutomatic (fp16 LoRA)を使います。
5. モードの切り替え
Qwen-Image-Editはimg2imgなのでモードをtxt2imgからimg2imgに切り替えます。
6. 入力画像の指定
インプット画像1としてGenerationタブ内のimg2imgに読み込みます。
インプット画像2や3は「ImageStitch Integrated」のチェックを入れてその中に画像を読み込みます。✅今回は1枚だけですがQwen-Image-Editは最大で3枚の画像を入力できるのでこちらに2枚のインプット画像を入力できます。2枚目を入力したい場合は左下のアップロードエリアに画像を読み込んで「Append Pasted Image」ボタンで追加してください。
7. プロンプトの入力
プロンプトもComfyUIと同じプロンプトを使います。
change the furniture leather difference in image 1 to the fur material in image 2
<lora:Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16:1>
8. サンプリング/スケジューラーの指定
Forge-Neoの「qwen」プリセットのデフォルトではSampling MethodとSchedule TypeがLCM / Normalになっていますが、これもComfyUIとの比較のためにEuler / Simpleに変更します。
9. 画像サイズの指定
画像サイズも等倍で使うので画像サイズをResize toからResize byに切り替えて、Scaleを1に設定します。
10. 他のパラメーターの入力
CFG Scaleは「Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors」を使うので1に設定します。
Denoising Strengthのデフォルト値は0.95です。これを1に変更します。
以上の設定で「Generate」ボタンで生成します。結果は以下の通りです。⚠️初回生成時は前準備時間があるので以下の結果はモデルの読み込みが終わった2回目の結果です。
Nunchaku Qwen-Image-Editを使ってみる
公式のQwen-Image-Editは執筆時点ではQwen-Image-Edit-2509までしかありませんでした。
QuantFunc氏がQwen-Image-Edit-2511を公開しているのでコチラからお使いの環境に適したモデルをダウンロードしましょう。保存先は通常モデルと同じ\sd-webui-forge-neo\models\Stable-diffusionに配置します。
また、今回は使いませんが、GGUF版は以下になります。
Nunchakuのモデルについて
Nunchakuのモデルには以下のタイプがあります。お使いの環境にあったモデルを使いましょう。✅公式版ではランクが32/128の2種類のみです。
| データタイプ | ランク | 説明 |
|---|---|---|
| INT4(RTX40系や30系のGPU) | 32 | 高速・低品質 |
| 128 | バランス・中品質 | |
| 256 | 低速・高品質 | |
| NVFP4(RTX50系のGPU) | 32 | 高速・低品質 |
| 128 | バランス・中品質 | |
| 256 | 低速・高品質 |
今回はバランス型(公式の高品質ランクと同等)のnunchaku_qwen_image_edit_2511_balance_int4.safetensorsを使います。✅RTX50系をお使いの場合はnunchaku_qwen_image_edit_2511_balance_fp4.safetensorsをダウンロードします。
Nunchaku Qwen-Image-Editの使い方
通常版と同じ使い方で生成します。今回も比較のために同じ設定にしています。生成結果は以下の通りです。
Forge-Neo vs ComfyUI:Qwen-Image-Edit 2511の生成速度・品質比較
では、筆者環境(RTX3090)での生成結果をComfyUIも合わせて見てみましょう。✅ComfyUIのNunchakuはバグで入れられなかったので、代わりにSage Attentionを比較しています。




Forge-Neoの方は色温度が暖色に寄っています。逆にComfyUIの結果は色かぶり補正が緑に少しだけ寄っています。また、毛皮の表現はComfyUIの方が良く再現できていると思います。
生成時間に関しては、どちらも高速ですが、Forge-NeoのNunchaku版の方が速い結果になりました。
Forge-NeoでQwen-Image-Editの品質を上げるテクニック
以下は有料記事になりますが、Qwen-image-editの品質を上げるテクニックやQwen-Image-Editを使う際の問題点(未解決)を紹介しています。
まとめ
本記事ではForge-NeoでQwen-Image-Edit-2511をNunchaku(SVDQuant)と組み合わせて使う方法を解説しました。
- NunchakuはSVDQuantを使った4ビット量子化エンジンで、VRAMを削減しながらGGUFより高速な推論が可能です。
- Forge-Neo+Nunchaku版の生成時間は19.2秒で、通常版(34.3秒)やComfyUI通常版(32秒)と比べて大幅に高速です。
- 品質面ではComfyUIに若干劣るものの、WebUIに慣れているユーザーには十分実用的な品質です。
まだまだ、不具合はありますが、これからのアップデートで改善することを期待しています。
最後までお読みいただきありがとうございます。
もし少しでも参考になったら、ぜひ「いいね」で応援してください!




