ComfyUIでQwen-Image-Edit-2511を使う方法【カメラアングル変換LoRA対応ワークフロー】

今回はAlibabaのQwenチームが公開している「Qwen-Image-Edit」を紹介します。Qwen-Image-Editは2025年8月の初版リリースより、複数回バージョンアップが行われています。今回は執筆時の最新版の「Qwen-Image-Edit-2511」を中心に紹介します。
似たような画像編集モデルとして「FLUX.2」や「FLUX.1 Kontext」も人気ですが、Qwen-Image-EditはApache 2.0ライセンスでローカル運用がしやすく写真や商業用途を得意としつつ、イラスト系にも対応できるため、今回はこちらを紹介します。
この記事で学べる事
- Qwen-Image-Editの概要・バージョン履歴・アーキテクチャ。
- ComfyUIテンプレート「Qwen Image Edit 2511 – Material Replacement」の導入と使い方。
- GGUF・MultiAngle Camera LoRA・SeedVR2アップスケーラー対応のDCAIカスタムワークフローの解説。(💎会員限定)
- MultiAngle Camera LoRAを使ったカメラアングル変換の方法。(💎会員限定)
- Windows版SageAttentionの問題と回避方法。(💎会員限定)
Qwen-Image-Editとは
Qwenとは
Alibaba Cloudが開発する大規模モデルファミリー「Qwen」。LLM・マルチモーダルモデル・AGI関連プロジェクトを継続的にリリースするこの組織から、2025年に画像編集分野でも注目のモデルが登場しました。
Qwen-Image-EditはAlibabaのQwenチームがリリースしたQwen-Imageシリーズの画像編集特化版です。この記事の執筆時では、2回のアップデートを経た「Qwen-Image-Edit-2511」が最新版となっています。
| バージョン | リリース時期 | 主な変更点 |
|---|---|---|
| Qwen-Image-Edit | 2025年8月 | 初版リリース |
| Qwen-Image-Edit-2509 | 2025年9月 | マルチ画像編集対応、人物一貫性改善 |
| Qwen-Image-Edit-2511 | 2025年12月 | キャラクター一貫性大幅改善、LoRA統合、工業デザイン強化 |
アーキテクチャ
Qwen-Image-Editは、200億(20B)パラメーターのマルチモーダル拡散トランスフォーマー(MMDiT)であるQwen-Imageをバックボーンとして継承しています。編集タスクを実現するため、デュアルパス入力を採用しています。
具体的には、入力画像を同時に2つのエンコーダーに通します。Qwen2.5-VL(視覚言語エンコーダー)がオブジェクトのアイデンティティや場面の文脈などの高レベルセマンティクスを捉え、VAEエンコーダーが色・テクスチャ・照明といった外観情報を符号化します。この2つの潜在表現をMMDiTの拡散コアが融合することで、意味と外観を独立してコントロールしながら編集が可能になります。
主な機能
セマンティック編集(高レベル)とアピアランス編集(低レベル)の両方をサポートしています。セマンティック編集ではIPキャラクター作成・オブジェクト回転・スタイル転送などが可能で、アピアランス編集では指定領域以外を完全に保ちながら要素の追加・削除・変更ができます。
特筆すべきはテキスト編集機能で、中国語・英語のバイリンガルに対応し、画像内のテキストのフォント・サイズ・スタイルを維持したまま追加・削除・修正ができます。
Qwen-Image-Edit-2509の追加機能: 複数画像の同時編集をサポートし、「人物+人物」「人物+商品」「人物+シーン」といった組み合わせが可能になりました(最大3枚まで最適パフォーマンス)。また、単一画像の一貫性も大幅に向上しています。
Qwen-Image-Edit-2511の追加機能: コミュニティ作成の人気LoRAが追加チューニングなしでベースモデルに統合されたほか、キャラクター一貫性の大幅改善、工業製品デザインや幾何学的推論の強化が図られています。
統合された機能として公式には次の2つが明示されています(具体的なLoRA名やクリエイターは非公開)。
- ライティング強調(Lighting Enhancement): 入力画像の既存ライティングを除去し、リファレンス画像のライティングを適用する二次リライティングが可能になりました。
- 新視点合成(Novel View Synthesis): カメラアングルの移動・回転・仰角変更などが可能になりました。
なお、Qwen-Image-Editは実写写真の編集・商品写真・テキスト編集といった用途でとくに強みを発揮します。アニメ・イラスト系のスタイル完全保持を伴う編集は苦手な傾向がありますが、専用LoRAを活用することで対応できるケースもあります。
ライセンス
ライセンスは執筆時はApache 2.0で、商用利用も可能なオープンソースモデルです。✅ライセンスは変わる場合があります。生成サービス等の、モデルを使った商用利用をお考えの方は、常に最新のライセンスを確認しましょう。
ComfyUIのテンプレート「Qwen Image Edit 2511 – Material Replacement」を見てみる
まずはテンプレートから「Qwen Image Edit 2511 – Material Replacement」のワークフロー例を確認しましょう。
テンプレート一覧を開き、左側メニューのGENERATION TYPEからImageを選択します。
画像関連のテンプレートが表示されるので、「Qwen Image Edit 2511 – Material Replacement」を選択します。
テンプレートを開くと不足しているモデルが表示されます。指示に沿ってダウンロードすれば、そのまま実行できます。
公式ドキュメントは以下になります。
「Qwen Image Edit 2511 - Material Replacement」で使用するモデル
Diffusion Model Text Encoders VAE LoRA (オプション – 4-step Lightning acceleration)「Qwen Image Edit 2511 - Material Replacement」用インプット素材
Qwen Image Edit 2511 – Material Replacementで使用する2つのインプット画像は公式ドキュメントにはありませんでした。ComfyUI Cloudで開くと画像がダウンロードできます。
とにかく素材が欲しい方は以下のドライブにも同じ素材をアップロードしています。
「Qwen Image Edit 2511 - Material Replacement」のノードについて
このテンプレートはサブグラフを使ってシンプルで使いやすいレイアウトになっています。メインのサブグラフ「Image Edit(Qwen-Image 2511)」に主要なノードが配置されているので見ていきましょう。
FluxKontextImageScale
このノードはインプット画像をFlux Kontextに適したサイズにLanczosアルゴリズムを使って拡大・縮小します。
TextEncodeQwenImageEditPlus
テキスト指示と参照画像(最大3枚)を受け取り、「この画像をこう編集して」という情報をまとめてコンディショニングに変換するノードです。
テキストプロンプトと画像を組み合わせて、Qwen Image Editモデルが理解できる形式のコンディショニングデータを生成します。オプションのVAEを接続すると、入力画像からリファレンスラテント(参照画像をモデルが扱える数値の塊に変換したもの)も同時に生成します。
ModelSamplingAuraFlow
AuraFlowモデルアーキテクチャ向けに設計された特殊なサンプリング設定をモデルに適用するノードで、SD3のサンプリングフレームワークを継承しています。shiftパラメーターによってサンプリング分布を調整します。
AuraFlowを採用している理由としては、AuraFlowとSD3/SD3.5は同じ「リニアスケーリング」方式でshiftを計算します。一方、Fluxは「指数スケーリング(exponential)」方式かつ画像サイズに応じてshiftが変わります。固定shift値を指定する手段としてAuraFlowノードが一番シンプルだったから採用されているのでしょう。
CFGNorm
CFGスケールを高くしたいとき(プロンプトへの忠実度を上げたいとき)に、画質の破綻や色の飽和を抑えながら使えます。Qwen Image Editのような編集ワークフローでは、編集指示への追従度を高めつつ画像の崩れを防ぐために組み合わせて使われます。✅Lightning 4steps LoRAを使う場合はCFGが1になる為このノードの意味はありません。
Edit Model Reference Method(FluxKontextMultiReferenceLatentMethod)
「FluxKontextMultiReferenceLatentMethod」ノードはコンディショニングデータを修正し、特定のリファレンスラテント処理メソッドを設定するためのものです。
reference_latents_methodがindex_timestep_zeroなので、Flow Matching系モデルでは、タイムステップt=0は「完全にクリーンな画像(ノイズなし)」を意味します。ややこしいですが、要は「このリファレンス画像はノイズがかかっていない完成品です。」とモデルに教えながら、生成を進めるノードです。
Switch
条件によって2つの入力のどちらかを選んで出力する分岐ノードです。以前はカスタムノードのCrystoolsなどを使っていましたが、現在はコアノードとして採用されています。
「Qwen Image Edit 2511 - Material Replacement」の使い方
では、ワークフローを使っていきましょう。⚠️はじめに注意してほしいのが、WindowsでSageAttention 2.2を導入したComfyUIをお使いの場合は生成結果が真っ黒になります。ComfyUIの起動コマンドの--use-sage-attentionを消して、SageAttentionを無効化しましょう。✅SageAttentionをQwen Image Editに適用させる方法もありますが、後ほどの有料記事内で解説しています。
では、手順を見ていきましょう。
- インプット画像の読み込み:ダウンロードしたソファの画像を上部の「Load Image」に読み込みます。そして、ファーテクスチャーの画像を下段に読み込みます。
-
プロンプトの入力:編集したい指示を入力します。サンプルでは以下のようになっています。
Change the furniture leather difference in image 1 to the fur material in image 2. - Lightning 4Step LoRAの有効・無効化:プロンプトの次のvalueをTrueでLightning 4step LoRAを有効化します。
- モデルの読み込み:unet/text-encorder/vae/loraにそれぞれ対応したモデルが読み込まれているか確認します。
- グラフの実行:最後に「Run」ボタンでグラフが実行されます。しばらく待つと編集された画像が生成されます。
生成結果
通常の40stepsとLightning 4Step LoRAの結果です。同じシードを使っていますがファーテクスチャの違いが大きく出ています。生成時間は筆者環境(RTX3090)での時間です。


参考までに以下がSage Attentionを使った結果です。こちらも同じシードを使っています。若干ですが、40stepsに品質の劣化が見られます。


DCAI Qwen Image Edit 2511 + Multi-Angle Camera LoRAの紹介
今回はこのQwen Image Edit 2511 – Material ReplacementテンプレートをカスタムしてQwen Image Edit 2511の汎用ワークフローに作り変えます。カスタム箇所は以下になります。
- GGUF対応:
- Multiangle Cameraの導入:
- SeedVR2 Video Upscalerの導入:
- Windows版 Sage Attentionの対応:
ワークフローやインプット素材はPatreonで公開しています。有料サポーター様のみ閲覧・ダウンロードが可能です。
生成サンプル
キャラクター画像と背景画像を合成してさらにアングルを変更しました。
まとめ
Qwen-Image-Edit-2511は、Apache 2.0ライセンスで商用利用も可能な画像編集特化モデルです。20BパラメーターのMMDiTアーキテクチャによるデュアルパス処理で、意味と外観を独立してコントロールしながら編集できます。実写・商品写真・テキスト編集に強みを持ちつつ、イラスト系にも十分対応できることがわかりました。
今回はComfyUIのテンプレートを出発点に、GGUF・MultiAngle Camera LoRA・SeedVR2アップスケーラー・Windows版SageAttention対応を組み込んだDCAIカスタムワークフローを紹介しました。ComfyUIのネイティブサポートにより、モデルのダウンロードからワークフロー実行まで手順が整備されており、比較的導入しやすいモデルと考えられます。ワークフローやインプット素材はPatreonで公開していますので、ぜひ活用してみてください。
最後までお読みいただきありがとうございます。
もし少しでも参考になったら、ぜひ「いいね」で応援してください!



