Wan 2.2基礎ガイド:ComfyUIで始める高品質AI動画生成ワークフロー

今回はAI動画のWan 2.2の使い方を整理します。執筆時点では生成AI界隈でも動画生成が主流になっており、DCAIでも以前「ComfyUI-AnimateDiff-Evolved」をオススメのカスタムノードとして紹介しました。当時はローカルで扱える動画生成モデルが限られ、SoraやRunway、Luma AIなどのオンライン生成が主力でしたが、その後はTencentのHunyuanなどローカル実行可能な優秀なモデルが次々と登場しています。今回取り上げるのはAlibaba Cloudが公開したオープンソース動画生成スイート「🔗Wan 2.2」です。オープンソースで扱える動画生成モデルとしては現状トップクラスと言えるでしょう。WanはAI動画編集スイートですが、有料のオンデマンド生成やAPIを使ったオンライン利用と、無料で使えるローカル実行のオープンソースと大きく二通りの使い方があります。ローカル実行には現状ComfyUIとSwarmUIが対応していますが、本記事ではComfyUIを使った生成手順を紹介します。公式ガイドを踏まえたうえで、安定性を高めるテクニックまで掘り下げます。まずはWanの基礎を押さえ、続いてワークフローを発展させて「高品質な動画」を目指しましょう。
WAN Video Generationとは
「Wan 2.2」は、高ノイズ(初期段)、低ノイズ(終段)の二段構成による Mixture-of-Experts(MoE) 設計を採用した拡散Transformerベースの大規模動画生成モデルです(A14Bモデルのみ)。テキストや参照画像を入力することで、シネマティックで高品質な動画を生成できます。論文「🔗Wan: Open and Advanced Large-Scale Video Generative Models」で報告された新しいVAE構造やスケーリング手法も、ComfyUI環境でそのまま活用可能です。
- 対応タスク:テキスト→動画(T2V)、画像→動画(I2V)、音声→動画(S2V)をサポート
- 標準解像度:T2V/I2Vは480p〜720p、TI2V-5Bは720p@24fpsに最適化
- モデル構成:A14BのMoEモデル(T2V/I2V)と5BのハイブリッドTI2Vモデル、Wan 2.2(TI2V-5B)専用VAEが提供される
- 必要GPUメモリ:T2V/I2V/S2V-A14Bモデルの推奨は80GBクラスだが、ComfyOrgのFP8リパッケージを使えばRTX 4090(24GB)でもオフロード実行可能。TI2V-5Bは24GBが目安
Wan 2.1との比較
Wan 2.2ではMoEアーキテクチャに加え、Wan 2.1比で画像データが65.6%、動画データが83.2%増えた学習セットを使用しています。5Bモデルには16×16×4圧縮の新VAEが導入され、720p@24fpsの動画を生成できるようになりました。(🔗Wan2.2 READMEより)
WANの環境構築
WAN Video Generationワークフローを動かすには、モデルファイルを正しいフォルダーに配置する必要があります。ComfyUIを最新バージョンへアップデートしたうえで、下記の順序でセットアップしてください。
最近のComfyUIは不安定です。フロントとコアの整合が取り切れていないのか、バグが多い気がします。筆者環境ではWan関連のインストールだけで既存環境が壊れ、クリーンインストールを余儀なくされました。現在のComfyUI環境を守りたい場合は必ずバックアップを取った後にインストールするか、新しいComfyUI Portalを用意して別環境として構築することをオススメします。
モデルのダウンロード
Hugging Faceの「Comfy-Org/Wan_2.2_ComfyUI_Repackaged」から下記ファイルを取得し、ComfyUI/models
配下に配置します。
⚠️T2V-A14B/I2V-A14BモデルはHigh NoiseとLow Noiseの二種がセットです。SDXLのベースとリファイナーの関係に近く、High Noiseで推論を始め、途中からLow Noiseへ切り替えることで仕上がりを整えます。
- T2V A14B:
wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
+wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
(FP16版も同梱されているため、メモリに余裕があれば切り替え可能) - I2V A14B:
wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
+wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
。精度重視なら対応するFP16版(..._fp16.safetensors
)を利用します。 - TI2V 5B/S2V 14B:
wan2.2_ti2v_5B_fp16.safetensors
、wan2.2_s2v_14B_fp8_scaled.safetensors
など、用途別モデルも同リポジトリにまとめられています。 - LoRA:
wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors
+wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensors
に加え、I2V用のwan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
+wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
も利用可能です。 - Text Encoder:
umt5_xxl_fp16.safetensors
または、軽量モデルのumt5_xxl_fp8_e4m3fn_scaled.safetensors
。 - Audio Encoder: 音声駆動を使う場合は
wav2vec2_large_english_fp16.safetensors
。 - VAE: A14Bモデルは
wan_2.1_vae.safetensors
、5Bモデルはwan2.2_vae.safetensors
を使用します。
配置例:
ComfyUI/
├── 📁 models/
│ ├── 📁 audio_encoders/
│ │ └── wav2vec2_large_english_fp16.safetensors
│ ├── 📁 diffusion_models/
│ │ ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│ │ ├── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│ │ ├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
│ │ ├── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
│ │ ├── wan2.2_ti2v_5B_fp16.safetensors
│ │ └── wan2.2_s2v_14B_fp8_scaled.safetensors
│ ├── 📁 loras/
│ │ ├── wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors
│ │ ├── wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensors
│ │ ├── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│ │ └── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│ ├── 📁 text_encoders/
│ │ ├── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│ │ └── umt5_xxl_fp16.safetensors
│ └── 📁 vae/
│ ├── wan_2.1_vae.safetensors
│ └── wan2.2_vae.safetensors
ComfyUI_examplesのサンプル5B Model(TI2V)を見てみる


ComfyUI_examplesの「Wan 2.2 Models」には、Wan 2.2を使った動画生成の基本ワークフローが用意されています。本節ではそのワークフローを土台に、テキスト+画像→動画(TI2V)の5Bモデルで720p動画を生成する構成を解説します。構成はシンプルで、テキストのみの生成とスタート画像を使ったI2Vのどちらにも対応しています。
Image to Videoのサンプルを読み込むとText to Videoの流れも把握できます。サンプル画像をダウンロードしてComfyUIへドラッグ&ドロップするか、画像下部の「Workflow in Json format」を右クリックで保存し、JSONファイルとして読み込んでください。
インプット画像は🔗こちらから入手できます。
モデルの読み込み
- UNETLoader:Diffusion本体として
wan2.2_ti2v_5B_fp16.safetensors
を読み込みます。TI2Vモデルはテキストと画像の両方を条件にでき、720p@24fpsに最適化されています。(480pは対応していません。) - ModelSamplingSD3:Stable Diffusion 3向けのノードですが、サンプリング再構成用として流用されています。この値でノイズ量を調節します。
- CLIPLoader:テキスト条件付けには
umt5_xxl_fp8_e4m3fn_scaled.safetensors
(タイプwan
)を使用。Wan 2.2が採用するT5/CLIPハイブリッドに対応している点が重要です。 - VAELoader:復号には最新の
wan2.2_vae.safetensors
を指定し、色再現とディテールを向上させています。
「ModelSamplingSD3」(実体はCONSTヘッド+ModelSamplingDiscreteFlow)は、内部の time_snr_shift
により各ステップの「ノイズ除去の進み方(ノイズが減っていく時間カーブ)」を再マッピングします。 サンプラーは euler
/heun
/dpmpp_2m
/uni_pc
などを選べますが、「常に dpmpp_2m
または uni_pc
が最良」とは限らず、モデル種別・解像度・ステップ数によって最適は変わります。
✅なおshift
を下げるほど初期のノイズの比重が相対的に高くなり変化が出やすく、上げるほど後半が落ち着きやすく静的・細部寄りになりやすい傾向があります(環境依存/未確認の要素を含みます)。
「Lightning LoRA」など少ないステップで生成する場合は影響が相対的に弱まるため、ディテール重視なら9前後まで上げ、モーションを大きく(動的表現を強く)したければ6付近まで下げるといった微調整でバランスを取ると良いでしょう。
プロンプト
Wanのテキストエンコーダーとしてバイリンガル対応のumt5_xxlを採用しています。英語または中国語(簡体字)でプロンプト入力します。
- Positive Prompt:
a cute anime girl with fennec ears and a fluffy tail walking in a beautiful field
のようにシーン構造とアクションを明確に記述します。 - Negative Prompt:中国語で破綻を抑える語句が多数登録されており、色飽和・歪み・手足の欠損などを防ぎます。
初期潜在と尺設定
Wan22ImageToVideoLatent
ノードで解像度とフレーム数を指定します。テンプレート値は1280×704
、length=41
、batch_size=1
です。右下のメモノードが示す通り、本来はフレーム数121が推奨ですが、初回プレビューを高速化するために短めに設定されています。I2Vを行う場合はstart_image
に静止画を接続し、テキストオンリーで生成したい場合は未接続のままで構いません。
サンプリング
KSampler
ノードが生成の中心です。
- Steps:30
- CFG:5(高くし過ぎるとちらつきが増えるため注意)
- Sampler:
simple
(comfy/samplers.py
の簡易スケジューラ。ModelSamplingSD3
が持つsigmas
配列からステップ数に応じて等間隔に値を抜き出すため、Wan 2.2用に配布されたノイズカーブを崩さずに利用できます) - Scheduler:
uni_pc
- Seed:
randomize
が有効なため、毎回異なる動画が生成されます。固定したい場合はcontrol after generateをfixed
に変更しましょう。 - Denoise:1.0 ⚠️I2Vでこの値を下げても元画像を維持するわけではありません。常に
1.0
で使いましょう。
デコードと書き出し
- VAEDecode:Wan2.2 VAEで潜在をフレーム画像へ変換。
- SaveAnimatedWEBP:24fps・画質80で連番をアニメーションWebPに書き出し、軽量なプレビューを得ます。
- SaveWEBM:
vp9
コーデックで同じ24fpsのWebMを同時出力。crf (bitrate)
は約16Mbpsに設定されており、高品質な最終素材として利用できます。
Wan2.2 5B Model単体では、安定してハイエンド品質の動画を得るのは難しいのが実情です。ただし軽量で扱いやすく、低スペックPCでも動作させやすいため、Wanを試す際の入門モデルとして活用できます。
ComfyUI_examplesのサンプルA14B Model(I2V)モデルを見てみる

基本的には先ほどの5Bモデルと変わりません。違う点といえばA14BモデルはHigh NoiseとLow NoiseがあるのでSDXLのリファイナーの様に途中でサンプラーを切り替える必要があります。
サンプリング
KSampler (Advanced)
ノードを2回使います。公式の推奨設定で生成50%の段階でLow Noiseに移ります。
1回目
- Add Noise:enable
- Seed:
randomize
- Steps:20
- CFG:3.5
- Sampler:
euler
- Scheduler:
simple
- Start at step:0
- End at step:10(指定してステップで、終了します)
- Return with leftover noise:enable(途中のステップで処理を止めた時点のノイズを latent に残したまま出力するためのオプション)
2回目
- Add Noise:disable(1回目のノイズを引き継ぐため無効)
- Seed:
fixed
- Steps:20
- CFG:3.5
- Sampler:
euler
- Scheduler:
simple
- Start at step:10(指定したステップから、開始します)
- End at step:10000
- Return with leftover noise:disable
A14B Modelの例ではサンプラーにeuler
とsimple
スケジューラの組み合わせが指定されています。simple
はModelSamplingSD3
が内部にもつsigmas
配列をそのまま均等サンプリングする方式で、Wanチームが公開したトレーニングスケジュールと一致させるために必須とされています。他のスケジューラ(normal
、karras
、exponential
、sgm_uniform
、beta
、linear_quadratic
、kl_optimal
など)もUIで選択できますが、時間SNRシフトの形状が変わりモーションが破綻しやすくなるため、テスト目的以外では推奨されません。代わりにサンプラー側をdpmpp_2m
やdpmpp_2m_sde
へ切り替えると若干滑らかさが変化しますが、いずれもsimple
スケジューラとペアで使うのが安全です。
Wan2.2の生成時間について
Wan2.2 A14BモデルはFP8版であっても5Bモデルより生成に時間が掛かります。サンプルのWan2.2 A14B I2V構成ではRTX 3090で約45分かかりましたが、MoEを採用するWan2.2 A14Bは品質面で優位です。同じ設定でWan2.2 5Bモデルを使うと生成時間は約3分に短縮できたものの、花束が突然銃へ変形してしまうなど実用に耐えない結果になりました。
Wan 2.2 A14Bをローカルで運用する場合は、GGUFモデルの活用やLightning 4step LoRAとの併用が現実的です。WindowsユーザーはLinuxより導入手順が多いものの、対応GPUならSage Attention
を導入することで推論時間を大幅に短縮できます。
Wan 2.2 A14Bモデルを快適に運用したい場合は、RunpodなどクラウドGPUサービスの活用も視野に入れてください。
Wan2.2のプロンプト設計
動画生成ではフレーム間の整合性が重要なため、プロンプトは「シーンの骨格」と「演出キーワード」を分けて記述します。以下はT2V向けの推奨テンプレートです。
{main_subject}, {outfit_detail}, shot on anamorphic lens, cinematic lighting, soft rim light, depth of field, trending on artstation
Negative prompt: motion blur, duplicated limbs, distorted face, overexposed, low detail background
主要キー(被写体や衣装など)はプロンプト冒頭に置き、演出系キーワードは末尾へまとめることでブレを抑えられます。Negative promptには「motion blur」「duplicated limbs」など破綻リスクの高い語句を優先的に入れましょう。
I2Vの場合は、参照画像の段階で被写体・シーン・スタイルが固まっているため、プロンプトでは動きとカメラワークの指示に集中するのが効果的です。
「🔗Easy Creation with One Click – AI Videos」に公式ガイドが公開されているので、参照すると良いでしょう。
公式ワークフローをカスタムする
ここからはComfyUI公式のWan 2.2ワークフローを土台に、高品質の映像を目指すための改良手法を紹介します。5BとA14Bモデルのカスタムをそれぞれ紹介します。カスタム内容は以下の通りです。
- 推論の軽量化:FP16やFP8が重くて生成できなかったり、時間が掛かりすぎたりするのを回避します。
- 動画のループ化:動画をシームレスな無限ループにします。
- AIモデルを使った高解像度化:SDXLやFlux.1のような2ndパスはWAN2.2では出来ないので、アップスケールモデルを使った拡大をします。
- フレーム補完:16FPS(A14B)や24FPS(5B)をフレーム補完を使って動画を滑らかにします。
- 動画の縦横切り替え:指定した解像度の縦・横をボタン一つで切り替えします。
ワークフローはPatreonで公開していますが、有料サポーター様のみ閲覧・ダウンロードが可能となっています。

このカスタムワークフローで生成した動画サンプルがこちらです。
サンプルはWan2.2-I2V-5BモデルとWan2.2-I2V-A14Bモデル、それぞれのカスタムワークフローで生成しており、ComfyUIの標準設定(追加オプション--use-sage-attention
・--fast
は無効)を前提に出力しています。アップスケール処理を除けば、いずれもおおよそ10分で生成できました。
Wan2.2-I2V-5Bモデルのサンプル
Wan2.2-I2V-A14Bモデルのサンプル
プロ向けの運用Tips
ここからは生成AI動画制作時に使えるプロ向けの技法を下記の2点紹介します。
- フレームを画像として書き出す
- ストーリーボード的に動画を生成する
これらのTipsを活用すると、下記のように高品質な動画へ仕上げられます。
ポスト処理でカラーグレーディングとロゴ入れをしています。
さらなる高速化をめざす
本文でも触れてきたSage Attention
の導入に加え、kijai氏が公開している「ComfyUI-WanVideoWrapper」を使うと制御項目をさらに細かく設定できます。今回は概要のみの紹介ですが、詳細な手順は別記事で解説する予定です。
まとめ
Wan 2.2はA14Bモデルを軸に、高品質な映像制作をローカル環境で実現できる強力なスイートです。ComfyUIではモデル配置とカスタムノードの導入、High/Low切り替えやGGUF/Lightning LoRAの活用を押さえることで、安定性と速度を両立できます。プロンプト設計やループ生成の手順を丁寧に整え、アップスケールやフレーム補完、外部ツールとの連携まで組み合わせれば、実務レベルの動画制作フローを構築できるでしょう。
最後までお読みいただきありがとうございます。
もし少しでも参考になったら、ぜひ「いいね」で応援してください!