DCAI
Loading Light/Dark Toggl

Wan 2.2基礎ガイド:ComfyUIで始める高品質AI動画生成ワークフロー

⏱️22min read
📅 2025年10月23日
Wan 2.2基礎ガイド:ComfyUIで始める高品質AI動画生成ワークフローのメイン画像

今回はAI動画のWan 2.2の使い方を整理します。執筆時点では生成AI界隈でも動画生成が主流になっており、DCAIでも以前「ComfyUI-AnimateDiff-Evolved」をオススメのカスタムノードとして紹介しました。当時はローカルで扱える動画生成モデルが限られ、SoraやRunway、Luma AIなどのオンライン生成が主力でしたが、その後はTencentのHunyuanなどローカル実行可能な優秀なモデルが次々と登場しています。今回取り上げるのはAlibaba Cloudが公開したオープンソース動画生成スイート「🔗Wan 2.2」です。オープンソースで扱える動画生成モデルとしては現状トップクラスと言えるでしょう。WanはAI動画編集スイートですが、有料のオンデマンド生成やAPIを使ったオンライン利用と、無料で使えるローカル実行のオープンソースと大きく二通りの使い方があります。ローカル実行には現状ComfyUIとSwarmUIが対応していますが、本記事ではComfyUIを使った生成手順を紹介します。公式ガイドを踏まえたうえで、安定性を高めるテクニックまで掘り下げます。まずはWanの基礎を押さえ、続いてワークフローを発展させて「高品質な動画」を目指しましょう。

WAN Video Generationとは

「Wan 2.2」は、高ノイズ(初期段)、低ノイズ(終段)の二段構成による Mixture-of-Experts(MoE) 設計を採用した拡散Transformerベースの大規模動画生成モデルです(A14Bモデルのみ)。テキストや参照画像を入力することで、シネマティックで高品質な動画を生成できます。論文「🔗Wan: Open and Advanced Large-Scale Video Generative Models」で報告された新しいVAE構造やスケーリング手法も、ComfyUI環境でそのまま活用可能です。

  • 対応タスク:テキスト→動画(T2V)、画像→動画(I2V)、音声→動画(S2V)をサポート
  • 標準解像度:T2V/I2Vは480p〜720p、TI2V-5Bは720p@24fpsに最適化
  • モデル構成:A14BのMoEモデル(T2V/I2V)と5BのハイブリッドTI2Vモデル、Wan 2.2(TI2V-5B)専用VAEが提供される
  • 必要GPUメモリ:T2V/I2V/S2V-A14Bモデルの推奨は80GBクラスだが、ComfyOrgのFP8リパッケージを使えばRTX 4090(24GB)でもオフロード実行可能。TI2V-5Bは24GBが目安

Wan 2.1との比較

Wan 2.2ではMoEアーキテクチャに加え、Wan 2.1比で画像データが65.6%、動画データが83.2%増えた学習セットを使用しています。5Bモデルには16×16×4圧縮の新VAEが導入され、720p@24fpsの動画を生成できるようになりました。(🔗Wan2.2 READMEより)

WANの環境構築

WAN Video Generationワークフローを動かすには、モデルファイルを正しいフォルダーに配置する必要があります。ComfyUIを最新バージョンへアップデートしたうえで、下記の順序でセットアップしてください。

最近のComfyUIは不安定です。フロントとコアの整合が取り切れていないのか、バグが多い気がします。筆者環境ではWan関連のインストールだけで既存環境が壊れ、クリーンインストールを余儀なくされました。現在のComfyUI環境を守りたい場合は必ずバックアップを取った後にインストールするか、新しいComfyUI Portalを用意して別環境として構築することをオススメします。

モデルのダウンロード

Hugging Faceの「Comfy-Org/Wan_2.2_ComfyUI_Repackaged」から下記ファイルを取得し、ComfyUI/models配下に配置します。

⚠️T2V-A14B/I2V-A14BモデルはHigh NoiseとLow Noiseの二種がセットです。SDXLのベースとリファイナーの関係に近く、High Noiseで推論を始め、途中からLow Noiseへ切り替えることで仕上がりを整えます。

  • T2V A14B: wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors + wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors(FP16版も同梱されているため、メモリに余裕があれば切り替え可能)
  • I2V A14B: wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors + wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors。精度重視なら対応するFP16版(..._fp16.safetensors)を利用します。
  • TI2V 5B/S2V 14B: wan2.2_ti2v_5B_fp16.safetensorswan2.2_s2v_14B_fp8_scaled.safetensorsなど、用途別モデルも同リポジトリにまとめられています。
  • LoRA: wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors + wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensorsに加え、I2V用のwan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors + wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensorsも利用可能です。
  • Text Encoder: umt5_xxl_fp16.safetensorsまたは、軽量モデルのumt5_xxl_fp8_e4m3fn_scaled.safetensors
  • Audio Encoder: 音声駆動を使う場合はwav2vec2_large_english_fp16.safetensors
  • VAE: A14Bモデルはwan_2.1_vae.safetensors、5Bモデルはwan2.2_vae.safetensorsを使用します。

配置例:

ComfyUI/
├── 📁 models/
│   ├── 📁 audio_encoders/
│   │   └── wav2vec2_large_english_fp16.safetensors
│   ├── 📁 diffusion_models/
│   │   ├── wan2.2_t2v_high_noise_14B_fp8_scaled.safetensors
│   │   ├── wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
│   │   ├── wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors
│   │   ├── wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors
│   │   ├── wan2.2_ti2v_5B_fp16.safetensors
│   │   └── wan2.2_s2v_14B_fp8_scaled.safetensors
│   ├── 📁 loras/
│   │   ├── wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors
│   │   ├── wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensors
│   │   ├── wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors
│   │   └── wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors
│   ├── 📁 text_encoders/
│   │   ├── umt5_xxl_fp8_e4m3fn_scaled.safetensors
│   │   └── umt5_xxl_fp16.safetensors
│   └── 📁 vae/
│       ├── wan_2.1_vae.safetensors
│       └── wan2.2_vae.safetensors

ComfyUI_examplesのサンプル5B Model(TI2V)を見てみる

ComfyUI_examplesのサンプル5B Model(TI2V) 

ComfyUI_examplesの「Wan 2.2 Models」には、Wan 2.2を使った動画生成の基本ワークフローが用意されています。本節ではそのワークフローを土台に、テキスト+画像→動画(TI2V)の5Bモデルで720p動画を生成する構成を解説します。構成はシンプルで、テキストのみの生成とスタート画像を使ったI2Vのどちらにも対応しています。

Image to Videoのサンプルを読み込むとText to Videoの流れも把握できます。サンプル画像をダウンロードしてComfyUIへドラッグ&ドロップするか、画像下部の「Workflow in Json format」を右クリックで保存し、JSONファイルとして読み込んでください。

インプット画像は🔗こちらから入手できます。

モデルの読み込み

  • UNETLoader:Diffusion本体としてwan2.2_ti2v_5B_fp16.safetensorsを読み込みます。TI2Vモデルはテキストと画像の両方を条件にでき、720p@24fpsに最適化されています。(480pは対応していません。)
  • ModelSamplingSD3:Stable Diffusion 3向けのノードですが、サンプリング再構成用として流用されています。この値でノイズ量を調節します。
  • CLIPLoader:テキスト条件付けにはumt5_xxl_fp8_e4m3fn_scaled.safetensors(タイプwan)を使用。Wan 2.2が採用するT5/CLIPハイブリッドに対応している点が重要です。
  • VAELoader:復号には最新のwan2.2_vae.safetensorsを指定し、色再現とディテールを向上させています。

「ModelSamplingSD3」(実体はCONSTヘッド+ModelSamplingDiscreteFlow)は、内部の time_snr_shift により各ステップの「ノイズ除去の進み方(ノイズが減っていく時間カーブ)」を再マッピングします。 サンプラーは eulerheundpmpp_2muni_pc などを選べますが、「常に dpmpp_2m または uni_pc が最良」とは限らず、モデル種別・解像度・ステップ数によって最適は変わります。

✅なおshiftを下げるほど初期のノイズの比重が相対的に高くなり変化が出やすく、上げるほど後半が落ち着きやすく静的・細部寄りになりやすい傾向があります(環境依存/未確認の要素を含みます)。

「Lightning LoRA」など少ないステップで生成する場合は影響が相対的に弱まるため、ディテール重視なら9前後まで上げ、モーションを大きく(動的表現を強く)したければ6付近まで下げるといった微調整でバランスを取ると良いでしょう。

プロンプト

Wanのテキストエンコーダーとしてバイリンガル対応のumt5_xxlを採用しています。英語または中国語(簡体字)でプロンプト入力します。

  • Positive Prompt:a cute anime girl with fennec ears and a fluffy tail walking in a beautiful fieldのようにシーン構造とアクションを明確に記述します。
  • Negative Prompt:中国語で破綻を抑える語句が多数登録されており、色飽和・歪み・手足の欠損などを防ぎます。

初期潜在と尺設定

Wan22ImageToVideoLatentノードで解像度とフレーム数を指定します。テンプレート値は1280×704length=41batch_size=1です。右下のメモノードが示す通り、本来はフレーム数121が推奨ですが、初回プレビューを高速化するために短めに設定されています。I2Vを行う場合はstart_imageに静止画を接続し、テキストオンリーで生成したい場合は未接続のままで構いません。

サンプリング

KSamplerノードが生成の中心です。

  • Steps:30
  • CFG:5(高くし過ぎるとちらつきが増えるため注意)
  • Sampler:simplecomfy/samplers.pyの簡易スケジューラ。ModelSamplingSD3が持つsigmas配列からステップ数に応じて等間隔に値を抜き出すため、Wan 2.2用に配布されたノイズカーブを崩さずに利用できます)
  • Scheduler:uni_pc
  • Seed:randomizeが有効なため、毎回異なる動画が生成されます。固定したい場合はcontrol after generateをfixedに変更しましょう。
  • Denoise:1.0 ⚠️I2Vでこの値を下げても元画像を維持するわけではありません。常に1.0で使いましょう。

デコードと書き出し

  • VAEDecode:Wan2.2 VAEで潜在をフレーム画像へ変換。
  • SaveAnimatedWEBP:24fps・画質80で連番をアニメーションWebPに書き出し、軽量なプレビューを得ます。
  • SaveWEBM:vp9コーデックで同じ24fpsのWebMを同時出力。crf (bitrate)は約16Mbpsに設定されており、高品質な最終素材として利用できます。

Wan2.2 5B Model単体では、安定してハイエンド品質の動画を得るのは難しいのが実情です。ただし軽量で扱いやすく、低スペックPCでも動作させやすいため、Wanを試す際の入門モデルとして活用できます。

ComfyUI_examplesのサンプルA14B Model(I2V)モデルを見てみる

ComfyUI_examplesのサンプルA14B Model(I2V) 

基本的には先ほどの5Bモデルと変わりません。違う点といえばA14BモデルはHigh NoiseとLow NoiseがあるのでSDXLのリファイナーの様に途中でサンプラーを切り替える必要があります。

サンプリング

KSampler (Advanced)ノードを2回使います。公式の推奨設定で生成50%の段階でLow Noiseに移ります。

1回目

  • Add Noise:enable
  • Seed:randomize
  • Steps:20
  • CFG:3.5
  • Sampler:euler
  • Scheduler:simple
  • Start at step:0
  • End at step:10(指定してステップで、終了します)
  • Return with leftover noise:enable(途中のステップで処理を止めた時点のノイズを latent に残したまま出力するためのオプション)

2回目

  • Add Noise:disable(1回目のノイズを引き継ぐため無効)
  • Seed:fixed
  • Steps:20
  • CFG:3.5
  • Sampler:euler
  • Scheduler:simple
  • Start at step:10(指定したステップから、開始します)
  • End at step:10000
  • Return with leftover noise:disable

A14B Modelの例ではサンプラーにeulersimpleスケジューラの組み合わせが指定されています。simpleModelSamplingSD3が内部にもつsigmas配列をそのまま均等サンプリングする方式で、Wanチームが公開したトレーニングスケジュールと一致させるために必須とされています。他のスケジューラ(normalkarrasexponentialsgm_uniformbetalinear_quadratickl_optimalなど)もUIで選択できますが、時間SNRシフトの形状が変わりモーションが破綻しやすくなるため、テスト目的以外では推奨されません。代わりにサンプラー側をdpmpp_2mdpmpp_2m_sdeへ切り替えると若干滑らかさが変化しますが、いずれもsimpleスケジューラとペアで使うのが安全です。

Wan2.2の生成時間について

Wan2.2 A14BモデルはFP8版であっても5Bモデルより生成に時間が掛かります。サンプルのWan2.2 A14B I2V構成ではRTX 3090で約45分かかりましたが、MoEを採用するWan2.2 A14Bは品質面で優位です。同じ設定でWan2.2 5Bモデルを使うと生成時間は約3分に短縮できたものの、花束が突然銃へ変形してしまうなど実用に耐えない結果になりました。

Wan 2.2 A14Bをローカルで運用する場合は、GGUFモデルの活用やLightning 4step LoRAとの併用が現実的です。WindowsユーザーはLinuxより導入手順が多いものの、対応GPUならSage Attentionを導入することで推論時間を大幅に短縮できます。

Wan 2.2 A14Bモデルを快適に運用したい場合は、RunpodなどクラウドGPUサービスの活用も視野に入れてください。

Wan2.2のプロンプト設計

動画生成ではフレーム間の整合性が重要なため、プロンプトは「シーンの骨格」と「演出キーワード」を分けて記述します。以下はT2V向けの推奨テンプレートです。

{main_subject}, {outfit_detail}, shot on anamorphic lens, cinematic lighting, soft rim light, depth of field, trending on artstation
Negative prompt: motion blur, duplicated limbs, distorted face, overexposed, low detail background

主要キー(被写体や衣装など)はプロンプト冒頭に置き、演出系キーワードは末尾へまとめることでブレを抑えられます。Negative promptには「motion blur」「duplicated limbs」など破綻リスクの高い語句を優先的に入れましょう。

I2Vの場合は、参照画像の段階で被写体・シーン・スタイルが固まっているため、プロンプトでは動きとカメラワークの指示に集中するのが効果的です。

🔗Easy Creation with One Click – AI Videos」に公式ガイドが公開されているので、参照すると良いでしょう。

公式ワークフローをカスタムする

ここからはComfyUI公式のWan 2.2ワークフローを土台に、高品質の映像を目指すための改良手法を紹介します。5BとA14Bモデルのカスタムをそれぞれ紹介します。カスタム内容は以下の通りです。

  • 推論の軽量化:FP16やFP8が重くて生成できなかったり、時間が掛かりすぎたりするのを回避します。
  • 動画のループ化:動画をシームレスな無限ループにします。
  • AIモデルを使った高解像度化:SDXLやFlux.1のような2ndパスはWAN2.2では出来ないので、アップスケールモデルを使った拡大をします。
  • フレーム補完:16FPS(A14B)や24FPS(5B)をフレーム補完を使って動画を滑らかにします。
  • 動画の縦横切り替え:指定した解像度の縦・横をボタン一つで切り替えします。

ワークフローはPatreonで公開していますが、有料サポーター様のみ閲覧・ダウンロードが可能となっています。

このカスタムワークフローで生成した動画サンプルがこちらです。

サンプルはWan2.2-I2V-5BモデルとWan2.2-I2V-A14Bモデル、それぞれのカスタムワークフローで生成しており、ComfyUIの標準設定(追加オプション--use-sage-attention--fastは無効)を前提に出力しています。アップスケール処理を除けば、いずれもおおよそ10分で生成できました。

Wan2.2-I2V-5Bモデルのサンプル

Wan2.2-I2V-A14Bモデルのサンプル

🔒この内容は有料サポーター様限定です。有料サポーターの方はログインすると閲覧することができます。

プロ向けの運用Tips

ここからは生成AI動画制作時に使えるプロ向けの技法を下記の2点紹介します。

  • フレームを画像として書き出す
  • ストーリーボード的に動画を生成する

これらのTipsを活用すると、下記のように高品質な動画へ仕上げられます。

ポスト処理でカラーグレーディングとロゴ入れをしています。

🔒この内容は有料サポーター様限定です。有料サポーターの方はログインすると閲覧することができます。

さらなる高速化をめざす

本文でも触れてきたSage Attentionの導入に加え、kijai氏が公開している「ComfyUI-WanVideoWrapper」を使うと制御項目をさらに細かく設定できます。今回は概要のみの紹介ですが、詳細な手順は別記事で解説する予定です。

まとめ

Wan 2.2はA14Bモデルを軸に、高品質な映像制作をローカル環境で実現できる強力なスイートです。ComfyUIではモデル配置とカスタムノードの導入、High/Low切り替えやGGUF/Lightning LoRAの活用を押さえることで、安定性と速度を両立できます。プロンプト設計やループ生成の手順を丁寧に整え、アップスケールやフレーム補完、外部ツールとの連携まで組み合わせれば、実務レベルの動画制作フローを構築できるでしょう。

最後までお読みいただきありがとうございます。

もし少しでも参考になったら、ぜひ「いいね」で応援してください!