LTX-2.3(LTX Video)基本ガイド:ComfyUIでの環境構築から高品質動画生成まで

今回はAI動画の「LTX Video 2.3」の使い方を紹介します。LTX VideoはアプリのVideoleapやPhotoleapで有名なイスラエルの🔗Lightricksが公開したAPIとオープンソースの動画生成モデルで、DiTベースのアーキテクチャながら比較的軽量に動作する点が大きな特徴です。動画生成モデルとしてはWan 2.2やHunyuanと並ぶ有力な選択肢となっています。今回紹介する2026年3月にリリースされたLTX-2.3は、22Bパラメーターのオープンウェイトモデルとして動画と音声の同時生成を実現し、現状のオープンソースモデルの中でトップクラスの性能を誇ります。本記事ではComfyUIの公式テンプレートを使った生成手順を紹介します。まずLTX-2.3の基礎を押さえ、続いてワークフローを発展させて「高品質な動画」を目指しましょう。
この記事で学べる事
- LTX-2.3の特徴とWan 2.2やHunyuanとの違い
- ComfyUIでのLTX-2.3の環境構築とモデルのダウンロード方法
- ComfyUI公式テンプレート「LTX-2.3: Image to Video」の使い方
- LTX-2.3向けプロンプトの書き方とコツ
- WAN2.2との生成速度・品質の比較
- 高品質な動画を目指すカスタムワークフローの活用方法(💎会員限定)
- 高解像度生成時に発生するノイズや色のドリフトの対処法(💎会員限定)
- LTX-2.3による日本語音声生成の検証結果(💎会員限定)
LTX-2.3とは
「LTX-2.3」は、動画ストリームと音声ストリームを双方向クロスアテンションで結合した双ストリーム非対称Diffusion Transformer(DiT)アーキテクチャを採用した22Bパラメーターの大規模動画生成モデルです。なお、一部の解説サイトでは『映像14B+音声5B=計22B』と計算の合わない表記を見かけることがありますが、これは旧モデルの仕様と新モデルの総数が混同されている可能性があります。公式からはこれ以上の詳しい内訳は公表されていませんが、最新のLTX-2.3は全体で22B(220億パラメーター)のモデルとなっています。テキストや参照画像を入力することで高速かつ高品質な動画を生成でき、動画と音声を1回の推論で同時出力できる点が他のオープンソースモデルとの大きな差別化点となっています。
- 対応タスク:テキスト→動画(T2V)、画像→動画(I2V)、テキスト→音声(T2A)をサポート。
- モデル対応解像度:ハードによりますが、32の倍数をつかった解像度でネイティブでアップスケール後4Kまで対応。縦型(9:16)も1080x1920までネイティブ対応。設定次第で、最大約20秒まで生成可能。
- モデル構成:公式からはフルモデル(BF16精度・ファインチューニング向け)とdistilled(蒸留)モデル(8ステップ高速推論)の2バリアント。
- 必要GPUメモリ:BF16フルモデルは最小32GB以上(推奨:RTX5090 / A100 80GB / H100)。fp8量子化版(本記事で使用)は16GB以上。
- 出力フレームレート:24fps(シネマ向け)・25fps(標準)・30fps(スムーズ)から選択可能。フレーム数は「duration × fps + 1」で算出(例:5秒×25fps+1=126フレーム)。
- ライセンス:Apache 2.0ライセンスで公開。
旧バージョンとの比較
LTX 2.0(2025年10月リリース)との主な変更点は、VAEを刷新して細部の鮮明さを向上、テキストコネクターを4倍に拡大してプロンプト追従精度を改善、HiFi-GANベースの新しいvocoderでステレオ24kHz出力のクリーンな音声生成を実現したことが挙げられます。また、I2Vで問題になっていたKen Burnsエフェクトの過適用を修正し、9:16の縦型動画のネイティブ生成にも対応しました。
LTX-2.3の環境構築
LTX-2.3のワークフローを動かすには、ComfyUIを最新バージョンへアップデートする必要があります。(執筆時のComfyUIのバージョンは🔗v0.25.0です。)⚠️ SageAttentionを導入済みの環境でComfyUIをアップデートする場合は、Torch・CUDAのバージョン互換性に注意が必要です。以下の記事にアップデート手順を加筆しましたので、あわせてご確認ください。
ComfyUIのテンプレート「LTX-2.3: Image to Video」を見てみる
「LTX-2.3: Image to Video」は、二段階生成(低解像度→Spatial Upscale→高解像度精細化)の構成です。サブグラフ「Image to Video (LTX-2.3)」に主要ノードが集約されています。
まずはテンプレートから「LTX-2.3: Image to Video」のワークフロー例を確認しましょう。
テンプレート一覧を開き、左側メニューのGENERATION TYPEからVideoを選択します。
動画関連のテンプレートが表示されるので、「LTX-2.3: Image to Video」を選択します。
テンプレートを開くと不足しているモデルが表示されます。指示に沿ってダウンロードすれば、そのまま実行できます。✅判らない方は次のセクションで詳しく説明しています。
公式ドキュメントは以下になります。
モデルのダウンロード
モデルファイルは正しいフォルダーに配置する必要があります。下記のファイルを取得し、ComfyUI/models配下の指定フォルダーに配置してください。ComfyUIでワークフローを開くとノードにダウンロードボタンが表示されるため、そこからも取得できます。
配置例:
ComfyUI/
├── 📁 models/
│ ├── 📁 checkpoints/
│ │ └── ltx-2.3-22b-dev-fp8.safetensors
│ ├── 📁 text_encoders/
│ │ └── gemma_3_12B_it_fp4_mixed.safetensors
│ ├── 📁 loras/
│ │ ├── ltx_2.3_22b_distilled_1.1_lora_dynamic_fro09_avg_rank_111_bf16.safetensors
│ │ └── gemma-3-12b-it-abliterated_lora_rank64_bf16.safetensors
│ └── 📁 latent_upscale_models/
│ └── ltx-2.3-spatial-upscaler-x2-1.1.safetensors
✅Text Encoderのgemma_3_12B_it_fp4_mixed.safetensorsはGemma 3 12BをFP4混合精度で量子化したファイルです。FP4はFP8よりもさらにビット数を抑えた形式ですが、LTX-2.3のLTXAVTextEncoderLoaderが対応しており、品質への影響は最小限に設計されています。FP8版(gemma_3_12B_it_fp8_scaled.safetensors)も同じノードで使用可能です。
✅アップスケーラーモデルは1.5倍と2倍があります。公式WFでは2倍のモデルを使用しています。
「Image to Video (LTX-2.3)」用インプット素材
Image to Video (LTX-2.3)で使用する2つのインプット画像は公式ドキュメントにはありませんでした。ComfyUI Cloudで開くと画像がダウンロードできます。
とにかく素材が欲しい方は以下のドライブにも同じ素材をアップロードしています。
「LTX-2.3: Image to Video」のノードについて
メインのサブグラフ「LTX-2.3: Image to Video」に主要なノードが配置されているので、順番に見ていきましょう。
Video Settingsグループ
Switch to Text to Video?
I2VとT2Vを切り替えるノードです。ブーリアンでTrue/Falseを切り替えられ、Trueにするとインプット画像をバイパスしてT2Vとして使えます。
🔳 Modelグループ
Load LoRA
MODELのみにLoRAを適用するノードです。distilledLoRA(ltx_2.3_22b_distilled_1.1_lora_dynamic_fro09_avg_rank_111_bf16.safetensors)を強度0.5で映像Diffusionモデルへ適用し、8ステップ程度の少ないステップ数で高品質な動画を生成できるようにします。CLIPには影響しないため、テキストエンコードの挙動は変わりません。
Load LTXV Audio VAE
音声VAEをチェックポイントから読み込むノードです。LTX-2.3ではメインチェックポイント(ltx-2.3-22b-dev-fp8.safetensors)に音声VAEが内包されているため、同じファイルを指定します。出力した音声VAEはLTXVEmptyLatentAudioとLTXVAudioVAEDecodeへ接続されます。
LTXV Audio Text Encoder Loader
映像・音声の両ストリームに対応したテキストエンコーダーを読み込むノードです。Text Encoder欄にGemmaファイル(gemma_3_12B_it_fp4_mixed.safetensors)、Checkpoint欄にメインモデルを指定し、テキストプロジェクション層を自動取得します。出力したCLIPはPositive/Negativeの両プロンプトエンコードに使用されます。
Load Latent Upscale Model
ltx-2.3-spatial-upscaler-x2-1.1.safetensorsを読み込みます。第1ステージで生成した低解像度の潜在変数を第2ステージ用に2倍に引き上げるために使用します。
🔳 Image Preprocessグループ
LTXV Preprocess
I2V用に参照画像をLTX-2.3の入力形式へ正規化するノードです。ピクセル値のスケーリングと、img_compressionパラメーター(0〜100、デフォルト35)による圧縮処理を行い、モデルが参照画像を潜在空間に埋め込みやすい形に整えます。
img_compressionの実体はH.264(libx264)エンコードのCRF値で、参照画像を1フレームだけのMP4動画としてエンコード・デコードし直すことで圧縮アーティファクトを疑似的に付加する仕組みです。値を大きくするほど圧縮が強くかかりブロックノイズやディテール損失が増え、小さくするほど元画像に近い画質が保たれます(0を指定すると圧縮処理自体がスキップされ元画像がそのまま出力されます)。値を大きめに設定する狙いとして、「LTX系モデルは圧縮ノイズを含む動画データで学習されているため、参照画像にも圧縮ノイズを加えることで静止画ではなく動画の1フレームとして認識させやすくなる」という説明がコミュニティで語られていますが、これは経験則であり公式に実証された仕組みではない点に注意してください。
🔳 Empty Latentグループ
EmptyLTXVLatentVideo
指定した幅・高さ・フレーム数で映像用の空の潜在変数テンソルを生成するノードです。第1ステージでは最終出力の半分のサイズ(Width=768、Height=512)で作成し、粗い動きを効率よく生成します。フレーム数(length)はサブグラフ「Image to Video (LTX-2.3)」に入力した値を使って「Duration × FPS + 1」の計算式で自動算出されます。
LTXVEmptyLatentAudio
映像フレーム数とフレームレートに同期した空の音声潜在変数を生成するノードです。音声VAEを通じて、映像潜在変数と同じ時間軸を持つ音声潜在空間を初期化します。映像と音声を同一のサンプラーで同時生成するために必要です。
LTXVImgToVideoInplace
参照画像を映像潜在変数の先頭フレームに埋め込むノードです(Inplace=潜在変数を直接書き換え)。strengthパラメーターで参照画像の影響度を調整でき、bypass=trueにするとT2Vモードとして動作します。このワークフローでは第1ステージ(strength=0.7)と第2ステージ(strength=1.0)の2回使用されます。
LTXVConcatAVLatent
分離している映像潜在変数と音声潜在変数を1つのAV潜在変数に結合するノードです。LTX-2.3の双ストリームアーキテクチャは映像と音声を1回のサンプリングで同時生成するため、サンプラーに渡す前にこのノードで統合する必要があります。
🔳 Promptグループ
LTXVConditioning
Positive/Negativeコンディショニングにフレームレート情報を付加するノードです。モデルがどのフレームレートで動きを生成するかをここで指示します。
🔳 Prompt Enhancement
Load LoRA (Model and CLIP)
MODELとCLIPの両方にLoRAを適用するノードです。このワークフローではgemma-3-12b-it-abliterated_lora_rank64_bf16.safetensorsをCLIPへ接続し、Gemma 3のコンテンツフィルターを緩和した「abliterated」版の挙動をテキストエンコーダーに反映させます。
Generate LTX2 Prompt
Gemma 3を使ってユーザーのプロンプトを自動拡張するノードです。短い指示文を詳細な映像描写段落に変換し、LTX-2.3が意図を正確に解釈できる形に整えます。サブグラフ「Image to Video (LTX-2.3)」にある「Enable Prompt Enhance」ブーリアンでTrue/Falseを切り替えられ、Falseにすると入力プロンプトがそのまま使われます。
🔳 Generate Low Resolutionグループ
ManualSigmas
ノイズ除去スケジュール(シグマ値)を手動で指定するノードです。カンマ区切りの数値列が各ステップのノイズ強度を表し、値の個数がステップ数になります。このワークフローでは第1ステージに8ステップ分、第2ステージに3ステップ分の値が設定されています。
LTXVSeparateAVLatent
サンプリング後のAV潜在変数を映像と音声に分離するノードです。LTXVConcatAVLatentの逆操作で、分離した映像潜在変数はデコードやアップスケールへ、音声潜在変数は音声VAEデコードへとそれぞれ送られます。
LTXVCropGuides
コンディショニング情報を潜在変数の実際のサイズに合わせて調整するノードです。パディングや解像度変換後に生じる寸法のズレを補正し、モデルが正しい空間位置に対応したコンディショニングを参照できるようにします。
🔳 Latent Upscaleグループ
LTXVLatentUpsampler
第1ステージで生成した低解像度の映像潜在変数をSpatial Upscalerで拡大するノードです。ピクセル空間へのデコードを経ずに潜在空間のまま2倍(x2モデル使用時)に引き上げるため、VRAMを節約しながら高解像度の第2ステージへ橋渡しできます。
🔳 グループ外
LTXVAudioVAEDecode
音声潜在変数を波形データに変換するノードです。音声VAEを使ってデコードし、後段のCreateVideoノードで映像と合成できるAUDIOデータを出力します。
プロンプトの書き方について
LTX-2.3のプロンプトは基本的には英語で記述します。
T2V(テキストから動画)とI2V(画像から動画)ではプロンプトの役割が異なります。
- T2V:映像の内容・外見・動きのすべてをプロンプトで指定します。被写体の外見、背景、色調、動きまで詳細に記述します。
- I2V:入力画像が視覚的な内容を担うため、プロンプトは主に動き・アクションの指示に専念できます。
- Positive Prompt:箇条書きやカンマ区切りのキーワード列ではなく、自然言語で記述します(詳細は後述の「プロンプト設計」セクションを参照)。
- Negative Prompt:
pc game, console game, video game, cartoon, childish, uglyなどが初期値として設定されています。 - Prompt Enhancement:サブグラフ「Image to Video (LTX-2.3)」にある「Enable Prompt Enhance」ブーリアンをTrueにするとGemma 3がプロンプトを自動拡張します。短いプロンプトでも詳細な動画が生成しやすくなります。
二段階生成の流れ
このワークフローは低解像度→Spatial Upscale→高解像度の二段階で動画を生成します。
- 第1ステージ(Generate Low Resolution):
EmptyLTXVLatentVideoでWidth・Heightを1/2にした低解像度潜在を生成し、SamplerCustomAdvanced+ManualSigmas(8ステップ)で粗い動きを生成します。サンプラーはeuler、CFGは1.0です。 - Latent Upscale:
LTXVLatentUpsamplerがSpatial Upscaler x2を使って潜在変数を2倍に拡大します。 - 第2ステージ(Generate High Resolution):拡大した潜在変数に対して
SamplerCustomAdvanced+ManualSigmas(3ステップ)で細部を精細化します。
デコードと書き出し
- VAEDecodeTiled:第2ステージの映像潜在変数をフレーム画像に変換します。タイル処理で高解像度もVRAM節約しながらデコードします。
- LTXVAudioVAEDecode:音声潜在変数を波形に変換します。
- CreateVideo:映像フレームと音声を合算してVIDEOデータを生成します。FPSはFrame Rateプリミティブから自動取得されます。
- SaveVideo:動画ファイルとして保存します。
「LTX-2.3: Image to Video」の使い方
それではテンプレートを実際に使ってみましょう。使い方はとてもシンプルです。
- インプット画像の読み込み:「Load Image」に素材の
egyptian_queen.pngを読み込みます。 - 各モデルの読み込み:サブグラフの「Image to Video (LTX-2.3)」のモデルが正しく読み込まれているかを確認します。
- 生成実行:インプット画像・各モデルが正しく読み込まれたら「Run」ボタンで実行します。
しばらくすると「Save Video」に生成した結果が出てきます。
このワークフローを使ってT2Vを試したい方はサブグラフ「Image to Video (LTX-2.3)」内にある「Switch to Text to Video?」のvalueをtrueにすることで切り替えができます。
公式ワークフローの生成結果
生成結果は以下のようになりました。音声はミュートしてあるので聞きたい場合はミュートを解除してください。✅動画はWEB用に縮小しています。
生成の速度の参考として筆者環境(RTX3090)では182秒で生成しました。(SageAttentionは使っていません。)✅プロンプトエンハンサーを無効化すればさらに速度は速くなります。VRAMが少ない方はプロンプトエンハンサーの無効化をオススメします。
LTX-2.3のプロンプト設計
🔗LTX-2.3の公式プロンプトガイドでは、単一の流れるような段落として英語で記述することを推奨しています。箇条書きやカンマ区切りのキーワード列ではなく、現在形の動詞を使って4〜8文の自然な文章でまとめると、Gemma 3テキストエンコーダーが意図を正確に解釈しやすくなります。
先述の通り、T2VとI2Vではプロンプトで担う役割が異なります。
- T2V:映像のすべて(外見・シーン・動き)をプロンプトで指定します。下記6要素をできるだけ網羅した記述が効果的です。
- I2V:入力画像が視覚的な内容を担うため、プロンプトは動き・カメラワーク・音声の指示に絞ると効果的です。キャラクター定義やシーン構築は画像に任せられます。
T2Vで推奨される6つの要素は以下の通りです。
- ショット設定:シネマトグラフィ用語とスケール指定(例:
medium close-up、wide establishing shot) - シーン構築:照明・色彩パレット・質感・雰囲気
- アクション記述:始まりから終わりまで自然な流れで記述(現在形)
- キャラクター定義:年齢・髪型・衣装・特徴的な要素
- カメラ動き:タイミングと方向を明記(例:
slow dolly in、handheld tracking shot)。移動後の被写体の見え方も書くと生成精度が上がります。 - 音声要素:環境音・音楽・セリフを記述。セリフは引用符で括り、言語やアクセントが必要な場合は明記します。
A young woman with curly auburn hair walks through a sunlit autumn forest, her long coat brushing fallen leaves. Warm golden light filters through the canopy, casting dappled shadows on the path. The camera begins with a wide establishing shot, then slowly dollies in as she pauses and looks up. A gentle breeze moves the leaves overhead.
Negative prompt: low quality, worst quality, deformed, distorted, fused fingers, bad anatomy, motion smear, weird hand, ugly
✅避けるべきパターン:「彼女は悲しみを感じた」のような内面的感情の説明(感情は表情・仕草などの視覚的手がかりで表現する)、読み取り可能なテキストや看板、複雑な物理演算(液体の飛散など。ただしダンスはOK)、過度に込み入ったシーン(多数のキャラクターや動作が同時に発生する)、照明の矛盾(相反する光源を混在させる)、プロンプトの過複雑化(まずシンプルに始めて少しずつ要素を加えていく)。
WebUIやComfyUIのプロンプト強調構文は、LTX-2.3やWANなど、T5系のテキストエンコーダーを使うモデルに対しても書くこと自体はできますが、期待した効果は得られません。この構文はもともとCLIPエンコーダーに対するハックとして考案されたもので、CLIPを使わないモデルでは、狙った単語だけを強調するような効果はほとんど期待できません。以下の例を見てみましょう。
A young woman with (curly auburn hair: 1.2) walks through a sunlit autumn forest,この場合、括弧や数値は取り除かれて内部的に重み付け処理はされるものの、CLIPモデルの時のように「カールした髪型」だけを的確に強調する効果は得にくく、意図しない箇所が変化したり、逆に画像の質が不安定になったりする原因になります。
プロンプト強調が直感的に、かつ狙った通りに効くのは、SD1.5やSDXLのようにCLIPエンコーダーをメインで使うモデルに限られます。
LTX-2.3とWAN2.2の比較
WAN2.2と生成を比較してみましょう。
できるだけ平等になるように生成設定は以下の設定で生成しています。LTX-2.3とWAN2.2共に高速distilled LoRA適用、アップスケール処理無し、LTX-2.3のプロンプトエンハンサー無効での結果です。シード値は同じモデル内で共通のシードを使っています。
⚠️設定はWAN2.2に寄せた検証になります。
- GPU:RTX3090 (24GB)
- RAM:128GB
- 解像度:704 x 1280
- 長さ:121フレーム(5秒)
- フレームレート:16
- サンプラー:euler
- スケジューラー:simple
A fox girl standing. She is looking at the camera. She blinks occasionally.
soft wind swaying her hair and cloth gently. A forest where a gentle breeze blows. grass and tree leaves are swaying with wind. subtle dust particles drifting in sunlight.
fix camera movements, ultra-detailedLTX-2.3 SageAttention無し - 92秒
LTX-2.3 SageAttention有り - 77秒
WAN2.2 SageAttention2.2 - 388秒
WAN2.2 SpargeAttention - 359秒
LTX-2.3の方がWAN2.2に比べ約4.4倍の速さで生成しています。品質を見てみるとWAN2.2の方が細かいところまで動いています。しかし、生成スピードや音声まで生成していることを考えると、LTX-2.3も選択肢の1つになるでしょう。
公式ワークフローをカスタムする
ここからはComfyUI公式の「LTX-2.3: Image to Video」ワークフローを土台に、高品質の映像を目指すための改良版の「DCAI LTX-2.3 I2V FLF Interpolation」を紹介します。カスタム内容は以下の通りです。
- 生成ステージを分離:低解像度で一度プレビューをして良ければ高解像度へと2つに分けることによりムダな高解像度処理を無くします。
- 動画のコントロール:FLFを使って動画をシームレスな無限ループにします。
- フレーム補完:フレーム補完ノードを使って出力動画のフレームレートを引き上げることが可能です。
- LoRAによる一貫性の補助:LoRAをつかってキャラクターの一貫性を引き上げます。
- app mode(Beta版):app modeを使ってシンプルなUIで作業ができます。
✅有料記事内ではカスタムワークフローの他にも高解像度を生成するテクニックなども紹介しています。
ワークフローやインプット素材はPatreonで公開しています。有料サポーター様のみ閲覧・ダウンロードが可能です。
このカスタムワークフローで生成した動画サンプルがこちらです。
ループ動画の例
日本語を話す例
まとめ
本記事では、LTX-2.3の特徴からComfyUIでの環境構築、公式テンプレートを使った基本的な生成手順までを紹介しました。
- LTX-2.3は22Bパラメーターの動画・音声同時生成モデルで、比較的軽量に動作する点が特徴です。
- ComfyUI公式テンプレート「LTX-2.3: Image to Video」を使えば、必要なモデルを揃えるだけで生成を試せます。
- プロンプトは英語の自然な文章で記述し、T2VとI2Vで担う役割が異なる点に注意が必要です。
- WAN2.2と比較すると生成速度に優れる一方、映像の細かな動きの表現はWAN2.2に分があるように見受けられます。
後半では、さらに高品質な動画を目指すためのカスタムワークフロー「DCAI LTX-2.3 I2V FLF Interpolation」や、高解像度生成時の注意点、日本語音声生成の検証結果についても解説しています。気になる方はぜひ本編もあわせてご覧ください。
最後までお読みいただきありがとうございます。
もし少しでも参考になったら、ぜひ「いいね」で応援してください!




