Video Generation Survey

May 8, 2026 · View on GitHub

A reading list of video generation

Joint audio-video generation product

Veo3 [Page]
Sora2 [Page]
Wan2.5 Preview [Page]
Gaga [Page]
Grok Imagine [Page]
Ovi [Page] (opensource)
LTX-2 [Page] (opensource)

Repo for open-sora

[2024.03] HPC-AI Open-Sora

[2024.03] PKU Open-Sora Plan

Awesome-Video-Diffusion-Models

Awesome-Text-to-Image

:point_right: Models to play with

Open source

VideoCrafter/Floor33 [Page], [Discord], [Code & Models]
ModelScope [Page, i2v], [Code & Models]
Hotshot-XL [Page], [Code & Models]
AnimeDiff [Page, Code & Models]
Zeroscope V2 XL [Page]
MuseV [Page]
opensora plan [Page]
opensora [Page]
easyanimate [Page]
Cogvideo X [Page]
Mochi from Genmo [Page]
Hunyuan Video [Page]

Non-open source

Gen-1/Gen-2 [Page]
Pika Lab [Page], [Discord]
Moonvalley [Page], [Discord]
Leonard Ai [Page]
Morph Studio [Page], [Discord]
Lensgo [Page, Discord]
Genmo [Page]
PlaiDay [Discord]
Nerverends [Page]
HiDream.ai/Pixeling [Page]
Assistant++ [Page]
PixVerse[Page]
ltx.studio[Page]
Haiper [Page]
vivago.ai[Page]
智谱AI[Page]

Translation

Goenhance.ai[Page]
ViggleAI[Page]

Databases

HowTo100M

[ICCV 2019] Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips [PDF, Project ]
HD-VILA-100M

[CVPR 2022]Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions [PDF, Page]
Web10M

[ICCV 2021]Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [PDF, Project ]
UCF-101

[arxiv 2012] Ucf101: A dataset of 101 human actions classes from videos in the wild [PDF, Project ]
Sky Time-lapse

[CVPR 2018] Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks [PDF, Project ]
TaiChi

[NIPS 2019] First order motion model for image animation [ PDF, Project ]
Celebv-text

[arxiv ]CelebV-Text: A Large-Scale Facial Text-Video Dataset [PDF, Page]
Youku-mPLUG

[arxiv 2023.06]Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks [PDF]
InternVid

[arxiv 2023.07]InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [PDF]
DNA-Rendering

[arxiv 2023.07] DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering [PDF]
Vimeo25M (not open-source)

[arxiv 2023.09] LAVIE: HIGH-QUALITY VIDEO GENERATION WITH CASCADED LATENT DIFFUSION MODELS [PDF]
HD-VG-130M

[arxiv 2023.06]VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [PDF, Page]
Panda-70M

[arxiv 2024.06]ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation [PDF, Page]

ChronoMagic-Pro
OpenVid-1M [arxiv 2024.07] A Large-Scale Dataset for High-Quality Text-to-Video Generation [PDF,Page]
Koala-36M [arxiv 2024.10]Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content[PDF,Page]
LVD-2M [arxiv 2024.10] LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [PDF,Page]
MovieBench [arxiv 2024.11]MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [PDF,Page]
VIVID-10M [arxiv 2024.11]VIVID-10M: A Dataset and Baseline for Versatile and Interactive Video Local Editing [PDF,Page]
OpenHumanVid [arxiv 2024.12]A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [PDF,Page]
Se~norita-2M [arxiv 2025.02] Se~norita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists [PDF,Page]
VideoUFO [arxiv 2025.03] VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation [PDF,Page]
HOIGen-1M [arxiv 2025.04] HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation [PDF,Page]
UltraVideo [arxiv 2025.06] UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions [PDF,Page]
Sekai: worlk exploration [arxiv 2025.06] Sekai: A Video Dataset towards World Exploration[PDF,Page]
Phantom-Data [arxiv 2025.06] Phantom-Data: Towards a General Subject-Consistent Video Generation Dataset[PDF,Page]
CI-VID interleaved Text-Video Dataset [arxiv 2025.07] CI-VID: A Coherent Interleaved Text-Video Dataset [PDF,Page]
SpeakerVid-5M [arxiv 2025.07] SpeakerVid-5M: A Large-Scale High-Quality Dataset for audio-visual Dyadic Interactive Human Generation [PDF,Page]
SpatialVID [arxiv 2025.07] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations [PDF,Page]
TalkCuts [arxiv 2025.10] TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [PDF,Page]
Ditto-1M for Editing [arxiv 2025.10] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset [PDF,Page]
Action100M [arxiv 2026.01] Action100M: A Large-scale Video Action Dataset [PDF,Page]
Ego-1K [arxiv 2026.03] Ego-1K -- A Large-Scale Multiview Video Dataset for Egocentric Vision [PDF,Page]

[arxiv 2026.03] [PDF,Page]

VAE

[arxiv 2024.05]CV-VAE: A Compatible Video VAE for Latent Generative Video Models [PDF,Page]

[arxiv 2024.06]OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation[PDF,Page]

[arxiv 2024.09] OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model [PDF,Page]

[arxiv 2024.10] MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [PDF,Page]

[arxiv 2024.10] Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [PDF,Page]

[arxiv 2024.11] Cosmos Tokenizer: A suite of image and video neural tokenizers. [PDF,Page]

[arxiv 2024.11] Improved Video VAE for Latent Video Diffusion Model [PDF,Page]

[arxiv 2024.11] REDUCIO! Generating 1024×1024 Video within 16 Seconds using Extremely Compressed Motion Latents [PDF,Page]

[arxiv 2024.11] Factorized Visual Tokenization and Generation [PDF,Page]

[arxiv 2024.11] WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [PDF,Page]

[arxiv 2024.12] Four-Plane Factorized Video Autoencoders [PDF,Page]

[arxiv 2024.12] VidTok: A Versatile and Open-Source Video Tokenizer [PDF,Page]

[arxiv 2024.12] Scaling 4D Representations [PDF]

[arxiv 2024.12] Large Motion Video Autoencoding with Cross-modal Video VAE [PDF,Page]

[arxiv 2024.12] VidTwin: Video VAE with Decoupled Structure and Dynamics [PDF,Page]

[arxiv 2025.01] Learnings from Scaling Visual Tokenizers for Reconstruction and Generation [PDF,Page]

[arxiv 2025.02] DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation [PDF,Page]

[arxiv 2025.03] Alias-Free Latent Diffusion Models: Improving Fractional Shift Equivariance of Diffusion Latent Space [PDF,Page]

[arxiv 2025.03] HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [PDF,Page]

[arxiv 2025.04] VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [PDF,Page]

[arxiv 2025.04] D2iT: Dynamic Diffusion Transformer for Accurate Image Generation [PDF,Page]

[arxiv 2025.06] Hi-VAE: Efficient Video Autoencoding with Global and Detailed Motion [PDF]

[arxiv 2025.08] OneVAE: Joint Discrete and Continuous Optimization Helps Discrete Video VAE Train Better [PDF,Page]

[arxiv 2025.09] AToken: A Unified Tokenizer for Vision [PDF,Page]

[arxiv 2026.01] Adaptive 1D Video Diffusion Autoencoder [PDF]

[arxiv 2026.01] VTok: A Unified Video Tokenizer with Decoupled Spatial-Temporal Latents [PDF,Page]

[arxiv 2026.02] Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation [PDF,Page]

[arxiv 2026.03] RAC: Rectified Flow Auto Coder [PDF,Page]

[arxiv 2026.03] EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation [PDF,Page]

[arxiv 2026.04] Latent-Compressed Variational Autoencoder for Video Diffusion Models [PDF]

[arxiv 2026.03] [PDF,Page]

Tokenizer

[arxiv 2024.12] Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [PDF,Page]

[arxiv 2024.12] TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation [PDF,Page]

[arxiv 2024.12] V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding [PDF,Page]

[arxiv 2024.12] Spectral Image Tokenizer [PDF]

[arxiv 2024.12] Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM [PDF ]

[arxiv 2025.01] LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token [PDF,Page]

[arxiv 2025.02] FlexTok: Resampling Images into 1D Token Sequences of Flexible Length [PDF,Page]

[arxiv 2025.05] Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space [PDF,Page]

[arxiv 2025.05] VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption [PDF]

[arxiv 2025.07] REFTOK: Reference-Based Tokenization for Video Generation [PDF]

[arxiv 2025.07] MambaVideo for Discrete Video Tokenization with Channel-Split Quantization [PDF,Page]

[arxiv 2025.12] Towards Scalable Pre-training of Visual Tokenizers for Generation [PDF,Page]

[arxiv 2026.04] VideoFlexTok: Flexible-Length Coarse-to-Fine Video Tokenization [PDF,Page]

[arxiv 2026.03] [PDF,Page]

GAN/VAE-based methods

[NIPS 2016] ---VGAN--- Generating Videos with Scene Dynamics [PDF, code ]

[ICCV 2017] ---TGAN--- Temporal Generative Adversarial Nets with Singular Value Clipping [PDF, code ]

[CVPR 2018] ---MoCoGAN--- MoCoGAN: Decomposing Motion and Content for Video Generation [PDF, code ]

[NIPS 2018] ---SVG--- Stochastic Video Generation with a Learned Prior [PDF, code ]

[ECCV 2018] Probabilistic Video Generation using Holistic Attribute Control [PDF, code]

[CVPR 2019; CVL ETH] ---SWGAN--- Sliced Wasserstein Generative Models [PDF, code ]

[NIPS 2019; NVLabs] ---vid2vid--- Few-shot Video-to-Video Synthesis [PDF, code ]

[arxiv 2020; Deepmind] ---DVD-GAN--- ADVERSARIAL VIDEO GENERATION ON COMPLEX DATASETS [PDF, code ]

[IJCV 2020] ---TGANv2--- Train Sparsely, Generate Densely: Memory-efficient Unsupervised Training of High-resolution Temporal GAN [PDF, code ]

[PMLR 2021] ---TGANv2-ODE--- Latent Neural Differential Equations for Video Generation [PDF, code ]

[ICLR 2021 ] ---DVG--- Diverse Video Generation using a Gaussian Process Trigger [PDF, code ]

[Arxiv 2021; MRSA] ---GODIVA--- GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [PDF, code ]

*[CVPR 2022 ] ---StyleGAN-V-- StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2 [PDF, code ]

*[NeurIPs 2022] ---MCVD--- MCVD: Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation [PDF, code]

:point_right: Implicit Neural Representations

[ICLR 2022] Generating videos with dynamics-aware implicit generative adversarial networks [PDF, code ]

Transformer-based

[arxiv 2021] ---VideoGPT-- VideoGPT: Video Generation using VQ-VAE and Transformers [PDF, code ]

[ECCV 2022; Microsoft] ---NÜWA-- NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion [PDF, code ]

[NIPS 2022; Microsoft] ---NÜWA-Infinity-- NUWA-Infinity: Autoregressive over Autoregressive Genera#tion for Infinite Visual Synthesis [PDF, code ]

[Arxiv 2020; Tsinghua] ---CogVideo-- CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers [PDF, code ]

*[ECCV 2022] ---TATS-- Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive Transformer [PDF, code]

*[arxiv 2022; Google] ---PHENAKI-- PHENAKI: VARIABLE LENGTH VIDEO GENERATION FROM OPEN DOMAIN TEXTUAL DESCRIPTIONS [PDF, code ]

[arxiv 2022.12]MAGVIT: Masked Generative Video Transformer[PDF]

[arxiv 2023.11]Optimal Noise pursuit for Augmenting Text-to-Video Generation [PDF]

[arxiv 2024.01]WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens [PDF,Page]

[arxiv 2024.10] Loong: Generating Minute-level Long Videos with Autoregressive Language Models [PDF, Page]

[arxiv 2024.10] LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Diffusion-based methods

*[NIPS 2022; Google] ---VDM-- Video Diffusion Models [PDF, code ]

*[arxiv 2022; Meta] ---MAKE-A-VIDEO-- MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA [PDF, code ]

*[arxiv 2022; Google] ---IMAGEN VIDEO-- IMAGEN VIDEO: HIGH DEFINITION VIDEO GENERATION WITH DIFFUSION MODELS [PDF, code ]

*[arxiv 2022; ByteDace] MAGIC VIDEO:Efficient Video Generation With Latent Diffusion Models [PDF, code]

*[arxiv 2022; Tencent] LVDM Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths [PDF, code]

[AAAI 2022; JHU ] VIDM: Video Implicit Diffusion Model [PDF]

[arxiv 2023.01; Meta] Text-To-4D Dynamic Scene Generation [PDF, Page]

[arxiv 2023.03]Video Probabilistic Diffusion Models in Projected Latent Space [PDF, Page]

[arxiv 2023.03]Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE [PDF]

[arxiv 2023.03]Decomposed Diffusion Models for High-Quality Video Generation [PDF]

[arxiv 2023.03]NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [PDF]

*[arxiv 2023.04]Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [PDF]

*[arxiv 2023.04]Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [PDF, Page]

[arxiv 2023.04]LaMD: Latent Motion Diffusion for Video Generation [PDF]

*[arxiv 2023.05]Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models[PDF, Page]

[arxiv 2023.05]VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [PDF]

[arxiv 2023.08]ModelScope Text-to-Video Technical Report [PDF]

[arxiv 2023.08]Dual-Stream Diffusion Net for Text-to-Video Generation [PDF]

[arxiv 2023.08]SimDA: Simple Diffusion Adapter for Efficient Video Generation [PDF, Page]

[arxiv 2023.08]Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models [PDF, Page]

[arxiv 2023.09]Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation[PDF,Page]

[arxiv 2023.09]LAVIE: HIGH-QUALITY VIDEO GENERATION WITH CASCADED LATENT DIFFUSION MODELS [PDF, Page]

[arxiv 2023.09]VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [PDF, Page]

[arxiv 2023.10]Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation [PDF, Page]

[arxiv 2023.10]LLM-grounded Video Diffusion Models [PDF,Page]

[arxiv 2023.10]VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [PDF,Page]

[arxiv 2023.11]Make Pixels Dance: High-Dynamic Video Generation [PDF, Page]

[arxiv 2023.11]Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[PDF, Page]

[arxiv 2023.11]Kandinsky Video [PDF,Page]

[arxiv 2023.12]GenDeF: Learning Generative Deformation Field for Video Generation [PDF,Page]

[arxiv 2023.12]GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation [PDF,Page]

[arxiv 2023.12]Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [PDF, Page]

[arxiv 2023.12]AnimateZero:Video Diffusion Models are Zero-Shot Image Animators [PDF,Page]

[arxiv 2023.12]Photorealistic Video Generation with Diffusion Models [PDF,Page]

[arxiv 2023.12]A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [PDF,Page]

[arxiv 2023.12]MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation [PDF, Page]

[arxiv 2024.1]Latte: Latent Diffusion Transformer for Video Generation [PDF,Page]

[arxiv 2024.1]VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models [PDF,Page]

[arxiv 2024.1]Lumiere: A Space-Time Diffusion Model for Video Generation [PDF, Page]

[arxiv 2024.02]Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [PDF]

[arxiv 2024.02]Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis[PDF,Page]

[arxiv 2024.03]Mora: Enabling Generalist Video Generation via A Multi-Agent Framework[PDF]

[arxiv 2024.03]Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [PDF,Page]

[arxiv 2024.04]Grid Diffusion Models for Text-to-Video Generation [PDF]

[arxiv 2024.04]MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [PDF]

[arxiv 2024.05]Matten: Video Generation with Mamba-Attention [PDF]

[arxiv 2024.05]Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models [PDF,Page]

[arxiv 2024.05]Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [PDF,Page]

[arxiv 2024.05] Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation [PDF]

[arxiv 2024.06]Hierarchical Patch Diffusion Models for High-Resolution Video Generation [PDF, Page]

[arxiv 2024.08] xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations[PDF, Page]

[arxiv 2024.10] Movie Gen: A Cast of Media Foundation Models [PDF, Page]

[arxiv 2024.10] MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [PDF,Page]

[arxiv 2024.10] Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [PDF, Page]

[arxiv 2024.10] MarDini: Masked Autoregressive Diffusion for Video Generation at Scale [PDF, Page]

[arxiv 2024.12] Open-Sora Plan: Open-Source Large Video Generation Model [PDF,Page]

[arxiv 2024.12] HunyuanVideo: A Systematic Framework For Large Video Generation Model [PDF,Page]

[arxiv 2025.01] Open-Sora: Democratizing Efficient Video Production for All [PDF,Page]

[arxiv 2025.02] FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [PDF,Page]

[arxiv 2025.02] Goku: Flow Based Video Generative Foundation Models [PDF,Page]

[arxiv 2025.02] Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT [PDF,Page]

[arxiv 2025.02] Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [PDF,Page]

[arxiv 2025.02] SkyReels V1: Human-Centric Video Foundation Model [Page]

[arxiv 2025.03] TPDiff: Temporal Pyramid Video Diffusion Model [PDF,Page]

[arxiv 2025.03] Step-Video-TI2V Technical Report: A State-of-the-Art Text-Driven Image-to-Video Generation Model [PDF,Page]

[arxiv 2025.03] Wan: Open and Advanced Large-Scale Video Generative Models [PDF,Page]

[arxiv 2025.04] Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model [PDF,Page]

[arxiv 2025.04] Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [PDF,Page]

[arxiv 2025.05] MAGI-1: Autoregressive Video Generation at Scale [PDF,Page]

[arxiv 2025.06] Seedance 1.0: Exploring the Boundaries of Video Generation Models [PDF,Page]

[arxiv 2025.08] Waver: Wave Your Way to Lifelike Video Generation [PDF,Page]

[arxiv 2025.10] LongCat-Video Technical Report [PDF,Page]

[arxiv 2025.11] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation [PDF,Page]

[arxiv 2025.11] HunyuanVideo 1.5 Technical Report [PDF,Page]

[arxiv 2025.12] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [PDF,Page]

[arxiv 2026.02] TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation [PDF]

[arxiv 2026.04] Seedance 2.0: Advancing Video Generation for World Complexity [PDF]

[arxiv 2026.03] [PDF,Page]

autoregressive

[arxiv 2025.11] InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation [PDF,Page]

[arxiv 2025.11] Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [PDF]

[arxiv 2026.03] [PDF,Page]

LLMs-based

[arxiv 2023.12]VideoPoet: A Large Language Model for Zero-Shot Video Generation [PDF,Page]

[arxiv 2024.02] Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [PDF,Page]

[arxiv 2025.07] Omni-Video: Democratizing Unified Video Understanding and Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

DiT

[arxiv 2024.05] EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [PDF,Page]

[arxiv 2024.08] CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [PDF,Page]

[arxiv 2024.10] Allegro: Open the Black Box of Commercial-Level Video Generation Model [PDF,Page]

[arxiv 2026.03] [PDF,Page]

agent

[arxiv 2025.10] VISTA: A Test-Time Self-Improving Video Generation Agent [PDF,Page]

[arxiv 2025.11] UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [PDF,Page]

[arxiv 2026.03] VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation [PDF]

[arxiv 2026.03] CutClaw: Agentic Hours-Long Video Editing via Music Synchronization [PDF,Page]

[arxiv 2026.04] Agentic Video Generation: From Text to Executable Event Graphs via Tool-Constrained LLM Planning [PDF]

[arxiv 2026.03] [PDF,Page]

scaling law

[arxiv 2024.11] Towards Precise Scaling Laws for Video Diffusion Transformers [PDF]

State Space-based

[arxiv 2024.03]SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces [PDF,Page]

[arxiv 2026.03] [PDF,Page]

improve Video Diffusion models

[arxiv 2023.10]ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models [PDF, Page]

[arxiv 2023.10]FreeU: Free Lunch in Diffusion U-Net [PDF, Page]

[arxiv 2023.12]FreeInit: Bridging Initialization Gap in Video Diffusion Models [PDF,Page]

[arxiv 2024.07] Video Diffusion Alignment via Reward Gradients [PDF, Page]

[arxiv 2024.08] FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance[PDF]

[arxiv 2024.09] S2AG-Vid: Enhancing Multi-Motion Alignment in Video Diffusion Models via Spatial and Syntactic Attention-Based Guidance [PDF]

[arxiv 2024.10] BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way [PDF]

[arxiv 2024.10] Pyramidal Flow Matching for Efficient Video Generative Modeling [PDF, Page]

[arxiv 2024.10] T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [PDF, Page]

[arxiv 2024.11] Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning [PDF, Page]

[arxiv 2024.11] Optical-Flow Guided Prompt Optimization for Coherent Video Generation [PDF,Page]

[arxiv 2024.11] Free2Guide: Gradient-Free Path Integral Control for Enhancing Text-to-Video Generation with Large Vision-Language Models [PDF,Page]

[arxiv 2024.12] PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation [PDF,Page]

[arxiv 2024.12] Mimir: Improving Video Diffusion Models for Precise Text Understanding [PDF,Page]

[arxiv 2024.12] Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation [PDF,Page]

[arxiv 2024.12] STIV: Scalable Text and Image Conditioned Video Generation [PDF]

[arxiv 2024.12] VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [PDF,Page]

[arxiv 2025.01] RepVideo: Rethinking Cross-Layer Representation for Video Generation [PDF,Page]

[arxiv 2025.02] VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [PDF,Page]

[arxiv 2025.02] Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search [PDF,Page]

[arxiv 2025.02] History-Guided Video Diffusion [PDF,Page]

[arxiv 2025.02] Enhance-A-Video: Better Generated Video for Free [PDF,Page]

[arxiv 2025.03] Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [PDF]

[arxiv 2025.03] The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [PDF,Page]

[arxiv 2025.03] MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation [PDF,Page]

[arxiv 2025.03] Temporal Regularization Makes Your Video Generator Stronger [PDF,Page]

[arxiv 2025.04] Towards Physically Plausible Video Generation via VLM Planning [PDF]

[arxiv 2025.04] FreSca: Unveiling the Scaling Space in Diffusion Models [PDF,Page]

[arxiv 2025.04] Discriminator-Free Direct Preference Optimization for Video Diffusion [PDF]

[arxiv 2025.04] The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation [PDF,Page]

[arxiv 2025.04] EquiVDM: Equivariant Video Diffusion Models with Temporally Consistent Noise [PDF,Page]

[arxiv 2025.05] Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [PDF]

[arxiv 2025.05] Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model [PDF,Page]

[arxiv 2025.06] Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models [PDF,Page]

[arxiv 2025.06] Emergent Temporal Correspondences from Video Diffusion Transformers [PDF,Page]

[arxiv 2025.07] Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [PDF,Page]

[arxiv 2025.09] PhysCtrl: Generative Physics for Controllable and Physics-Grounded Video Generation [PDF,Page]

[arxiv 2025.09] NewtonGen: Physics-Consistent and Controllable Text-to-Video Generation via Neural Newtonian Dynamics [PDF,Page]

[arxiv 2025.10] Inferring Dynamic Physical Properties from Video Foundation Models [PDF]

[arxiv 2025.10] Learning to Generate Object Interactions with Physics-Guided Video Diffusion [PDF]

[arxiv 2025.10] Epipolar Geometry Improves Video Generation Models [PDF,Page]

[arxiv 2025.11] Plan-X: Instruct Video Generation via Semantic Planning [PDF,Page]

[arxiv 2025.12] GeoVideo: Introducing Geometric Regularization into Video Generation Model [PDF,Page]

[arxiv 2025.12] DiffusionBrowser: Interactive Diffusion Previews via Multi-Branch Decoders [PDF]

[arxiv 2026.01] Motion Attribution for Video Generation [PDF,Page]

[arxiv 2026.01] Inference-time Physics Alignment of Video Generative Models with Latent World Models [PDF]

[arxiv 2026.01] VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation [PDF,Page]

[arxiv 2026.01] ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation [PDF,Page]

[arxiv 2026.02] SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation [PDF,Page]

[arxiv 2026.03] DreamWorld: Unified World Modeling in Video Generation [PDF,Page]

[arxiv 2026.03] Physical Simulator In-the-Loop Video Generation [PDF,Page]

[arxiv 2026.03] Chain of Event-Centric Causal Thought for Physically Plausible Video Generation [PDF]

[arxiv 2026.03] PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [PDF,Page]

[arxiv 2026.03] PhysVideo: Physically Plausible Video Generation with Cross-View Geometry Guidance [PDF,Page]

[arxiv 2026.03] DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation [PDF]

[arxiv 2026.04] MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [PDF,Page]

[arxiv 2026.04] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models [PDF,Page]

[arxiv 2026.04] Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics [PDF]

[arxiv 2026.03] [PDF,Page]

loss

[arxiv 2025.04] REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers [PDF,Page]

[arxiv 2026.03] [PDF,Page]

composition

[arxiv 2024.07]VideoTetris: Towards Compositional Text-To-Video Generation[PDF, Page]

[arxiv 2024.07]GVDIFF: Grounded Text-to-Video Generation with Diffusion Models[PDF]

[arxiv 2024.07]Compositional Video Generation as Flow Equalization [PDF, Page]

[arxiv 2024.07] InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models[PDF]

[arxiv 2025.01] VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [PDF,Page]

[arxiv 2025.01]BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [PDF,Page]

[arxiv 2025.02] DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models [PDF,Page]

[arxiv 2025.03] Get In Video: Add Anything You Want to the Video [PDF,Page]

[arxiv 2025.03] DreamInsert: Zero-Shot Image-to-Video Object Insertion from A Single Image [PDF]

[arxiv 2025.04] VIP: Video Inpainting Pipeline for Real World Human Removal [PDF]

[arxiv 2025.04] DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation [PDF]

[arxiv 2025.08] AnimateScene: Camera-controllable Animation in Any Scene [PDF]

[arxiv 2025.09] GenCompositor: Generative Video Compositing with Diffusion Transformer [PDF,Page]

[arxiv 2025.10] CoMo: Compositional Motion Customization for Text-to-Video Generation [PDF,Page]

[arxiv 2025.11] RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation [PDF,Page]

[arxiv 2025.12] InstanceV: Instance-Level Video Generation [PDF,Page]

[arxiv 2026.01] PhyRPR: Training-Free Physics-Constrained Video Generation [PDF]

[arxiv 2026.01]FAIRT2V: Training-Free Debiasing for Text-to-Video Diffusion Models [PDF]

[arxiv 2026.03] Training-free Motion Factorization for Compositional Video Generation [PDF】

[arxiv 2026.03] Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion [PDF,Page]

[arxiv 2026.04] ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Caption

[arxiv 2024.11] Grounded Video Caption Generation [PDF]

[arxiv 2024.12] Progress-Aware Video Frame Captioning [PDF,Page]

[arxiv 2024.12] Mimir: Improving Video Diffusion Models for Precise Text Understanding [PDF,Page]

[arxiv 2024.12] InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption [PDF,Page]

[arxiv 2025.03] Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption [PDF,Page]

[arxiv 2025.04] Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [PDF,Page]

[arxiv 2025.06] Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search [PDF,Page]

[arxiv 2025.10] Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception [PDF,Page]

[arxiv 2025.10] IF-VidCap: Can Video Caption Models Follow Instructions? [PDF,Page]

[arxiv 2025.10] VC4VG: Optimizing Video Captions for Text-to-Video Generation [PDF,Page]

[arxiv 2025.10] More than a Moment: Towards Coherent Sequences of Audio Descriptions [PDF]

[arxiv 2025.10] Towards Fine-Grained Human Motion Video Captioning [PDF]

[arxiv 2025.11] VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection [PDF]

[arxiv 2025.12] Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation [PDF,Page]

[arxiv 2026.02] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions [PDF,Page]

[arxiv 2026.03] VQQA: An Agentic Approach for Video Evaluation and Quality Improvement [PDF,Page]

[arxiv 2026.03] Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning [PDF]

[arxiv 2026.03] HumanOmni-Speaker: Identifying Who said What and When [PDF]

[arxiv 2026.04] DiffVC: A Non-autoregressive Framework Based on Diffusion Model for Video Captioning [PDF]

[arxiv 2026.04] ABMAMBA: Multimodal Large Language Model with Aligned Hierarchical Bidirectional Scan for Efficient Video Captioning [PDF]

[arxiv 2026.04] Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding [PDF]

[arxiv 2026.04] OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video [PDF,Page]

[arxiv 2026.03] [PDF,Page]

multi-concept

[arxiv 2025.12] Composing Concepts from Images and Videos via Concept-prompt Binding [PDF,Page]

[arxiv 2026.03] [PDF,Page]

multi-shot

[arxiv 2025.06] AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation [PDF,Page]

[arxiv 2025.10] MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation [PDF,Page]

[arxiv 2025.11] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO [PDF,Page]

[arxiv 2025.12] FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [PDF,Page]

[arxiv 2025.12] StoryMem: Multi-shot Long Video Storytelling with Memory [PDF,Page]

[arxiv 2025.12] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation [PDF,Page]

[arxiv 2026.01] VideoMemory: Toward Consistent Video Generation via Memory Integration [PDF,Page]

[arxiv 2026.03] ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation [PDF,Page]

[arxiv 2026.03] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling [PDF,Page]

[arxiv 2026.03] [PDF,Page]

multi-prompt

[arxiv 2023.12]MTVG : Multi-text Video Generation with Text-to-Video Models [PDF]

[arxiv 2024.05]TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation [PDF,Page]

[arxiv 2024.06]VideoTetris: Towards Compositional Text-To-Video Generation[PDF, Page]

[arxiv 2024.06] Pandora: Towards General World Model with Natural Language Actions and Video States [PDF, Page]

[arxiv 2024.12] Mind the Time: Temporally-Controlled Multi-Event Video Generation [PDF,Page]

[arxiv 2025.02] Object-Centric Image to Video Generation with Language Guidance [PDF,Page]

[arxiv 2025.03] Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [PDF,Page]

[arxiv 2025.09] From Prompt to Progression: Taming Video Diffusion Models for Seamless Attribute Transition [PDF,Page]

[arxiv 2026.03] [PDF,Page]

multi-event

[arxiv 2025.10] When and Where do Events Switch in Multi-Event Video Generation? [PDF]

[arxiv 2025.12] Active Intelligence in Video Avatars via Closed-loop World Modeling [PDF,Page]

[arxiv 2026.03] SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls [PDF,Page]

[arxiv 2026.03] Event-Driven Video Generation [PDF]

[arxiv 2026.04] Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

long video generation

[arxiv 2023.]Gen-L-Video: Long Video Generation via Temporal Co-Denoising [PDF, Page]

[arxiv 2023.10]FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling [PDF,Page]

[arxiv 2023.12]VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models[PDF,Page]

[arxiv 2023.12]AVID: Any-Length Video Inpainting with Diffusion Model [PDF,Page]

[arxiv 2023.12]RealCraft: Attention Control as A Solution for Zero-shot Long Video Editing [PDF]

[arxiv 2024.03]VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [PDF,Page]

[arxiv 2024.03]StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [PDF]

[arxiv 2024.04]FlexiFilm: Long Video Generation with Flexible Conditions [PDF]

[arxiv 2024.05] FIFO-Diffusion: Generating Infinite Videos from Text without Training [PDF,Page]

[arxiv 2024.05]Controllable Long Image Animation with Diffusion Models[PDF,Page]

[arxiv 2024.06]CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion [PDF, Page]

[arxiv 2024.06]Video-Infinity: Distributed Long Video Generation [PDF, Page]

[arxiv 2024.06] FreeLong : Training-Free Long Video Generation with SpectralBlend Temporal Attention [PDF, Page]

[arxiv 2024.06] ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [PDF,Page]

[arxiv 2024.06] Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [PDF,Page]

[arxiv 2024.07]Multi-sentence Video Grounding for Long Video Generation[PDF]

[arxiv 2024.08]Training-free High-quality Video Generation with Chain of Diffusion Model Experts [PDF, Page]

[arxiv 2024.08] TVG: A Training-free Transition Video Generation Method with Diffusion Models[PDF, Page]

[arxiv 2024.09] DiVE: DiT-based Video Generation with Enhanced Control [PDF, Page]

[arxiv 2024.10] Progressive Autoregressive Video Diffusion Models [PDF, Page]

[arxiv 2024.10] ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [PDF, Page]

[arxiv 2024.12] Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation [PDF,Page]

[arxiv 2024.12] Advancing Auto-Regressive Continuation for Video Frames [PDF]

[arxiv 2024.12] From Slow Bidirectional to Fast Causal Video Generators [PDF,Page]

[arxiv 2024.12] Owl-1: Omni World Model for Consistent Long Video Generation [PDF,Page]

[arxiv 2024.12] DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [PDF,Page]

[arxiv 2025.01] Tuning-Free Long Video Generation via Global-Local Collaborative Diffusion [PDF]

[arxiv 2025.01] Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [PDF]

[arxiv 2025.02] MaskFlow: Discrete Flows for Flexible and Efficient Long Video Generation [PDF,Page]

[arxiv 2025.02] MALT Diffusion: Memory-Augmented Latent Transformers for Any-Length Video Generation [PDF]

[arxiv 2025.03] Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [PDF]

[arxiv 2025.03] VideoMerge: Towards Training-free Long Video Generation [PDF]

[arxiv 2025.04] One-Minute Video Generation with Test-Time Training [PDF,Page]

[arxiv 2025.04] SkyReels-V2: Infinite-length Film Generative Model [PDF,Page]

[arxiv 2025.04] FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis [PDF,Page]

[arxiv 2025.05] InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [PDF,Page]

[arxiv 2025.06] LumosFlow: Motion-Guided Long Video Generation [PDF,Page]

[arxiv 2025.06] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [PDF,Page]

[arxiv 2025.06] Radial Attention: O(nlogn) Sparse Attention with Energy Decay for Long Video Generation [PDF,Page]

[arxiv 2025.07] FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [PDF,Page]

[arxiv 2025.07] LoViC: Efficient Long Video Generation with Context Compression [PDF,Page]

[arxiv 2025.07] TokensGen: Harnessing Condensed Tokens for Long Video Generation [PDF,Page]

[arxiv 2025.08] LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation [PDF,Page]

[arxiv 2025.08] Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation [PDF,Page]

[arxiv 2025.08] AnchorSync: Global Consistency Optimization for Long Video Editing [PDF,Page]

[arxiv 2025.08] WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception [PDF,Page]

[arxiv 2025.08] Mixture of Contexts for Long Video Generation [PDF,Page]

[arxiv 2025.09] LongLive: Real-time Interactive Long Video Generation [PDF,Page]

[arxiv 2025.10] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation [PDF,Page]

[arxiv 2025.10] Pack and Force Your Memory: Long-form and Consistent Video Generation [PDF]

[arxiv 2025.10] Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [PDF,Page]

[arxiv 2025.11] Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout [PDF,Page]

[arxiv 2025.12] SneakPeek: Future-Guided Instructional Streaming Video Generation [PDF]

[arxiv 2025.12] Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives [PDF,Page]

[arxiv 2025.12] End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [PDF,Page]

[arxiv 2025.12] Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [PDF]

[arxiv 2025.12] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation [PDF,Page]

[arxiv 2026.01] Reward-Forcing: Autoregressive Video Generation with Reward Feedback [PDF]

[arxiv 2026.01] LoL: Longer than Longer, Scaling Video Generation to Hour [PDF]

[arxiv 2026.01] Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation [PDF,Page]

[arxiv 2026.01] Context Forcing: Consistent Autoregressive Video Generation with Long Context [PDF,Page]

[arxiv 2026.01] Pathwise Test-Time Correction for Autoregressive Long Video Generation [PDF]

[arxiv 2026.02] Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion [PDF,Page]

[arxiv 2026.02] Train Short, Inference Long: Training-free Horizon Extension for Autoregressive Video Generation [PDF,Page]

[arxiv 2026.03] Mode Seeking meets Mean Seeking for Fast Long Video Generation [PDF,Page]

[arxiv 2026.03] Helios: Real Real-Time Long Video Generation Model [PDF,Page]

[arxiv 2026.03] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising [PDF,Page]

[arxiv 2026.03] Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation [PDF,Page]

[arxiv 2026.03] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference [PDF]

[arxiv 2026.03] Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction [PDF]

[arxiv 2026.03] DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation [PDF,Page]

[arxiv 2026.04] Grounded Forcing: Bridging Time-Independent Semantics and Proximal Dynamics in Autoregressive Video Synthesis [PDF]

[arxiv 2026.04] Long-Horizon Streaming Video Generation via Hybrid Attention with Decoupled Distillation [PDF] ,Page]

[arxiv 2026.04] Speculative Decoding for Autoregressive Video Generation [PDF]

[arxiv 2026.04] DynamicRad: Content-Adaptive Sparse Attention for Long Video Diffusion [PDF]

[arxiv 2026.03] [PDF,Page]

memory

[arxiv 2025.06] VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [PDF,Page]

[arxiv 2025.07] Ella: Embodied Social Agents with Lifelong Memory [PDF,Page]

[arxiv 2025.12] Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [PDF]

[arxiv 2025.12] Pretraining Frame Preservation in Autoregressive Video Memory Compression [PDF]

[arxiv 2026.03] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models [PDF]

[arxiv 2026.03] [PDF,Page]

cot

[arxiv 2025.10] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

robot

[arxiv 2025.06] Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [PDF,Page]

[arxiv 2026.03] [PDF,Page]

infinity scene /360

[arxiv 2023.12]Going from Anywhere to Everywhere[PDF,Page]

[arxiv 2024.1]360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model [PDF]

Story / Concept

[arxiv 2023.05]TaleCrafter: Interactive Story Visualization with Multiple Characters [PDF, Page]

[arxiv 2023.07]Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [PDF, Page]

[arxiv 2024.01]VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM [PDF, Page]

[arxiv 2024.01]Vlogger: Make Your Dream A Vlog [PDF,Page]

[arxiv 2024.03]AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production [PDF,Page]

[arxiv 2024.04]StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [PDF,Page]

[arxiv 2024.05]The Lost Melody: Empirical Observations on Text-to-Video Generation From A Storytelling Perspective [PDF]

[arxiv 2024.05]DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [PDF,Page]

[arxiv 2024.11] DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation [PDF,Page]

[arxiv 2025.01] VideoAuteur: Towards Long Narrative Video Generation [PDF,Page]

[arxiv 2025.03] Text2Story: Advancing Video Storytelling with Text Guidance [PDF]

[arxiv 2025.03] Long Context Tuning for Video Generation [PDF,Page]

[arxiv 2025.04] AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction [PDF,Page]

[arxiv 2025.04] One-Minute Video Generation with Test-Time Training [PDF,Page]

[arxiv 2025.04] VC-LLM: Automated Advertisement Video Creation from Raw Footage using Multi-modal LLMs [PDF]

[arxiv 2025.05] ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models [PDF,Page]

[arxiv 2025.06] EchoShot: Multi-Shot Portrait Video Generation [PDF,Page]

[arxiv 2025.06] FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation [PDF,Page]

[arxiv 2025.08] MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [PDF]

[arxiv 2026.01] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation [PDF,Page]

[arxiv 2026.03] InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions [PDF]

[arxiv 2026.03] COMIC: Agentic Sketch Comedy Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

study

[arxiv 2026.02] Causality in Video Diffusers is Separable from Denoising[PDF]

[arxiv 2026.04] Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation [PDF]

[arxiv 2026.04] Why Do Vision Language Models Struggle To Recognize Human Emotions? [PDF]

[arxiv 2026.03] [PDF,Page]

reasoning

[arxiv 2026.02] A Very Big Video Reasoning Suite [PDF,Page]

[arxiv 2026.03] EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Stereo Video Generation

[arxiv 2024.09]StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Controllable Video Generation: time and event

[arxiv 2025.12] AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Controllable Video Generation

*[arxiv 2023.04]Motion-Conditioned Diffusion Model for Controllable Video Synthesis [PDF, Page]

[arxiv 2023.06]Video Diffusion Models with Local-Global Context Guidance [PDF]

[arxiv 2023.06]VideoComposer: Compositional Video Synthesis with Motion Controllability [PDF]

[arxiv 2023.07]Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [PDF, Page]

[arxiv 2023.10]MotionDirector: Motion Customization of Text-to-Video Diffusion Models [PDF,Page]

[arxiv 2023.11]Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer[PDF,Page]

[arxiv 2023.11]SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models[PDF, Page]

[arxiv 2023.12]Fine-grained Controllable Video Generation via Object Appearance and Context [PDF,Page]

[arxiv 2023.12]Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [PDF,Page]

[arxiv 2023.12]Peekaboo: Interactive Video Generation via Masked-Diffusion [PDF,Page]

[arxiv 2023.12]InstructVideo: Instructing Video Diffusion Models with Human Feedback [PDF,Page]

[arxiv 2024.01]Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation[PDF]

[arxiv 2024.01]Synthesizing Moving People with 3D Control [PDF,PDF]

[arxiv 2024.02]Boximator: Generating Rich and Controllable Motions for Video Synthesis [PDF,Page]

[arxiv 2024.02]InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions [PDF,Page]

[arxiv 2024.03]Animate Your Motion: Turning Still Images into Dynamic Videos [PDF,Page]

[arxiv 2024.04]Motion Inversion for Video Customization [PDF,Page]

[arxiv 2023.12]Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models [PDF,Page]

[arxiv 2024.05]MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [PDF,Page]

[arxiv 2024.06] FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [PDF,Page]

[arxiv 2024.06] MVOC: a training-free multiple video object composition method with diffusion models [PDF,Page]

[arxiv 2024.06] MotionBooth: Motion-Aware Customized Text-to-Video Generation [PDF,Page]

[CVPR 2025] Tora: Trajectory-oriented Diffusion Transformer for Video Generation [PDF,Page]

[arxiv 2024.08] Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics[PDF,Page]

[arxiv 2024.08] TrackGo: A Flexible and Efficient Method for Controllable Video Generation [PDF,Page]

[arxiv 2024.10] DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships [PDF]

[arxiv 2024.10] MovieCharacter: A Tuning-Free Framework for Controllable Character Video Synthesis [PDF,Page]

[arxiv 2024.11] SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation [PDF,Page]

[arxiv 2024.11] Motion Control for Enhanced Complex Action Video Generation [PDF,Page]

[arxiv 2024.11] OnlyFlow: Optical Flow based Motion Conditioning for Video Diffusion Models [PDF]

[arxiv 2024.12] Motion Prompting: Controlling Video Generation with Motion Trajectories [PDF,Page]

[arxiv 2024.12] Video Motion Transfer with Diffusion Transformers [PDF,Page]

[arxiv 2024.12] Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [PDF,Page]

[arxiv 2024.12] Trajectory Attention for Fine-grained Video Motion Control [PDF,Page]

[arxiv 2024.12] 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [PDF,Page]

[arxiv 2024.12] Mojito: Motion Trajectory and Intensity Control for Video Generation [PDF,Page]

[arxiv 2024.12] MotionBridge: Dynamic Video Inbetweening with Flexible Controls [PDF]

[arxiv 2024.12] AniDoc: Animation Creation Made Easier [PDF,Page]

[arxiv 2024.12] LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [PDF,Page]

[arxiv 2025.01] Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control [PDF,Page]

[arxiv 2025.01] Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise [PDF,Page]

[arxiv 2025.01] LayerAnimate:Layer-specific Control for Animation [PDF,Page]

[arxiv 2025.01] Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [PDF,Page]

[arxiv 2025.01] Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [PDF]

[arxiv 2025.02] VidSketch: Hand-drawn Sketch-Driven Video Generation with Diffusion Control [PDF,Page]

[arxiv 2025.02] MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [PDF,Page]

[arxiv 2025.02] MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [PDF,Page]

[arxiv 2025.02] C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [PDF,Page]

[arxiv 2025.03] MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance [PDF,Page]

[arxiv 2025.03] PoseTraj: Pose-Aware Trajectory Control in Video Diffusion [PDF,Page]

[arxiv 2025.03] Enabling Versatile Controls for Video Diffusion Models [PDF,Page]

[arxiv 2025.03] Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [PDF,Page]

[arxiv 2025.04] Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization [PDF,Page]

[arxiv 2025.04] OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding [PDF,Page]

[arxiv 2025.05] WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions [PDF,Page]

[arxiv 2025.06] IllumiCraft: Unified Geometry and Illumination Diffusion for Controllable Video Generation [PDF,Page]

[arxiv 2025.06] FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [PDF,Page]

[arxiv 2025.06] Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [PDF,Page]

[arxiv 2025.07] SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [PDF,Page]

[arxiv 2025.07] LongAnimation: Long Animation Generation with Dynamic Global-Local Memory [PDF,Page]

[arxiv 2025.07] AnyI2V: Animating Any Conditional Image with Motion Control [PDF,Page]

[arxiv 2025.07] MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation [PDF]

[arxiv 2025.08] PersonaAnimator: Personalized Motion Transfer from Unconstrained Videos [PDF]

[arxiv 2025.09] DiTraj: training-free trajectory control for video diffusion transformer [PDF]

[arxiv 2025.10] MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation [PDF]

[arxiv 2025.10] Mask2IV: Interaction-Centric Video Generation via Mask Trajectories [PDF,Page]

[arxiv 2025.10] FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control [PDF,Page] !

[arxiv 2025.10] MultiCOIN: Multi-Modal COntrollable Video INbetweening [PDF,Page]

[arxiv 2025.10] Controllable Video Synthesis via Variational Inference [PDF,Page]

[arxiv 2025.10] TGT: Text-Grounded Trajectories for Locally Controlled Video Generation [PDF,Page]

[arxiv 2025.10] Video-As-Prompt: Unified Semantic Control for Video Generation [PDF,Page]

[arxiv 2025.10] SAGE: Structure-Aware Generative Video Transitions between Diverse Clips [PDF,Page]

[arxiv 2025.10] VFXMaster: Unlocking Dynamic Visual Effect Generation via In-Context Learning [PDF,Page]

[arxiv 2025.11] Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising [PDF,Page]

[arxiv 2025.11] In-Video Instructions: Visual Signals as Generative Control [PDF,Page]

[arxiv 2025.12] DisMo: Disentangled Motion Representations for Open-World Motion Transfer [PDF,Page]

[arxiv 2025.12] VHOI: Controllable Video Generation of Human–Object Interactions from Sparse Trajectories via Motion Densification [PDF,Page]

[arxiv 2025.12] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text [PDF,Page]

[arxiv 2026.01] MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization [PDF,Page]

[arxiv 2026.01] Moaw: Unleashing Motion Awareness for Video Diffusion Models [PDF,Page]

[arxiv 2026.01] Olaf-World: Orienting Latent Actions for Video World Modeling [PDF,Page]

[arxiv 2026.02] FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control [PDF,Page]

[arxiv 2026.03] Let Your Image Move with Your Motion! – Implicit Multi-Object Multi-Motion Transfer [PDF,Page]

[arxiv 2026.03] FlowMotion: Training-Free Flow Guidance for Video Motion Transfer [PDF]

[arxiv 2026.03] Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA [PDF,Page]

[arxiv 2026.04] MotionGrounder: Grounded Multi-Object Motion Transfer via Diffusion Transformer [PDF,Page]

[arxiv 2026.04] Control-DINO: Feature Space Conditioning for Controllable Image-to-Video Diffusion [PDF,Page]

[arxiv 2026.04] Tora3: Trajectory-Guided Audio-Video Generation with Physical Coherence [PDF]

[arxiv 2026.03] [PDF,Page]

motion transfer | pose

[arxiv 2023.05]LEO: Generative Latent Image Animator for Human Video Synthesis [PDF,Page]

*[arxiv 2023.03]Conditional Image-to-Video Generation with Latent Flow Diffusion Models [PDF]

[arxiv 2023.07]DisCo: Disentangled Control for Referring Human Dance Generation in Real World [PDF, Page]

[arxiv 2023.11]MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [PDF, Page]

[arxiv 2023.12]DreaMoving: A Human Dance Video Generation Framework based on Diffusion Models [PDF, Page]

[arxiv 2023.12]MotionEditor: Editing Video Motion via Content-Aware Diffusion [PDF,Page]

[arxiv 2023.12]Customizing Motion in Text-to-Video Diffusion Models [PDF,Page]

[arxiv 2023.12]MotionCrafter: One-Shot Motion Customization of Diffusion Models [PDF]

[arxiv 2023.11]MagicDance: Realistic Human Dance Video Generation with Motions & Facial Expressions Transfer [PDF, Page]

[arxiv 2023.11]MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model[PDF,Page]

[arxiv 2023.12] Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation[PDF,Page]

[arxiv 2024.01]Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation[PDF]

[arxiv 2024.03]Spectral Motion Alignment for Video Motion Transfer using Diffusion Models[PDF,Page]

[arxiv 2024.03]Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance [PDF,Page]

[arxiv 2024.03]Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [PDF, Page]

[arxiv 2024.05]ReVideo: Remake a Video with Motion and Content Control [PDF,Page]

[arxiv 2024.05]VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [PDF]

[arxiv 2024.05]Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [PDF,Page]

[arxiv 2024.05] MusePose: a Pose-Driven Image-to-Video Framework for Virtual Human Generation. [PDF,Page]

[arxiv 2024.05]MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [PDF,Page]

[arxiv 2024.06] UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation[PDF,Page]

[arxiv 2024.06] Searching Priors Makes Text-to-Video Synthesis Better[PDF,Page]

[arxiv 2024.06]MotionClone: Training-Free Motion Cloning for Controllable Video Generation[PDF]

[arxiv 2024.07]IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [PDF,Page]

[arxiv 2024.07]HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [PDF,Page]

[arxiv 2024.10] Replace Anyone in Videos [PDF]

[arxiv 2024.10] MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling [PDF,Page]

[arxiv 2024.11] MikuDance: Animating Character Art with Mixed Motion Dynamics [PDF,Page]

[arxiv 2024.11] StableAnimator: High-Quality Identity-Preserving Human Image Animation [PDF,Page]

[arxiv 2024.11] AnimateAnything: Consistent and Controllable Animation for Video Generation [PDF,Page]

[arxiv 2024.12] Fleximo: Towards Flexible Text-to-Human Motion Video Generation [PDF]

[arxiv 2024.12] MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [PDF,Page]

[arxiv 2024.12] MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance [PDF,Page]

[arxiv 2024.12] DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [PDF]

[arxiv 2024.12] Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [PDF,Page]

[arxiv 2024.12] VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [PDF]

[arxiv 2025.01] RAIN: Real-time Animation Of Infinite Video Stream [PDF,Page]

[arxiv 2025.01] X-Dyna: Expressive Dynamic Human Image Animation [PDF,Page]

[arxiv 2025.02] HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation [PDF,Page]

[arxiv 2025.02] AnyCharV: Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance [PDF,Page]

[arxiv 2025.03] Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control [PDF,Page]

[arxiv 2025.03] Decouple and Track: Benchmarking and Improving Video Diffusion Transformers For Motion Transfer [PDF,Page]

[arxiv 2025.04] HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation [PDF,Page]

[arxiv 2025.04] Multi-identity Human Image Animation with Structural Video Diffusion [PDF]

[arxiv 2025.04] TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [PDF]

[arxiv 2025.04] UniAnimate-DiT: Human Image Animation with Large-Scale Video Diffusion Transformer [PDF,Page]

[arxiv 2025.04] Taming Consistency Distillation for Accelerated Human Image Animation [PDF]

[arxiv 2025.04] RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild [PDF,Page]

[arxiv 2025.04] Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [PDF,Page]

[arxiv 2025.05] AnimateAnywhere: Rouse the Background in Human Image Animation [PDF,Page]

[arxiv 2025.05] DanceTogether! Identity-Preserving Multi-Person Interactive Video Generation [PDF,Page]

[arxiv 2025.06] DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [PDF,Page]

[arxiv 2025.08] PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation [PDF]

[arxiv 2025.08] Animate-X++: Universal Character Image Animation with Dynamic Backgrounds [PDF,Page]

[arxiv 2025.09] UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition [PDF,Page]

[arxiv 2025.11] SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation [PDF,Page]

[arxiv 2025.12] One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer [PDF,Page]

[arxiv 2025.12] PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence [PDF,Page]

[arxiv 2025.12] EverybodyDance: Bipartite Graph–Based Identity Correspondence for Multi-Character Animation [PDF]

[arxiv 2025.12] High-Fidelity and Long-Duration Human Image Animation with Diffusion Transformer [PDF]

[arxiv 2026.01] MoCha: End-to-End Video Character Replacement without Structural Guidance [PDF,Page]

[arxiv 2026.01] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation [PDF,Page]

[arxiv 2026.02] MOTIONWEAVER: HOLISTIC 4D-ANCHORED FRAME-WORK FOR MULTI-HUMANOID IMAGE ANIMATION [PDF]

[arxiv 2026.03] Kling-MotionControl Technical Report [PDF]

[arxiv 2026.03] AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

autoregressive for video

[arxiv 2024.12] Autoregressive Video Generation without Vector Quantization [PDF,Page]

[arxiv 2025.03] AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion [PDF,Page]

[arxiv 2025.03] Fast Autoregressive Video Generation with Diagonal Decoding[PDF,Page]

[arxiv 2025.07] Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective [PDF,Page]

[arxiv 2025.10] Real-Time Motion-Controllable Autoregressive Video Diffusion [PDF,Page]

[arxiv 2026.03] [PDF,Page]

text

[arxiv 2024.06] Text-Animator: Controllable Visual Text Video Generation[PDF,Page]

[arxiv 2026.03] [PDF,Page]

Camera

[arxiv 2023.12]MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [PDF,Page]

[arxiv 2024.02]Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [PDF,Page]

[arxiv 2024.04]CameraCtrl: Enabling Camera Control for Text-to-Video Generation [PDF,Page]

[arxiv 2024.04]Customizing Text-to-Image Diffusion with Camera Viewpoint Control [PDF,Page]

[arxiv 2024.04]MotionMaster: Training-free Camera Motion Transfer For Video Generation[PDF]

[arxiv 2024.05] Video Diffusion Models are Training-free Motion Interpreter and Controller[PDF,Page]

[arxiv 2024.05] VidvidDream Generating 3D Scene with Ambient Dynamics [PDF,Page]

[arxiv 2024.06] CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [PDF,Page]

[arxiv 2024.06]Training-free Camera Control for Video Generation[PDF,Page]

[arxiv 2024.06] Image Conductor: Precision Control for Interactive Video Synthesis [PDF,Page]

[arxiv 2024.07]VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [PDF,Page]

[arxiv 2024.08] DreamCinema: Cinematic Transfer with Free Camera and 3D Character [PDF,Page]

[arxiv 2024.09] CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion[PDF]

[arxiv 2024.10] Boosting Camera Motion Control for Video Diffusion Transformers [PDF,Page]

[arxiv 2024.10] Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [PDF,Page]

[arxiv 2024.10] CamI2V: Camera-Controlled Image-to-Video Diffusion Model [PDF,Page]

[arxiv 2024.11] ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning [PDF,Page]

[arxiv 2024.11] I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [PDF]

[arxiv 2024.11] AnimateAnything: Consistent and Controllable Animation for Video Generation [PDF,Page]

[arxiv 2024.12] I2VControl: Disentangled and Unified Video Motion Synthesis Control [PDF,Page]

[arxiv 2024.12] Generative Photography Scene-Consistent Camera Control for Realistic Text-to-Image Synthesis [PDF,Page]

[arxiv 2024.12] CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [PDF]

[arxiv 2024.12] Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [PDF,Page]

[arxiv 2024.12] SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [PDF,Page]

[arxiv 2024.12] ObjCtrl-2.5D: Training-free Object Control with Camera Poses [PDF,Page]

[arxiv 2024.12] Learning Camera Movement Control from Real-World Drone Videos [PDF,Page]

[arxiv 2024.12] Switch-a-View: Few-Shot View Selection Learned from Edited Videos [PDF,Page]

[arxiv 2025.01] Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [PDF,Page]

[arxiv 2025.01] OG3R: On Unifying Video Generation and Camera Pose Estimation [PDF,Page]

[arxiv 2025.01] Go-with-the-Flow: Motion-Controllable Video Diffusion Models Using Real-Time Warped Noise [PDF,Page]

[arxiv 2025.02] CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [PDF,Page]

[arxiv 2025.02] FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis [PDF]

[arxiv 2025.02] VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [PDF]

[arxiv 2025.02] RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [PDF,Page]

[arxiv 2025.03] GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control [PDF,Page]

[arxiv 2025.03] TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models [PDF,Page]

[arxiv 2025.03] Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [PDF]

[arxiv 2025.03] CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [PDF,Page]

[arxiv 2025.03] I2V3D: Controllable image-to-video generation with 3D guidance [PDF,Page]

[arxiv 2025.03] ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [PDF,Page]

[arxiv 2025.03] FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [PDF,Page] ![Code]

[arxiv 2025.04] OmniCam: Unified Multimodal Video Generation via Camera Control [PDF]

[arxiv 2025.04] CamContextI2V: Context-aware Controllable Video Generation [PDF,Page]

[arxiv 2025.04] RealCam-Vid: High-resolution Video Dataset with Dynamic Scenes and Metric-scale Camera Movements [PDF,Page]

[arxiv 2025.04] TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [PDF]

[arxiv 2025.04] GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [PDF,Page]

[arxiv 2025.04] Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM [PDF,Page]

[arxiv 2025.04] CamMimic: Zero-Shot Image to Camera Motion Personalized Video Generation using Diffusion Models [PDF,Page]

[arxiv 2025.04] CameraBench: Towards Understanding Camera Motions in Any Video [PDF,Page]

[arxiv 2025.04] Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [PDF,Page]

[arxiv 2025.04] Dynamic Camera Poses and Where to Find Them [PDF,Page]

[arxiv 2025.06] CamCloneMaster: Enabling Reference-based Camera Control for Video Generation [PDF,Page]

[arxiv 2025.06] Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [PDF,Page]

[arxiv 2025.07] Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [PDF】

[arxiv 2025.10] From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation [PDF]

[arxiv 2025.10] 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [PDF,Page]

[arxiv 2025.10] VividCam: Learning Unconventional Camera Motions from Virtual Synthetic Videos [PDF,Page]

[arxiv 2025.10] See4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [PDF,Page]

[arxiv 2025.11] PostCam: Camera-Controllable Novel-View Video Generation with Query-Shared Cross-Attention [PDF,Page]

[arxiv 2025.12] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation [PDF,Page]

[arxiv 2026.01] Plenoptic Video Generation [PDF,Page]

[arxiv 2026.01] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [PDF,Page]

[arxiv 2026.01] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering [PDF,Page]

[arxiv 2026.01] CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback [PDF,Page]

[arxiv 2026.01] 3DiMo: 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation [PDF,Page]

[arxiv 2026.02] ReRoPE: Repurposing RoPE for Relative Camera Control [PDF]

[arxiv 2026.03] CamDirector: Towards Long-Term Coherent Video Trajectory Editing [PDF,Page]

[arxiv 2026.03] FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning [PDF,Page]

[arxiv 2026.03] ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation [PDF]

[arxiv 2026.03] CamLit: Unified Video Diffusion with Explicit Camera and Lighting Control [[PDF]]

[arxiv 2026.04] VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation [PDF]

[arxiv 2026.04] SymphoMotion: Joint Control of Camera Motion and Object Dynamics for Coherent Video Generation [PDF,Page]

[arxiv 2026.04] OmniCamera: A Unified Framework for Multi-task Video Generation with Arbitrary Camera Control [PDF]

[arxiv 2026.04] CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation [PDF]

[arxiv 2026.03] [PDF,Page]

lighting

[arxiv 2025.02] Light-A-Video: Training-free Video Relighting via Progressive Light Fusion [PDF,Page]

[arxiv 2025.06] TC-Light: Temporally Consistent Relighting for Dynamic Long Videos [PDF,Page]

[arxiv 2025.10] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback [PDF,Page]

[arxiv 2026.03] [PDF,Page]

inpainting / outpainting

[MM 2023.09]Hierarchical Masked 3D Diffusion Model for Video Outpainting [PDF]

[arxiv 2023.11]Flow-Guided Diffusion for Video Inpainting [PDF]

[arxiv 2024.01]ActAnywhere: Subject-Aware Video Background Generation [PDF, Page]

[arxiv 2024.03]CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility [PDF,Page]

[arxiv 2024.03]Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [PDF,Page]

[arxiv 2024.04]AudioScenic: Audio-Driven Video Scene Editing [PDF]

[arxiv 2024.05]Semantically Consistent Video Inpainting with Conditional Diffusion Models [[PDF(https://arxiv.org/abs/2405.00251)]

[arxiv 2024.05]ReVideo: Remake a Video with Motion and Content Control [PDF,Page]

[arxiv 2024.08]Video Diffusion Models are Strong Video Inpainter [PDF]

[arxiv 2024.09] Follow-Your-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation [PDF,Page]

[arxiv 2024.12] UniPaint: Unified Space-time Video Inpainting via Mixture-of-Experts [PDF]

[arxiv 2024.12] OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation [PDF,Page]

[arxiv 2025.01] DiffuEraser: A Diffusion Model for Video Inpainting [PDF,Page]

[arxiv 2025.06] MiniMax-Remover: Taming Bad Noise Helps Video Object Removal [PDF,Page]

[arxiv 2025.06] Follow-Your-Creation: Empowering 4D Creation through Video Inpainting [PDF,Page]

[arxiv 2025.06] OutDreamer: Video Outpainting with a Diffusion Transformer [PDF]

[arxiv 2025.10] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning [PDF,Page]

[arxiv 2025.11] Unified Long Video Inpainting and Outpainting via Overlapping High-Order Co-Denoising [PDF]

[arxiv 2026.03] [PDF,Page]

Video Quality

[arxiv 2024.03]VideoElevator : Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models[PDF,Page]

super-resolution

[arxiv 2023.11]Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [PDF]

[arxiv 2023.12]Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [PDF,Page]

[arxiv 2023.12]Video Dynamics Prior: An Internal Learning Approach for Robust Video Enhancements [PDF,Page]

[arxiv 2024.03]Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [PDF]

[arxiv 2024.04]VideoGigaGAN: Towards Detail-rich Video Super-Resolution [PDF, Page]

[arxiv 2024.06] EvTexture: Event-driven Texture Enhancement for Video Super-Resolution [PDF,Page]

[arxiv 2024.06] DiffIR2VR-Zero:Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [PDF,Page]

[arxiv 2024.07] DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models [PDF,Page]

[arxiv 2024.07] Zero-shot Video Restoration and Enhancement Using Pre-Trained Image Diffusion Model [PDF]

[arxiv 2024.07] VEnhancer: Generative Space-Time Enhancement for Video Generation[PDF,Page]

[arxiv 2024.07] Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models [PDF,Page]

[arxiv 2024.07] RealViformer: Investigating Attention for Real-World Video Super-Resolution [PDF,Page]

[arxiv 2024.08]Kalman-Inspired Feature Propagation for Video Face Super-Resolution[PDF,Page]

[arxiv 2024.08] Unrolled Decomposed Unpaired Learning for Controllable Low-Light Video Enhancement [PDF,Page]

[arxiv 2024.08] SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution [PDF,Page]

[arxiv 2025.01] SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration [PDF,Page]

[arxiv 2025.01] STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [PDF,Page]

[arxiv 2025.01] SVFR: A Unified Framework for Generalized Video Face Restoration [PDF,Page]

[arxiv 2025.01] DiffVSR: Enhancing Real-World Video Super-Resolution with Diffusion Models for Advanced Visual Quality and Temporal Consistency [PDF,Page]

[arxiv 2025.03] Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [PDF]

[arxiv 2025.04] EvTexture: Event-driven Texture Enhancement for Video Super-Resolution [PDF,Page]

[arxiv 2025.04] RepNet-VSR: Reparameterizable Architecture for High-Fidelity Video Super-Resolution [PDF]

[arxiv 2025.05] DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [PDF,Page]

[arxiv 2025.06] SeedVR2: One-Step Video Restoration via Diffusion Adversarial Post-Training [PDF,Page]

[arxiv 2025.06] DualX-VSR: Dual Axial Spatial×Temporal Transformer for Real-World Video Super-Resolution without Motion Compensation [PDF]

[arxiv 2025.06] LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4 [PDF,Page]

[arxiv 2025.06] MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [PDF]

[arxiv 2025.06] One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution [PDF,Page]

[arxiv 2025.06] FastInit: Fast Noise Initialization for Temporally Consistent Video Generation [PDF]

[arxiv 2025.06] SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [PDF,Page]

[arxiv 2025.07] TURBOVSR: Fantastic Video Upscalers and Where to Find Them [PDF]

[arxiv 2025.07] VSRM: A Robust Mamba-Based Framework for Video Super-Resolution [PDF]

[arxiv 2025.07] DAM-VSR: Disentanglement of Appearance and Motion for Video Super-Resolution [PDF,Page]

[arxiv 2025.08] Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration [PDF,Page]

[arxiv 2025.08] CineScale: Free Lunch in High-Resolution Cinematic Visual Generation [PDF,Page]

[arxiv 2025.10] Continuous Space-Time Video Super-Resolution with 3D Fourier Fields [PDF,Page]

[arxiv 2025.10] PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution [PDF]

[arxiv 2025.10] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution [PDF,Page]

[arxiv 2025.10] InfVSR: Breaking Length Limits of Generic Video Super-Resolution [PDF,Page]

[arxiv 2025.10] FlashVSR: Towards Real-Time Diffusion-Based Streaming Video Super-Resolution [PDF,Page]

[arxiv 2025.10] UltraGen: High-Resolution Video Generation with Hierarchical Attention [PDF,Page]

[arxiv 2025.10] Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance [PDF,Page]

[arxiv 2025.12] Transform Trained Transformer: Accelerating Naive 4K Video Generation Over 10 [PDF,Page]

[arxiv 2025.12] HiStream: Efficient High-Resolution Video Generation via Redundancy Eliminated Streaming [PDF,Page]

[arxiv 2025.12] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion [PDF,Page]

[arxiv 2026.01] Zero-Shot Video Restoration and Enhancement with Assistance of Video Diffusion Models [PDF]

[arxiv 2026.03] Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution [PDF]

[arxiv 2026.03] FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion [PDF,Page]

[arxiv 2026.03] ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images [PDF]

[arxiv 2026.03] DUO-VSR: Dual-Stream Distillation for One-Step Video Super-Resolution [PDF,Page]

[arxiv 2026.04] GS-STVSR: Ultra-Efficient Continuous Spatio-Temporal Video Super-Resolution via 2D Gaussian Splatting [PDF]

[arxiv 2026.03] [PDF,Page]

restoration

[arxiv 2024.08] Towards Real-world Event-guided Low-light Video Enhancement and Deblurring[PDF]

[arxiv 2024.08] Cross-Modal Temporal Alignment for Event-guided Video Deblurring[PDF]

[arxiv 2025.01] SVFR: A Unified Framework for Generalized Video Face Restoration [PDF,Page]

[arxiv 2025.02] Human Body Restoration with One-Step Diffusion Model and A New Benchmark [PDF,Page]

[arxiv 2025.10] MoA-VR: A Mixture-of-Agents System Towards All-in-One Video Restoration [PDF,Page]

[arxiv 2026.03] [PDF,Page]

downstream apps

[arxiv 2023.11]Breathing Life Into Sketches Using Text-to-Video Priors [PDF,Page]

[arxiv 2023.11]Flow-Guided Diffusion for Video Inpainting [PDF]

[arxiv 2024.02]Animated Stickers: Bringing Stickers to Life with Video Diffusion [PDF]

[arxiv 2024.03]DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation [PDF,Page]

[arxiv 2024.03]Intention-driven Ego-to-Exo Video Generation [PDF]

[arxiv 2024.04]PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [PDF,Page]

[arxiv 2024.04]Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos [PDF,Page]

[arxiv 2024.04]Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [PDF, Page]

[arxiv 2024.05] ViViD: Video Virtual Try-on using Diffusion Models [PDF,Page]

[arxiv 2024.05] VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers[PDF,Page]

[arxiv 2024.07]WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [PDF, Page]

[arxiv 2024.07]Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion [PDF, Page]

[arxiv 2024.08] Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving[PDF, Page]

[arxiv 2024.08]Diffusion Models Are Real-Time Game Engines [PDF, Page]

[arxiv 2024.09] DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [PDF, Page]

[arxiv 2024.09] Pose-Guided Fine-Grained Sign Language Video Generation [PDF]

[arxiv 2024.10] VidPanos: Generative Panoramic Videos from Casual Panning Videos [PDF, Page]

[arxiv 2024.11] GameGen-X: Interactive Open-world Game Video Generation[PDF, Page]

[arxiv 2024.11] Fashion-VDM: Video Diffusion Model for Virtual Try-On [PDF, Page]

[arxiv 2024.11] EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [PDF, Page]

[arxiv 2024.11] FlipSketch: Flipping Static Drawings to Text-Guided Sketch Animations [PDF, Page]

[arxiv 2024.11] PhysMotion: Physics-Grounded Dynamics From a Single Image [PDF,Page]

[arxiv 2024.11] InTraGen: Trajectory-controlled Video Generation for Object Interactions [PDF,Page]

[arxiv 2024.12] MatchDiffusion:Training-free Generation of Match-Cuts [PDF,Page]

[arxiv 2024.12] Instructional Video Generation [PDF,Page]

[arxiv 2024.12] InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [PDF,Page]

[arxiv 2024.12] Video Creation by Demonstration [PDF,Page]

[arxiv 2024.12] InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [PDF,Page]

[arxiv 2025.01] TransPixar: Advancing Text-to-Video Generation with Transparency [PDF,Page]

[arxiv 2025.01] Cosmos World Foundation Model Platform for Physical AI [PDF,Page]

[arxiv 2025.01] SynthLight: Portrait Relighting with Diffusion Model by Learning to Re-render Synthetic Faces [PDF,Page]

[arxiv 2025.01] VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization [PDF,Page]

[arxiv 2025.01] RelightVid: Temporal-Consistent Diffusion Model for Video Relighting [PDF]

[arxiv 2025.02] Mobius: Text to Seamless Looping Video Generation via Latent Shift [PDF,Page]

[arxiv 2025.03] TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [PDF,Page]

[arxiv 2025.04] Every Painting Awakened: A Training-free Framework for Painting-to-Animation Generation [PDF,Page]

[arxiv 2025.04] VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step [PDF,Page]

[arxiv 2025.04] Scene Splatter: Momentum 3D Scene Generation from Single Image with Video Diffusion Model [PDF,Page]

[arxiv 2025.04] Aligning Anime Video Generation with Human Feedback [PDF]

[arxiv 2025.06] LayerFlow: A Unified Model for Layer-aware Video Generation [PDF,Page]

[arxiv 2025.08] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing [PDF,Page]

[arxiv 2025.08] CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models [PDF,Page]

[arxiv 2025.09] CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion [PDF]

[arxiv 2025.09] ControlHair: Physically-based Video Diffusion for Controllable Dynamic Hair Rendering [PDF,Page]

[arxiv 2025.10] Code2Video: A Code-centric Paradigm for Educational Video Generation [PDF,Page]

[arxiv 2025.10] Paper2Video: Automatic Video Generation from Scientific Papers [PDF,Page]

[arxiv 2025.10] Generating Human Motion Videos using a Cascaded Text-to-Video Framework [PDF,Page]

[arxiv 2025.11] RelightMaster: Precise Video Relighting with Multi-plane Light Images [PDF,Page]

[arxiv 2025.11] EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses [PDF,Page]

[arxiv 2025.12] WorldWander: Bridging Egocentric and Exocentric Worlds in Video Generation [PDF,Page]

[arxiv 2025.12] SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation [PDF]

[arxiv 2025.12] UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [PDF,Page]

[arxiv 2025.12] StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation [PDF,Page]

[arxiv 2025.12] What Happens Next? Next Scene Prediction with a Unified Video Model [PDF,Page]

[arxiv 2025.12] EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decomposition [PDF,Page]

[arxiv 2026.01] DreamLoop: Controllable Cinemagraph Generation from a Single Photograph [PDF,Page]

[arxiv 2026.01] CoMoVi: Co-Generation of 3D Human Motions and Realistic Videos [PDF,Page]

[arxiv 2026.03] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens [PDF,Page]

[arxiv 2026.03] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video [PDF,Page]

[arxiv 2026.03] WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation [[PDF,Page]]

[arxiv 2026.03] Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation [PDF,Page]

[arxiv 2026.03] FlashSign: Pose-Free Guidance for Efficient Sign Language Video Generation [PDF]

[arxiv 2026.03] OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation [PDF,Page]

[arxiv 2026.04] Lighting-grounded Video Generation with Renderer-based Agent Reasoning [PDF]

[arxiv 2026.04] HDR Video Generation via Latent Alignment with Logarithmic Encoding [PDF,Page]

[arxiv 2026.04] Seeing Fast and Slow: Learning the Flow of Time in Videos [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Concept

[arxiv 2023.07]Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [PDF, Page]

[arxiv 2023.11]VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning[PDF,Page]

[arxiv 2023.12]VideoAssembler: Identity-Consistent Video Generation with Reference Entities using Diffusion Model [PDF,Page]

[arxiv 2023.12]VideoBooth: Diffusion-based Video Generation with Image Prompts [PDF,Page]

[arxiv 2023.12]DreamVideo: Composing Your Dream Videos with Customized Subject and Motion [PDF,Page]

[arxiv 2023.12]PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [PDF]

[arxiv 2024.01]CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [PDF]

[arxiv 2024.02]Magic-Me: Identity-Specific Video Customized Diffusion [PDf,Page]

[arxiv 2024.03]EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing [PDF,Page]

[arxiv 2024.04]AniClipart: Clipart Animation with Text-to-Video Priors [PDF,Page]

[arxiv 2024.04]ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [PDF,Page]

[arxiv 2024.07]Still-Moving: Customized Video Generation without Customized Video Data [PDF,Page]

[arxiv 2024.08] CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities[PDF,Page]

[arxiv 2024.10] TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [PDF,Page]

[arxiv 2024.10] PersonalVideo: High ID-Fidelity Video Customization With Static Images [PDF,Page]

[arxiv 2024.10] DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [PDF,Page]

[arxiv 2024.12] MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [PDF,Page]

[arxiv 2024.12] Multi-Shot Character Consistency for Text-to-Video Generation [PDF,Page]

[arxiv 2024.12] LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [PDF,Page]

[arxiv 2024.12] CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training [PDF,Page]

[arxiv 2025.01] VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models [PDF,Page]

[arxiv 2025.01] Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers [PDF,Page]

[arxiv 2025.01] ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [PDF,Page]

[arxiv 2025.01] Multi-subject Open-set Personalization in Video Generation [PDF,Page]

[arxiv 2025.01] EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [PDF]

[arxiv 2025.02] Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts [PDF,Page]

[arxiv 2025.02] Phantom: Subject-consistent video generation via cross-modal alignment [PDF,Page]

[arxiv 2025.02] FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation [PDF,Page]

[arxiv 2025.03] CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [PDF,Page]

[arxiv 2025.03] Concat-ID: Towards Universal Identity-Preserving Video Synthesis [PDF,Page]

[arxiv 2025.03] VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models [PDF,Page] !

[arxiv 2025.03] FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [PDF,Page] ![Code]

[arxiv 2025.04] JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [PDF,Page]

[arxiv 2025.04] SkyReels-A2: Compose Anything in Video Diffusion Transformers [PDF,Page]

[arxiv 2025.04] Subject-driven Video Generation via Disentangled Identity and Motion [PDF,Page]

[arxiv 2025.05] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation [PDF,Page]

[arxiv 2025.06] HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation [PDF,Page]

[arxiv 2025.07] Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [PDF,Page]

[arxiv 2025.07] Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [PDF]

[arxiv 2025.08] LaVieID: Local Autoregressive Diffusion Transformers for Identity-Preserving Video Creation [PDF,Page]

[arxiv 2025.08] Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation [PDF,Page]

[arxiv 2025.09] Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [PDF,Page]

[arxiv 2025.09] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning [PDF,Page]

[arxiv 2025.10] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [PDF]

[arxiv 2025.10] Continual Personalization for Diffusion Models [PDF]

[arxiv 2025.10] Character Mixing for Video Generation [PDF,Page]

[arxiv 2025.10] Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model [PDF,Page]

[arxiv 2025.10] BachVid: Training-Free Video Generation with Consistent Background and Character [PDF,Page]

[arxiv 2025.11] ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [PDF]

[arxiv 2025.11] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [PDF,Page]

[arxiv 2025.11] First Frame Is the Place to Go for Video Content Customization [PDF,Page]

[arxiv 2025.12] MoFu: Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation [PDF]

[arxiv 2026.01] Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding [PDF]

[arxiv 2026.03] WildActor Unconstrained Identity-Preserving Video Generation [PDF,Page]

[arxiv 2026.03] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning [PDF,Page]

[arxiv 2026.03] 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model [PDF,Page]

[arxiv 2026.03] LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation [[PDF, Page]]

[arxiv 2026.03] Identity-Consistent Video Generation under Large Facial-Angle Variations [PDF]

[arxiv 2026.03] RefAlign: Representation Alignment for Reference-to-Video Generation [PDF,Page]

[arxiv 2026.03] AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References [PDF,Page]

[arxiv 2026.03] [PDF,Page]

multi-view

[arxiv 2026.01] MV-S2V: Multi-View Subject-Consistent Video Generation [PDF,Page]

[arxiv 2026.04] Action Images: End-to-End Policy Learning via Multiview Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

relation

[arxiv 2025.03] DreamRelation: Relation-Centric Video Customization [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Talking Face

[arxiv 2024.02]EMO Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions [PDF,Page]

[arxiv 2024.04] VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time [PDF,Page]

[arxiv 2024.04]MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting[PDF,Page]

[arxiv 2024.06]V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation[PDF,Page]

[arxiv 2024.06]Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation[PDF,Page]

[arxiv 2024.06] X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [PDF,Page]

[arxiv 2024.09] CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention[PDF,Page]

[arxiv 2024.09] SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [PDF]

[arxiv 2024.09] Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [PDF,Page]

[arxiv 2024.09] DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [PDF]

[arxiv 2024.09] Stable Video Portraits [PDF,Page]

[arxiv 2024.09] Portrait Video Editing Empowered by Multimodal Generative Priors [PDF,Page]

[arxiv 2024.10] Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation [PDF,Page]

[arxiv 2024.10] DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [PDF,Page]

[arxiv 2024.12] HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level andFidelity-Rich Conditions in Diffusion Models [PDF,Page]

[arxiv 2024.10] Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization [PDF]

[arxiv 2024.11] X-Portrait 2: Highly Expressive Portrait Animation [PDF,Page]

[arxiv 2024.11] EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation[PDF,Page]

[arxiv 2024.11] ConsistentAvatar: Learning to Diffuse Fully Consistent Talking Head Avatar with Temporal Guidance [PDF]

[arxiv 2024.11] LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis [PDF,Page]

[arxiv 2024.11] EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [PDF]

[arxiv 2024.11] Sonic: Shifting Focus to Global Audio Perception in Portrait Animation [PDF,Page]

[arxiv 2024.12] EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [PDF,Page]

[arxiv 2024.12] FLOAT Generative Motion Latent Flow Matching for Audio-driven Talking Portrait [PDF,Page]

[arxiv 2024.12] Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks [PDF,Page]

[arxiv 2024.12] MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [PDF,Page]

[arxiv 2024.12] PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [PDF]

[arxiv 2024.12] CAP4D: Creating Animatable 4D Portrait Avatars with Morphable Multi-View Diffusion Models [PDF,Page]

[arxiv 2024.12] VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [PDF,Page]

[arxiv 2024.12] OSA-LCM: Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [PDF,Page]

[arxiv 2024.12] INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [PDF,Page]

[arxiv 2025.01] JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing [PDF,Page]

[arxiv 2025.02] Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model [PDF]

[arxiv 2025.02] SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [PDF]

[arxiv 2025.02] SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformer [PDF,Page]

[arxiv 2025.02] AV-Flow: Transforming Text to Audio-Visual Human-like Interactions [PDF,Page]

[arxiv 2025.02] InsTaG: Learning Personalized 3D Talking Head from Few-Second Video [PDF,Page]

[arxiv 2025.02] ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [PDF,Page]

[arxiv 2025.02] High-Fidelity Relightable Monocular Portrait Animation with Lighting-Controllable Video Diffusion Model [PDF]

[arxiv 2025.03] KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation [PDF]

[arxiv 2025.03] PC-Talk: Precise Facial Animation Control for Audio-Driven Talking Face Generation [PDF,Page]

[arxiv 2025.03] Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control [PDF,Page]

[arxiv 2025.04] Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation [PDF,Page]

[arxiv 2025.04] OmniTalker: Real-Time Text-Driven Talking Head Generation with In-Context Audio-Visual Style Replication [PDF,Page]

[arxiv 2025.05] IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos [PDF,Page]

[arxiv 2025.07] MoDA: Multi-modal Diffusion Architecture for Talking Head Generation [PDF]

[arxiv 2025.07] ATL-Diff: Audio-Driven Talking Head Generation with Early Landmarks-Guide Noise Diffusion [PDF,Page]

[arxiv 2025.07] Livatar-1: Real-Time Talking Heads Generation with Tailored Flow Matching [PDF,Page]

[arxiv 2025.07] Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [PDF]

[arxiv 2025.07] Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads [PDF,Page]

[arxiv 2025.08] RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis [PDF]

[arxiv 2025.08] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [PDF,Page]

[arxiv 2025.09] Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding [PDF,Page]

[arxiv 2025.09] Stable Video-Driven Portraits [PDF]

[arxiv 2025.09] Follow-Your-Emoji-Faster: Towards Efficient, Fine-Controllable, and Expressive Freestyle Portrait Animation [PDF,Page]

[arxiv 2025.10] Audio Driven Real-Time Facial Animation for Social Telepresence [PDF,Page]

[arxiv 2025.10] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation [PDF,Page]

[arxiv 2025.10] MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control [PDF]

[arxiv 2025.12] IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer [PDF,Page]

[arxiv 2025.12] DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations [PDF,Page]

[arxiv 2025.12] In-Context Audio Control of Video Diffusion Transformers [PDF]

[arxiv 2025.12] DyStream: Streaming Dyadic Talking Heads Generation via Flow Matching-based Autoregressive Model [PDF,Page]

[arxiv 2026.01] RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation [PDF]

[arxiv 2026.03] ECHO: Towards Emotionally Appropriate and Contextually Aware Interactive Head Generation [PDF]

[arxiv 2026.03] EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control [PDF]

[arxiv 2026.03] [PDF,Page]

Talking Body

[arxiv 2024.09] CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention [PDF,Page]

[arxiv 2025.01] EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [PDF,Page]

[arxiv 2025.02] OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models [PDF,Page]

[arxiv 2025.03] Versatile Multimodal Controls for Whole-Body Talking Human Animation [PDF]

[arxiv 2025.03] MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice [PDF,Page]

[arxiv 2025.04] MoCha: Towards Movie-Grade Talking Character Synthesis [PDF,Page]

[arxiv 2025.04] FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [PDF,Page]

[arxiv 2025.04] DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance [PDF,Page]

[arxiv 2025.05] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation [PDF,Page]

[arxiv 2025.05] Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation [PDF,Page]

[arxiv 2025.06] Seeing Voices: Generating A-Roll Video from Audio with Mirage [PDF,Page]

[arxiv 2025.06] HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [PDF,Page]

[arxiv 2025.06] Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation [PDF,Page]

[arxiv 2025.06] TalkingMachines:Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models [PDF,Page]

[arxiv 2025.06] AlignHuman: Improving Motion and Fidelity via Timestep-Segment Preference Optimization for Audio-Driven Human Animation [PDF,Page]

[arxiv 2025.06] OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation [PDF,Page]

[arxiv 2025.07] EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [PDF]

[arxiv 2025.07] Democratizing High-Fidelity Co-Speech Gesture Video Generation [PDF,Page]

[arxiv 2025.08] StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [PDF,Page]

[arxiv 2025.08] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation [PDF,Page]

[arxiv 2025.08] InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [PDF,Page]

[arxiv 2025.08] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [PDF,Page]

[arxiv 2025.08] Wan-S2V: Audio-Driven Cinematic Video Generation [PDF]

[arxiv 2025.08] MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation [PDF,Page]

[arxiv 2025.08] InfinityHuman: Towards Long-Term Audio-Driven Human [PDF,Page]

[arxiv 2025.09] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning [PDF,Page]

[arxiv 2025.09] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis [PDF,Page]

[arxiv 2025.10] X-Streamer: Unified Human World Modeling with Audiovisual Interaction [PDF,Page]

[arxiv 2025.10] VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework [PDF]

[arxiv 2025.11] ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search [PDF]

[arxiv 2025.12] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement [PDF,Page]

[arxiv 2025.12] Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation [PDF,Page]

[arxiv 2025.12] KlingAvatar 2.0 Technical Report [PDF,Page]

[arxiv 2025.12] TalkVerse: Democratizing Minute-Long Audio-Driven Video Generation [PDF,Page]

[arxiv 2025.12] ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars [PDF,Page]

[arxiv 2026.01] Making Avatars Interact Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars [PDF,Page]

[arxiv 2026.01] JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning [PDF,Page]

[arxiv 2026.03] Gloria: Consistent Character Video Generation via Content Anchors [PDF,Page]

[arxiv 2026.04] TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation [PDF]

[arxiv 2026.04] LPM 1.0: Video-based Character Performance Model [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Listen

[arxiv 2025.04] DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion [PDF,Page]

[arxiv 2025.06] Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Realtime Avatar

[arxiv 2025.12] JoyAvatar: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion [PDF]

[arxiv 2025.12] PersonaLive! Expressive Portrait Image Animation for Live Streaming [PDF,Page]

[arxiv 2025.12] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [PDF,Page]

[arxiv 2025.12] StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [PDF,Page]

[arxiv 2025.12] Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [PDF,Page]

[arxiv 2025.12] SoulX-LiveTalk Technical Report [PDF,Page]

[arxiv 2026.01] Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation [PDF,Page]

[arxiv 2026.01] FlowAct-R1: Towards Interactive Humanoid Video Generation [PDF,Page]

[arxiv 2026.02] EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation [PDF]

[arxiv 2026.03] AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising [PDF,Page]

[arxiv 2026.03] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory [PDF,Page]

[arxiv 2026.04] LPM 1.0: Video-based Character Performance Model [PDF,Page]

[arxiv 2026.04] EmbodiedHead: Real-Time Listening and Speaking Avatar for Conversational Agents [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Multi-person talking Video Generation

[arxiv 2025.06] Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation [PDF,Page]

[arxiv 2025.06] InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions [PDF]

[arxiv 2025.08] ShoulderShot: Generating Over-the-Shoulder Dialogue Videos [PDF,Page]

[arxiv 2026.03] InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance [PDF,Page] [arxiv 2026.03] [PDF,Page]

HOI

[arxiv 2024.11] AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation [PDF,Page]

[arxiv 2026.03] DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary [PDF,Page]

[arxiv 2026.04] OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

video-driven talking

[arxiv 2025.04] DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance [PDF,Page]

[arxiv 2025.07] FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers [PDF,Page]

[arxiv 2025.09] Wan-Animate: Unified Character Animation and Replacement with Holistic Replication [PDF,Page]

[arxiv 2026.03] [PDF,Page]

video dubbing

[arxiv 2024.10] MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting [PDF,Page]

[arxiv 2024.12] LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync [PDF,Page]

[arxiv 2025.03] RASA: Replace Anyone, Say Anything – A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing [PDF,Page]

[arxiv 2025.04] DeepDubber-V1: Towards High Quality and Dialogue, Narration, Monologue Adaptive Movie Dubbing Via Multi-Modal Chain-of-Thoughts Reasoning Guidance. [PDF]

[arxiv 2025.04] VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models [PDF,Page]

[arxiv 2025.05] FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [PDF,Page]

[arxiv 2025.05] KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [PDF,Page]

[arxiv 2025.06] SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [PDF,Page]

[arxiv 2025.09] StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [PDF,Page]

[arxiv 2025.12] SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild [PDF,Page]

[arxiv 2025.12] From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing [PDF,Page]

[arxiv 2026.03] OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing [PDF,Page]

[arxiv 2026.04] CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [PDF]

[arxiv 2026.03] [PDF,Page]

chatting

[arxiv 2025.09] X-Streamer: Unified Human World Modeling with Audiovisual Interaction [PDF,Page]

[arxiv 2026.03] [PDF,Page]

TTS

[arxiv 2025.07] IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech [PDF]

[arxiv 2025.02] IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System [PDF,Page]

[arxiv 2026.03] [PDF,Page]

HOI

[arxiv 2026.03] MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [PDF]

[arxiv 2026.03] [PDF,Page]

duplex

[arxiv 2025.05] DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations [PDF,Page]

[arxiv 2025.07] ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Interaction

[arxiv 2025.07] Populate-A-Scene: Affordance-Aware Human Video Generation [PDF]

[arxiv 2025.10] MATRIX: Mask Track Alignment for Interaction-aware Video Generation [PDF,Page]

[arxiv 2025.11] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Ego

[arxiv 2025.06] PlayerOne: Egocentric World Simulator [PDF,Page]

Face swapping

[arxiv 2024.12] HiFiVFS: High Fidelity Video Face Swapping [PDF,Page]

[arxiv 2025.03] High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning [PDF]

[arxiv 2025.06] Controllable and Expressive One-Shot Video Head Swapping [PDF,Page]

[arxiv 2026.01] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer [PDF,Page]

[arxiv 2026.04] DiffMagicFace: Identity Consistent Facial Editing of Real Videos [PDF]

[arxiv 2026.03] [PDF,Page]

Image-to-video Generation

[arxiv 2023.09]VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [PDF]

[arxiv 2023.09]Generative Image Dynamics [PDF,Page]

[arxiv 2023.10]DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [PDF, Page]

[arxiv 2023.11]SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [PDF,Page]

[arxiv 2023.11]I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models [PDF,Page]

[arxiv 2023.11]Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning [PDF,Page]

[arxiv 2023.11]MoVideo: Motion-Aware Video Generation with Diffusion Models[PDF,Page]

[arxiv 2023.11]Make Pixels Dance: High-Dynamic Video Generation[PDF,Page]

[arxiv 2023.11]Decouple Content and Motion for Conditional Image-to-Video Generation [PDF]

[arxiv 2023.12]ART•V: Auto-Regressive Text-to-Video Generation with Diffusion Models [PDF, Page]

[arxiv 2023.12]MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation [PDF, Page]

[arxiv 2023.12]DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [PDF,Page]

[arxiv 2023.12]LivePhoto: Real Image Animation with Text-guided Motion Control [PDF, Page]

[arxiv 2023.12]I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models [PDF]

[arxiv 2023.11] Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning [PDF,Page]

[arxiv 2024.01]UniVG: Towards UNIfied-modal Video Generation [PDF,Page]

[arxiv 2024.03]Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation [PDF,Page]

[arxiv 2024.03]AtomoVideo: High Fidelity Image-to-Video Generation [PDF,Page]

[arxiv 2024.03]Pix2Gif: Motion-Guided Diffusion for GIF Generation[PDF,Page]

[arxiv 2024.03]Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts [PDF,Page]

[arxiv 2024.03]TimeRewind: Rewinding Time with Image-and-Events Video Diffusion [PDF,Page]

[arxiv 2024.03]TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models [PDF,Page]

[arxiv 2024.04]LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [PDF]

[arxiv 2024.04]TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models [PDF,Page]

[arxiv 2024.06] I4VGen: Image as Stepping Stone for Text-to-Video Generation[PDF,Page]

[arxiv 2024.06] AID: Adapting Image2Video Diffusion Models for Instruction-based Video Prediction[PDF,Page]

[arxiv 2024.06] Identifying and Solving Conditional Image Leakage in Image-to-Video Generation[PDF,Page]

[arxiv 2024.07]Cinemo: Consistent and Controllable Image Animation with Motion Diffusion Models [PDF,Page]

[arxiv 2024.09] PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [PDF,Page]

[arxiv 2024.10] FrameBridge: Improving Image-to-Video Generation with Bridge Models [PDF,Page]

[arxiv 2025.01] Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [PDF,Page]

[arxiv 2025.02] MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [PDF]

[arxiv 2026.03] [PDF,Page]

4D generation

[arxiv 2023.11]Animate124: Animating One Image to 4D Dynamic Scene [PDF,Page]

[arxiv 2023.12]4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling[PDF, Page]

[arxiv 2023.12]4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [PDF,Page]

[arxiv 2023.12]DreamGaussian4D: Generative 4D Gaussian Splatting [PDF, Page]

[arxiv 2024.10] AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [PDF,Page]

[arxiv 2024.10] Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [PDF,Page]

[arxiv 2024.11] DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [PDF,Page]

[arxiv 2024.12] Diffusion Self-Distillation for Zero-Shot Customized Image Generation [PDF,Page]

[arxiv 2024.12] PaintScene4D: Consistent 4D Scene Generation from Text Prompts [PDF,Page]

[arxiv 2024.12] 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion [PDF,Page]

[arxiv 2024.12] Birth and Death of a Rose [PDF,Page]

[arxiv 2024.12] DNF: Unconditional 4D Generation with Dictionary-based Neural Fields [PDF,Page]

[arxiv 2025.01] AR4D: Autoregressive 4D Generation from Monocular Videos [PDF,Page]

[arxiv 2025.02] MVTokenFlow: High-quality 4D Content Generation using Multiview Token Flow [PDF,Page]

[arxiv 2025.03] SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation [PDF]

[arxiv 2025.03] Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [PDF,Page]

[arxiv 2025.03] Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model [PDF,Page]

[arxiv 2025.04] Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization [PDF,Page]

[arxiv 2025.06] ORV: 4D Occupancy-centric Robot Video Generation [PDF,Page]

[arxiv 2025.07] Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [PDF,Page]

[arxiv 2025.08] 4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation [PDF,Page]

[arxiv 2025.08] Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [PDF,Page]

[arxiv 2025.08] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy [PDF,Page]

[arxiv 2026.01] Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [PDF,Page]

[arxiv 2026.03] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward [PDF,Page]

[arxiv 2026.03] [PDF,Page]

stereo video generation

[arxiv 2025.05] HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation [PDF,Page]

[arxiv 2026.03] Stereo World Model: Camera-Guided Stereo Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Audio-to-video Generation

[arxiv 2023.09]Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [PDF]

[arxiv 2024.02]Seeing and Hearing Open-domain Visual-Audio Generation with Diffusion Latent Aligners [PDF,Page]

[arxiv 2024.04]TAVGBench: Benchmarking Text to Audible-Video Generation [PDF,Page]

[arxiv 2024.09] Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [PDF,Page]

[arxiv 2024.11] Tell What You Hear From What You See -- Video to Audio Generation Through Text [PDF,Page]

[arxiv 2024.12] AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [PDF,Page]

[arxiv 2024.12] Every Image Listens, Every Image Dances: Music-Driven Image Animation [PDF]

[arxiv 2025.02] AGAV-Rater: Enhancing LMM for AI-Generated Audio-Visual Quality Assessment [PDF,Page]

[arxiv 2025.02] UniForm: A Unified Diffusion Transformer for Audio-Video Generation [PDF,Page]

[arxiv 2025.03] MusicInfuser: Making Video Diffusion Listen and Dance [PDF,Page]

[arxiv 2025.03] Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [PDF,Page]

[arxiv 2025.04] KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation [PDF,Page]

[arxiv 2025.06] Audio-Sync Video Generation with Multi-Stream Temporal Control [PDF,Page]

[arxiv 2025.09] Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Joint Generation

[arxiv 2025.04] JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [PDF,Page]

[arxiv 2025.06] Audio-Sync Video Generation with Multi-Stream Temporal Control [PDF,Page]

[arxiv 2025.07] JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching [PDF,Page]

[arxiv 2025.08] AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [PDF,Page]

[arxiv 2025.09] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts [PDF,Page]

[arxiv 2025.10] Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation [PDF,Page]

[arxiv 2025.10] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [PDF,Page]

[arxiv 2025.11] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions [PDF,Page]

[arxiv 2025.12] JoVA: Unified Multimodal Learning for Joint Video-Audio Generation [PDF,Page]

[arxiv 2026.01] LTX-2: Efficient Joint Audio-Visual Foundation Model [PDF,Page]

[arxiv 2026.01] MM-Sonate: Multimodal Controllable Audio-Video Generation with Zero-Shot Voice Cloning [PDF]

[arxiv 2026.01] Klear: Unified Multi-Task Audio-Video Joint Generation [PDF]

[arxiv 2026.02] MOVA: Towards Scalable and Synchronized Video-Audio Generation [PDF,Page]

[arxiv 2026.02] Alive: Animate Your World with Lifelike Audio-Video Generation [PDF,Page]

[arxiv 2026.02] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [PDF,Page]

[arxiv 2026.02] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model [PDF]

[arxiv 2026.03] OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [PDF,Page]

[arxiv 2026.03] Improving Joint Audio-Video Generation with Cross-Modal Context Learning [PDF]

[arxiv 2026.03] [PDF,Page]

joint ID

[arxiv 2026.02] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation [PDF,Page]

[arxiv 2026.02] OmniCustom: Sync Audio-Video Customization Via Joint Audio-Video Generation Model [PDF,Page]

[arxiv 2026.03] Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

video-to-audio generation

[arxiv 2024.07] Read, Watch and Scream! Sound Generation from Text and Video [PDF, Page]

[arxiv 2025.03] AudioX: Diffusion Transformer for Anything-to-Audio Generation [PDF,Page]

[arxiv 2025.03] DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation [PDF]

[arxiv 2025.04] Extending Visual Dynamics for Video-to-Music Generation [PDF】

[arxiv 2025.06] Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes [PDF,Page]

[arxiv 2025.07] Hear-Your-Click: Interactive Video-to-Audio Generation via Object-aware Contrastive Audio-Visual Fine-tuning [PDF,Page]

[arxiv 2025.07] ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [PDF,Page]

[arxiv 2025.07] AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [PDF,Page]

[arxiv 2025.08] HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation [PDF,Page]

[arxiv 2025.08] AudioStory: Generating Long-Form Narrative Audio with Large Language Models [PDF,Page]

[arxiv 2025.08] AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [PDF,Page]

[arxiv 2025.09] Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [PDF,Page]

[arxiv 2025.10] Clink! Chop! Thud! — Learning Object Sounds from Real-World Interactions [PDF,Page]

[arxiv 2025.10] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video [PDF,Page]

[arxiv 2025.12] EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation [PDF,Page]

[arxiv 2026.01] Omni2Sound: Towards Unified Video-Text-to-Audio Generation [PDF,Page]

[arxiv 2026.01] SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation [PDF]

[arxiv 2026.03] V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation [PDF,Page]

[arxiv 2026.04] ControlFoley: Unified and Controllable Video-to-Audio Generation with Cross-Modal Conflict Handling [PDF,Page]

[arxiv 2026.04] Hierarchical Codec Diffusion for Video-to-Speech Generation [PDF]

[arxiv 2026.04] Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation [PDF]

[arxiv 2026.03] [PDF,Page]

unified editing and generation

[arxiv 2025.03] InsViE-1M: Effective Instruction-based Video Editing with Elaborate Dataset Construction [PDF,Page]

[arxiv 2025.03] VACE: All-in-One Video Creation and Editing [PDF,Page]

[arxiv 2025.03] VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation [[PDF](VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation),Page]

[arxiv 2025.06] Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks [PDF,Page]

[arxiv 2025.06] UNIC: Unified In-Context Video Editing [PDF,Page]

[arxiv 2025.07] OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [PDF,Page]

[arxiv 2025.08] DreamVE: Unified Instruction-based Image and Video Editing [PDF,Page]

[arxiv 2025.10] UniVideo: Unified Understanding, Generation, and Editing for Videos [PDF,Page]

[arxiv 2025.10] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset [PDF,Page]

[arxiv 2025.12] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [PDF,Page]

[arxiv 2025.12] Kling-Omni Technical Report [PDF,Page]

[arxiv 2025.12] Region-Constraint In-Context Generation for Instructional Video Editing [PDF,Page]

[arxiv 2026.01] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer [PDF,Page]

[arxiv 2026.02] Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing [PDF]

[arxiv 2026.02] Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing [PDF,Page]

[arxiv 2026.03] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance [PDF,Page]

[arxiv 2026.03] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing [PDF,Page]

[arxiv 2026.03] OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning [PDF,Page]

[arxiv 2026.03] [PDF,Page]

editing with video models

[arxiv 2023.12]VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models[PDF,Page]

[arxiv 2023.12]Neutral Editing Framework for Diffusion-based Video Editing [PDF,Page]

[arxiv 2024.01]FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis[PDF,Page]

[arxiv 2024.02]UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [PDF,Page]

[arxiv 2024.02]Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [PDF,Page]

[arxiv 2024.03]FastVideoEdit: Leveraging Consistency Models for Efficient Text-to-Video Editing[PDF]

[arxiv 2024.03]DreamMotion: Space-Time Self-Similarity Score Distillation for Zero-Shot Video Editing [PDF,Page]

[arxiv 2024.03]EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [PDF]

[arxiv 2024.03]Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [PDF,Page]

[arxiv 2024.03]AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks [PDF,Page]

[arxiv 2024.04]Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [PDF]

[arxiv 2024.05]I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models[PDF,Page]

[arxiv 2024.05] Streaming Video Diffusion: Online Video Editing with Diffusion Models[PDF,Page]

[arxiv 2024.06]Zero-Shot Video Editing through Adaptive Sliding Score Distillation[PDF,Page]

[arxiv 2024.06]FRAG: Frequency Adapting Group for Diffusion Video Editing[PDF]

[arxiv 2024.07] Fine-gained Zero-shot Video Sampling[PDF,Page]

[arxiv 2024.09] DNI: Dilutional Noise Initialization for Diffusion Video Editing [PDF]

[arxiv 2024.10]FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing[PDF,Page]

[arxiv 2024.11] StableV2V: Stablizing Shape Consistency in Video-to-Video Editing [PDF,Page]

[arxiv 2024.11] VIRES: Video Instance Repainting with Sketch and Text Guidance [PDF]

[arxiv 2024.11] VideoDirector: Precise Video Editing via Text-to-Video Models [PDF,Page]

[arxiv 2024.11] AutoVFX: Physically Realistic Video Editing from Natural Language Instructions [PDF,Page]

[arxiv 2024.12] MoViE: Mobile Diffusion for Video Editing [PDF]

[arxiv 2024.12] Re-Attentional Controllable Video Diffusion Editing [PDF,Page]

[arxiv 2024.12] MIVE: New Design and Benchmark for Multi-Instance Video Editing [PDF,Page]

[arxiv 2024.12] AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction [PDF,Page]

[arxiv 2025.01] Generative Video Propagation [PDF,Page]

[arxiv 2025.02] DynVFX: Augmenting Real Videos with Dynamic Content [PDF,Page]

[arxiv 2025.02] Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance [PDF,Page]

[arxiv 2025.02] VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer [PDF,Page]

[arxiv 2025.02] AdaFlow: Efficient Long Video Editing via Adaptive Attention Slimming And Keyframe Selection [PDF,Page]

[arxiv 2025.02] VideoGrain: Modulating Space-Time Attention for Multi-Grained Video Editing [PDF,Page]

[arxiv 2025.03] SwapAnyone: Consistent and Realistic Video Synthesis for Swapping Any Person into Any Video [PDF,Page]

[arxiv 2025.04] Understanding Attention Mechanism in Video Diffusion Models [PDF]

[arxiv 2025.04] Visual Prompting for One-shot Controllable Video Editing without Inversion [PDF,Page]

[arxiv 2025.04] Towards Generalized and Training-Free Text-Guided Semantic Manipulation [PDF]

[arxiv 2025.05] DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [PDF,Page]

[arxiv 2025.06] FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [PDF,Page]

[arxiv 2025.06] FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [PDF,Page]

[arxiv 2025.06] LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning [PDF,Page]

[arxiv 2025.06] UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting [PDF,Page]

[arxiv 2025.06] DFVEdit: Conditional Delta Flow Vector for Zero-shot Video Editing [PDF,Page]

[arxiv 2025.06] Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [PDF,Page]

[arxiv 2025.08] DreamSwapV: Mask-guided Subject Swapping for Any Customized Video Editing [PDF]

[arxiv 2025.08] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models [PDF,Page]

[arxiv 2025.09] ANYPORTAL: Zero-Shot Consistent Video Background Replacement [PDF,Page]

[arxiv 2025.09] EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [PDF,Page]

[arxiv 2025.09] Taming Flow-based I2V Models for Creative Video Editing [PDF]

[arxiv 2025.10] Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime! [PDF]

[arxiv 2025.10] InstructX: Towards Unified Visual Editing with MLLM Guidance [PDF,Page]

[arxiv 2025.10] VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [PDF]

[arxiv 2025.11] MotionV2V: Editing Motion in a Video [PDF,Page]

[arxiv 2025.12] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning [PDF,Page]

[arxiv 2025.12] EasyV2V: A High-quality Instruction-based Video Editing Framework [PDF,Page]

[arxiv 2025.12] InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion [PDF,Page]

[arxiv 2026.01] Tuning-free Visual Effect Transfer across Videos [PDF,Page]

[arxiv 2026.01] EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers [PDF,Page]

[arxiv 2026.01] CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation [PDF,Page]

[arxiv 2026.02] EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing [PDF,Page]

[arxiv 2026.02] ChordEdit: One-Step Low-Energy Transport for Image Editing [PDF,Page]

[arxiv 2026.03] When to Lock Attention: Training-Free KV Control in Video Diffusion [PDF]

[arxiv 2026.03] ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer [PDF]

[arxiv 2026.03] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [PDF,Page]

[arxiv 2026.03] TRACE: Object Motion Editing in Videos with First-Frame Trajectory Guidance [PDF,Page]

[arxiv 2026.03] AVControl: Efficient Framework for Training Audio-Visual Controls [PDF,Page]

[arxiv 2026.04] ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks [PDF]

[arxiv 2026.04] InsEdit: Towards Instruction-based Visual Editing via Data-Efficient Video Diffusion Models Adaptation [PDF]

[arxiv 2026.04] LIVE: Leveraging Image Manipulation Priors for Instruction-based Video Editing [PDF]

[arxiv 2026.03] [PDF,Page]

Editing with image model

*[arxiv 2022.12]Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [PDF, Page]

[arxiv 2023.03]Video-P2P: Video Editing with Cross-attention Control [PDF, Page]

[arxiv 2023.03]Edit-A-Video: Single Video Editing with Object-Aware Consistency [PDF, Page]

[arxiv 2023.03]FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [PDF, Page]

[arxiv 2023.03]Pix2Video: Video Editing using Image Diffusion [PDF]

->[arxiv 2023.03]Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [PDF, code]

[arxiv 2023.03]Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models[PDF,code]

[arxiv 2023.04]Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos[PDF]

[arxiv 2023.05]ControlVideo: Training-free Controllable Text-to-Video Generation [PDF, Page]

[arxiv 2023.05]Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models[PDF, Page]

[arxiv-2023.05]Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation [PDF, Page]

[arxiv 2023.05]Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models [PDF]

[arxiv 2023.05]SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for Text-guided Video Editing [PDF]

[arxiv 2023.05]InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [PDF]

[arxiv 2023.05] ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing [PDF, Page]

[arxiv 2023.05]Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising [PDF,Page]

[arxiv 2023.06]Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance [PDF, Page]

[arxiv 2023.06]VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [PDF,Page]

*[arxiv 2023.06]Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [PDF, Page]

*[arxiv 2023.07]AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning [PDF, Page]

*[arxiv 2023.07]TokenFlow: Consistent Diffusion Features for Consistent Video Editing [PDF,Page]

[arxiv 2023.07]VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet [PDF, Page]

[arxiv 2023.08]CoDeF: Content Deformation Fields for Temporally Consistent Video Processing [PDF, Page]

[arxiv 2023.08]DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory [PDF, Page]

[arxiv 2023.08]StableVideo: Text-driven Consistency-aware Diffusion Video Editing [PDF, Page]

[arxiv 2023.08]Edit Temporal-Consistent Videos with Image Diffusion Model [PDF]

[arxiv 2023.08]EVE: Efficient zero-shot text-based Video Editing with Depth Map Guidance and Temporal Consistency Constraints [PDF]

[arxiv 2023.08]MagicEdit: High-Fidelity and Temporally Coherent Video Editing [PDF, Page]

[arxiv 2023.09]MagicProp: Diffusion-based Video Editing via Motionaware Appearance Propagation[PDF]

[arxiv 2023.09]Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator[PDF, Page]

[arxiv 2023.09]CCEdit: Creative and Controllable Video Editing via Diffusion Models [PDF]

[arxiv 2023.10]Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [PDF,Page]

[arxiv 2023.10]FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing [PDF,Page]

[arxiv 2023.10]ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [PDF,Page]

[arxiv 2023.10, nerf] DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing [PDF, Page]

[arxiv 2023.10]LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [PDF,Page]

[arxiv 2023.11]LATENTWARP: CONSISTENT DIFFUSION LATENTS FOR ZERO-SHOT VIDEO-TO-VIDEO TRANSLATION [PDF]

[arxiv 2023.11]Cut-and-Paste: Subject-Driven Video Editing with Attention Control[PDF]

[arxiv 2023.11]MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation [PDF]

[arxiv 2023.12]Motion-Conditioned Image Animation for Video Editing [PDF, Page]

[arxiv 2023.12]RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models [PDF,Page]

[arxiv 2023.12]DiffusionAtlas: High-Fidelity Consistent Diffusion Video Editing [PDF]

[arxiv 2023.12]MagicStick: Controllable Video Editing via Control Handle Transformations [PDF,Page]

[arxiv 2023.12]SAVE: Protagonist Diversification with Structure Agnostic Video Editing [PDF,Page]

[arxiv 2023.12]VidToMe: Video Token Merging for Zero-Shot Video Editing [PDF,Page]

[arxiv 2023.12]Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [PDF,Page]

[arxiv 2024.1]Object-Centric Diffusion for Efficient Video Editing [PDF]

[arxiv 2024.1]VASE: Object-Centric Shape and Appearance Manipulation of Real Videos [PDF,Page]

[arxiv 2024.03]FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [PDF,Page]

[arxiv 2024.04]GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [PDF]

[arxiv 2024.05]Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [PDF,Page]

[arxiv 2024.05] Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices [PDF,Page]

[arxiv 2024.05] Looking Backward: Streaming Video-to-Video Translation with Feature Banks [PDF,Page]

[arxiv 2024.06]Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control [PDF]

[arxiv 2024.06]NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing[PDF,Page]

[arxiv 2024.06]VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing [PDF,Page]

[arxiv 2024.10] L-C4: Language-Based Video Colorization for Creative and Consistent Color [PDF]

[arxiv 2024.10] HARIVO: Harnessing Text-to-Image Models for Video Generation [PDF,Page]

[arxiv 2024.12] DIVE: Taming DINO for Subject-Driven Video Editing [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Completion (animation, interpolation, prediction)

[arxiv 2022; Meta] Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation [PDF, code]

[arxiv 2023.03]LDMVFI: Video Frame Interpolation with Latent Diffusion Models[PDF]

*[arxiv 2023.03]Seer: Language Instructed Video Prediction with Latent Diffusion Models [PDF]

[arxiv 2024.12] Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation [PDF,Page]

[arxiv 2023.10]DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [PDF, Page]

[arxiv 2024.03]Explorative Inbetweening of Time and Space [PDF,Page]

[arxiv 2024.04]Video Interpolation With Diffusion Models [PDF,Page]

[arxiv 2024.04]Sparse Global Matching for Video Frame Interpolation with Large Motion [PDF,Page]

[arxiv 2024.04]LADDER: An Efficient Framework for Video Frame Interpolation [PDF]

[arxiv 2024.04]Motion-aware Latent Diffusion Models for Video Frame Interpolation [PDF]

[arxiv 2024.04]Event-based Video Frame Interpolation with Edge Guided Motion Refinement [PDF]

[arxiv 2024.04]StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [PDF,Page]

[arxiv 2024.04]Frame Interpolation with Consecutive Brownian Bridge Diffusion[PDF,Page]

[arxiv 2024.05]ToonCrafter: Generative Cartoon Interpolation [PDF,Page]

[arxiv 2024.06]Disentangled Motion Modeling for Video Frame Interpolation [PDF,Page]

[arxiv 2024.07] VFIMamba: Video Frame Interpolation with State Space Models [PDF,Page]

[arxiv 2024.08] Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation[PDF,Page]

[arxiv 2024.10] High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion [PDF,Page]

[arxiv 2024.10] Framer: Interactive Frame Interpolation [PDF,Page]

[arxiv 2024.12] Advanced Video Inpainting Using Optical Flow-Guided Efficient Diffusion [PDF]

[arxiv 2024.12] Elevating Flow-Guided Video Inpainting with Reference Generation [PDF,Page]

[arxiv 2024.12] Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [PDF,Page]

[arxiv 2025.01] MoG: Motion-Aware Generative Frame Interpolation [PDF,Page]

[arxiv 2025.02] Seeing World Dynamics in a Nutshell [PDF,Page]

[arxiv 2025.02] Event-based Video Frame Interpolation with Cross-Modal Asymmetric Bidirectional Motion Fields [PDF,Page]

[arxiv 2025.03] VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control [PDF,Page]

[arxiv 2025.03] MTV-Inpaint: Multi-Task Long Video Inpainting [PDF,Page]

[arxiv 2025.03] EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation [PDF,Page]

[arxiv 2025.03] EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation [PDF,Page]

[arxiv 2025.04] Hierarchical Flow Diffusion for Efficient Frame Interpolation [PDF,Page]

[arxiv 2025.04] Time-adaptive Video Frame Interpolation based on Residual Diffusion [PDF]

[arxiv 2025.05] TimeTracker: Event-based Continuous Point Tracking for Video Frame Interpolation with Non-linear Motion [PDF】

[arxiv 2025.06] Controllable Human-centric Keyframe Interpolation with Generative Prior [PDF,Page]

[arxiv 2025.07] Semantic Frame Interpolation [PDF,Page]

[arxiv 2025.07]TLB-VFI: Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation [PDF]

[arxiv 2025.10] Arbitrary Generative Video Interpolation [PDF,Page]

[arxiv 2025.10] MultiCOIN: Multi-Modal COntrollable Video INbetweening [PDF,Page]

[arxiv 2026.03] [PDF,Page]

style transfer

[arxiv 2023.06]Probabilistic Adaptation of Text-to-Video Models [PDF]

[arxiv 2023.11]Highly Detailed and Temporal Consistent Video Stylization via Synchronized Multi-Frame Diffusion[PDF]

[arxiv 2023.12]StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter[PDF,Page]

[arxiv 2023.12]DragVideo: Interactive Drag-style Video Editing [PDF]

[arxiv 2024.03]FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [PDF,Page]

[arxiv 2024.10] UniVST: A Unified Framework for Training-free Localized Video Style Transfer [PDF]

[arxiv 2024.12] StyleMaster: Stylize Your Video with Artistic Generation and Translation [PDF,Page]

[arxiv 2025.03] SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [PDF]

[arxiv 2025.06] Dreamland: Controllable World Creation with Simulator and Generative Models [PDF,Page]

[arxiv 2025.10] FreeViS: Training-free Video Stylization with Inconsistent References [PDF,Page]

[arxiv 2025.10] PickStyle: Video-to-Video Style Transfer with Context-Style Adapters [PDF,Page]

[arxiv 2026.01] DreamStyle: A Unified Framework for Video Stylization [PDF,Page]

[arxiv 2026.01] QwenStyle: Content-Preserving Style Transfer with Qwen-Image-Edit [PDF,Page]

[arxiv 2026.01] TeleStyle: Content-Preserving Style Transfer in Images and Videos [PDF,Page]

[arxiv 2026.04] DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer [PDF]

[arxiv 2026.03] [PDF,Page]

architecture/distribution

[arxiv 2024.12] Efficient Continuous Video Flow Model for Video Prediction [PDF]

[arxiv 2025.02] Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [PDF]

[arxiv 2025.02] Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [PDF,Page]

[arxiv 2025.10] Uniform Discrete Diffusion with Metric Path for Video Generation [PDF,Page]

[arxiv 2025.11] Fractional Diffusion Bridge Models [PDF]

[arxiv 2025.12] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation [PDF,Page]

[arxiv 2026.01] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction [PDF,Page]

[arxiv 2026.01] Stable Velocity: A Variance Perspective on Flow Matching [PDF,Page]

[arxiv 2026.03] Scale Space Diffusion [PDF,Page]

[arxiv 2026.03] Reviving ConvNeXt for Efficient Convolutional Diffusion Models [PDF,Page]

[arxiv 2026.03] [PDF,Page]

embodied AI

[arxiv 2026.01] Rethinking Video Generation Model for the Embodied World [PDF,Page]

[arxiv 2026.03] Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis [PDF]

[arxiv 2026.03] Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning [PDF,Page]

[arxiv 2026.03] ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment [PDF]

[arxiv 2026.03] [PDF,Page]

Evaluation

[arxiv 2023.10]EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [PDF,Page]

[arxiv 2023.11]FETV: A Benchmark for Fine-Grained Evaluation of Open-Domain Text-to-Video Generation [PDF]

[arxiv 2023.11]Online Video Quality Enhancement with Spatial-Temporal Look-up Tables [PDF]

[ICCV 2023]Exploring Video Quality Assessment on User Generated Contents from Aesthetic and Technical Perspectives [PDF,Page]

[arxiv 2023.10]EvalCrafter: Benchmarking and Evaluating Large Video Generation Models[PDF, Page]

[arxiv 2023.11]HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment [PDF]

[arxiv 2023.12]VBench: Comprehensive Benchmark Suite for Video Generative Models [PDF, Page]

[arxiv 2024.02]Perceptual Video Quality Assessment: A Survey [PDF]

[arxiv 2024.02]KVQ: Kaleidoscope Video Quality Assessment for Short-form Videos [PDf]

[arxiv 2024.03]STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [PDF]

[arxiv 2024.03]Modular Blind Video Quality Assessment [PDF]

[arxiv 2024.03]Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment [PDF]

[arxiv 2024.06] GenAI Arena: An Open Evaluation Platform for Generative Models[PDF,Page]

[arxiv 2024.06]VideoPhy: Evaluating Physical Commonsense for Video Generation [PDF,Page]

[arxiv 2024.07]T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [PDF,Page]

[arxiv 2024.07]Fr'echet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [PDF]

[arxiv 2024.10] The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [PDF,Page]

[arxiv 2024.10] Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality[PDF,Page]

[arxiv 2024.11] ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [PDF,Page]

[arxiv 2024.11] VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [PDF,Page]

[arxiv 2024.12] Is Your World Simulator a Good Story Presenter? A Consecutive Events-Based Benchmark for Future Long Video Generation [PDF,Page]

[arxiv 2025.01] MEt3R: Measuring Multi-View Consistency in Generated Images [PDF,Page]

[arxiv 2025.02] MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation [PDF]

[arxiv 2025.03] What Are You Doing? A Closer Look at Controllable Human Video Generation [PDF,Page]

[arxiv 2025.03] Exploring the Evolution of Physics Cognition in Video Generation: A Survey [PDF,Page]

[arxiv 2025.03] VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [PDF,Page]

[arxiv 2025.04] VideoGen-Eval: Agent-based System for Video Generation Evaluation [PDF,Page]

[arxiv 2025.04] Video-Bench: Human-Aligned Video Generation Benchmark [PDF,Page]

[arxiv 2025.04] Can You Count to Nine? A Human Evaluation Benchmark for Counting Limits in Modern Text-to-Video Models [PDF]

[arxiv 2025.04] VEU-Bench: Towards Comprehensive Understanding of Video Editing [PDF,Page]

[arxiv 2025.05] Direct Motion Models for Assessing Generated Videos [PDF,Page]

[arxiv 2025.06] ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models [PDF,Page]

[arxiv 2025.10] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation [PDF,Page]

[arxiv 2025.10] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment [PDF,Page]

[arxiv 2025.10] Rethinking Visual Intelligence: Insights from Video Pretraining [PDF]

[arxiv 2025.10] Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark [PDF,Page]

[arxiv 2025.10] LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation [PDF]

[arxiv 2025.11] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm [PDF,Page]

[arxiv 2025.11] VR-Bench: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks [PDF,Page]

[arxiv 2025.11] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models [PDF,Page]

[arxiv 2025.12] SVBench: Evaluation of Video Generation Models on Social Reasoning [PDF,Page]

[arxiv 2025.12] VIPER: Process-aware Evaluation for Generative Video Reasoning [PDF]

[arxiv 2026.01] Are Video Generation Models Geographically Fair? An Attraction-Centric Evaluation of Global Visual Knowledge [PDF]

[arxiv 2026.01] Omni-Judge: Can Omni-LLMs Serve as Human-Aligned Judges for Text-Conditioned Audio-Video Generation? [PDF,Page]

[arxiv 2026.03] MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [PDF】

[arxiv 2026.03] Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning [[PDF]]

[arxiv 2026.03] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [PDF]

[arxiv 2026.03] EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos [PDF,Page]

[arxiv 2026.03] SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation [PDF]

[arxiv 2026.04] AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [PDF]

[arxiv 2026.04] OmniHuman: A Large-scale Dataset and Benchmark for Human-Centric Video Generation [PDF]

[arxiv 2026.04] HumanScore: Benchmarking Human Motions in Generated Videos [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Survey

[arxiv 2023.03]A Survey on Video Diffusion Models [PDF]

[arxiv 2024.05]Video Diffusion Models: A Survey [PDF]

[arxiv 2024.07]Diffusion Model-Based Video Editing: A Survey [PDF,Page]

[ResearchGate 2024.07]Conditional Video Generation Guided by Multimodal Inputs: A Comprehensive Survey [PDF]

[arxiv 2025.04] Survey of Video Diffusion Models: Foundations, Implementations, and Applications [PDF]

Edge device

[arxiv 2026.01] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [PDF]

[arxiv 2026.01] S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation [PDF]

[arxiv 2026.01] NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices [PDF]

[arxiv 2026.04] MUA: Mobile Ultra-detailed Animatable Avatars [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Speed

[arxiv 2023.12]F3-Pruning: A Training-Free and Generalized Pruning Strategy towards Faster and Finer Text-to-Video Synthesis [PDF]

[arxiv 2023.12]VideoLCM: Video Latent Consistency Model [PDF]

[arxiv 2024.01]FlashVideo: A Framework for Swift Inference in Text-to-Video Generation [PDF]

[arxiv 2024.01]AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning [PDF,Page]

[arxiv 2024.03]AnimateDiff-Lightning: Cross-Model Diffusion Distillation [PDF]

[arxiv 2024.05] T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback[PDF,Page]

[arxiv 2024.05] PCM : Phased Consistency Model[PDF,Page]

[arxiv 2024.06]SF-V: Single Forward Video Generation Model [PDF,Page]

[arxiv 2024.06] Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation [PDF, Page]

[arxiv 2024.07]QVD: Post-training Quantization for Video Diffusion Models [PDF,Page]

[arxiv 2024.08]Real-Time Video Generation with Pyramid Attention Broadcast [PDF,Page]

[arxiv 2024.11] Adaptive Caching for Faster Video Generation with Diffusion Transformers [PDF,Page]

[arxiv 2024.11] Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [PDF]

[arxiv 2024.11] Accelerating Vision Diffusion Transformers with Skip Branches [PDF,Page]

[arxiv 2024.12] Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model [PDF,Page]

[arxiv 2024.12] Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [PDF,]

[arxiv 2024.12] Accelerating Video Diffusion Models via Distribution Matching [PDF]

[arxiv 2024.12] From Slow Bidirectional to Fast Causal Video Generators [PDF,Page]

[arxiv 2024.12] Mobile Video Diffusion [PDF]

[arxiv 2024.12] AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration [PDF]

[arxiv 2024.12] SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [PDF,Page]

[arxiv 2025.01] Diffusion Adversarial Post-Training for One-Step Video Generation [PDF]

[arxiv 2025.02] Fast Video Generation with SLIDING TILE ATTENTION [PDF]

[arxiv 2025.02] Magic 1-For-1: Generating One Minute Video Clips within One Minute [PDF,Page]

[arxiv 2025.02] Hardware-Friendly Static Quantization Method for Video Diffusion Transformers [PDF]

[arxiv 2025.03] W2SVD: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis [PDF,Page]

[arxiv 2025.04] On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [PDF,Page]

[arxiv 2025.05] Training-Free Efficient Video Generation via Dynamic Token Carving [PDF,Page]

[arxiv 2025.05] REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [PDF,Page]

[arxiv 2025.05] DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [PDF,Page]

[arxiv 2025.05] Faster Video Diffusion with Trainable Sparse Attention [PDF]

[arxiv 2025.05] QVGen: Pushing the Limit of Quantized Video Generative Models [PDF]

[arxiv 2025.06] DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [PDF,Page]

[arxiv 2025.06] Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [PDF,Page]

[arxiv 2025.06] FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion [PDF,Page]

[arxiv 2025.06] MagCache: Fast Video Generation with Magnitude-Aware Cache [PDF,Page]

[arxiv 2025.06] Autoregressive Adversarial Post-Training for Real-Time Interactive Video Generation [PDF,Page]

[arxiv 2025.07] VMoBA: Mixture-of-Block Attention for Video Diffusion Models [PDF,Page]

[arxiv 2025.07] Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching [PDF,Page]

[arxiv 2025.07] StreamDiT: Real-Time Streaming Text-to-Video Generation [PDF,Page]

[arxiv 2025.07] Taming Diffusion Transformer for Real-Time Mobile Video Generation [PDF,Page]

[arxiv 2025.08] HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models [PDF,Page]

[arxiv 2025.08] SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [PDF]

[arxiv 2025.08] TaoCache: Structure-Maintained Video Generation Acceleration [PDF]

[arxiv 2025.08] Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [PDF,Page]

[arxiv 2025.08] MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration [PDF]

[arxiv 2025.08] POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [PDF,Page]

[arxiv 2025.10] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation [PDF,Page]

[arxiv 2025.10] LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation [PDF]

[arxiv 2025.10] rCM: Score-Regularized Continuous-Time Consistency Model [PDF,Page]

[arxiv 2025.11] Towards One-Step Causal Video Generation via Adversarial Self-Distillation [PDF,Page]

[arxiv 2025.11] MotionStream: Real-Time Video Generation with Interactive Motion Controls [PDF,Page]

[arxiv 2025.11] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [PDF,Page]

[arxiv 2025.11] PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling [PDF]

[arxiv 2025.12] MobileI2V: Fast and High-Resolution Image-to-Video on Mobile Devices [PDF,Page]

[arxiv 2025.12] PSA: Pyramid Sparse Attention for Efficient Video Understanding andGeneration [PDF,Page]

[arxiv 2025.12] Few-Step Distillation for Text-to-Image Generation: A Practical Guide [PDF,Page]

[arxiv 2025.12] TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times [PDF,Page]

[arxiv 2026.01] PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [PDF]

[arxiv 2026.01] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head [PDF,Page]

[arxiv 2026.01] Transition Matching Distillation for Fast Video Generation [PDF,Page]

[arxiv 2026.01] Efficient Autoregressive Video Diffusion with Dummy Head [PDF,Page]

[arxiv 2026.01] VMonarch: Efficient Video Diffusion Transformers with Structured Attention [PDF]

[arxiv 2026.01] FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space [PDF,Page]

[arxiv 2026.01] Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention [PDF,Page]

[arxiv 2026.01] Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention [PDF,Page]

[arxiv 2026.01] FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion [PDF,Page]

[arxiv 2026.02] DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers [PDF]

[arxiv 2026.02] Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers [PDF]

[arxiv 2026.02] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models [PDF,Page]

[arxiv 2026.03] FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters [PDF]

[arxiv 2026.03] PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation [PDF]

[arxiv 2026.03] Accelerating Text-to-Video Generation with Calibrated Sparse Attention [PDF]

[arxiv 2026.03] FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis [PDF]

[arxiv 2026.03] FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation [PDF]

[arxiv 2026.03] SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing [PDF]

[arxiv 2026.03] LatSearch: Latent Reward-Guided Search for Faster Inference-Time Scaling in Video Diffusion [PDF,Page]

[arxiv 2026.03] 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models [PDF]

[arxiv 2026.03] Training-Free Sparse Attention for Fast Video Generation via Offline Layer-Wise Sparsity Profiling and Online Bidirectional Co-Clustering [PDF]

[arxiv 2026.03] InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting [PDF]

[arxiv 2026.03] Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation [PDF,Page]

[arxiv 2026.04] Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation [PDF]

[arxiv 2026.04] Not All Frames Deserve Full Computation: Accelerating Autoregressive Video Generation via Selective Computation and Predictive Extrapolation [PDF]

[arxiv 2026.04] Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation [PDF]

[arxiv 2026.04] AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation [PDF]

[arxiv 2026.04] Sparse Forcing: Native Trainable Sparse Attention for Real-time Autoregressive Diffusion Video Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Dataset optimization

[arxiv 2025.01] A Large-Scale Study on Video Action Dataset Condensation [PDF,Page]

Others

[arxiv 2023.05]AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion [PDF]

[arxiv 2023.05]Multi-object Video Generation from Single Frame Layouts [PDF]

[arxiv 2023.06]Learn the Force We Can: Multi-Object Video Generation from Pixel-Level Interactions [PDF]

[arxiv 2023.08]DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis [PDF]

[arxiv 2026.04] Moiré Video Authentication: A Physical Signature Against AI Video Generation [PDF]

CG2real

[arxiv 2024.09] AMG: Avatar Motion Guided Video Generation [PDF,Page]

[arxiv 2024.09] Compositional 3D-aware Video Generation with LLM Director [PDF,Page]

[arxiv 2024.10] SceneCraft: Layout-Guided 3D Scene Generation [PDF,Page]

[arxiv 2024.10] Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [PDF,Page]

[arxiv 2024.10] Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion [PDF,Page]

[arxiv 2024.10] FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [PDF,Page]

[arxiv 2026.01] Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets [PDF]

[arxiv 2026.03] RealMaster: Lifting Rendered Scenes into Photorealistic Video [PDF,Page]

[arxiv 2026.04] ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation [PDF]

[arxiv 2026.03] [PDF,Page]

world model & interactive generation

[arxiv 2024.06] AVID: Adapting Video Diffusion Models to World Models [PDF,Page]

[arxiv 2024.08]Diffusion Models Are Real-Time Game Engines [PDF,Page]

[arxiv 2024.08] Body of Her: A Preliminary Study on End-to-End Humanoid Agent [PDF]

[arxiv 2024.09] Video Game Generation: A Practical Study using Mario [PDF,Page]

[arxiv 2024.10] WorldSimBench: Towards Video Generation Models as World Simulators [PDF,Page]

[arxiv 2024.10] Agent-to-Sim: Learning Interactive Behavior Models from Casual Longitudinal Videos [PDF,Page]

[arxiv 2024.10] SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation [PDF,Page]

[arxiv 2024.10] ADAM: An Embodied Causal Agent in Open-World Environments [PDF,Page]

[arxiv 2024.11] How Far is Video Generation from World Model: A Physical Law Perspective [PDF,Page]

[arxiv 2024.11] Oasis: an interactive, explorable world model [PDF,Page]

[arxiv 2024.11] GameGen-X: Interactive Open-world Game Video Generation [PDF,Page]

[arxiv 2024.11] Generative World Explorer [PDF,Page]

[arxiv 2024.11] The Matrix： Infinite-Horizon World Generation with Real-Time Interaction [PDF,Page]

[arxiv 2024.12] Navigation World Models [PDF,Page]

[arxiv 2024.12] GenEx: Generating an Explorable World [PDF,Page]

[arxiv 2025.01] GameFactory: Creating New Games with Generative Interactive Videos [PDF,Page]

[arxiv 2025.02] Pre-Trained Video Generative Models as World Simulators [PDF]

[arxiv 2025.03] Position: Interactive Generative Video as Next-Generation Game Engine [PDF]

[arxiv 2025.04] Can Test-Time Scaling Improve World Foundation Model? [PDF,Page]

[arxiv 2025.04] WorldScore: A Unified Evaluation Benchmark for World Generation [PDF,Page]

[arxiv 2025.04] MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft [PDF,Page]

[arxiv 2025.05] A Survey of Interactive Generative Video [PDF]

[arxiv 2025.05] Vid2World: Crafting Video Diffusion Models to Interactive World Models [PDF,Page]

[arxiv 2025.06] Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [PDF,Page]

[arxiv 2025.06] V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning [PDF,Page]

[arxiv 2025.06] Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition [PDF,Page]

[arxiv 2025.06] From Virtual Games to Real-World Play [PDF,Page]

[arxiv 2025.06] Matrix-Game: Interactive World Foundation Model[PDF,Page]

[arxiv 2025.06] Whole-Body Conditioned Egocentric Video Prediction [PDF,Page]

[arxiv 2025.07] Critiques of World Models [PDF]

[arxiv 2025.07] MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [PDF,Page]

[arxiv 2025.08] Matrix-3D: Omnidirectional Explorable 3D World Generation [PDF,Page]

[arxiv 2025.08] Yan: Foundational Interactive Video Generation [PDF,Page]

[arxiv 2025.08] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model [PDF,Page]

[arxiv 2025.10] VideoVerse: How Far is Your T2V Generator from a World Model? [PDF]

[arxiv 2025.10] World-in-World: World Models in a Closed-Loop World [PDF,Page]

[arxiv 2025.11] World Simulation with Video Foundation Models for Physical AI [PDF,Page]

[arxiv 2025.11] PAN: A World Model for General, Interactable, and Long-Horizon World Simulation [PDF]

[arxiv 2025.11] MagicWorld: Interactive Geometry-driven Video World Exploration [PDF,Page]

[arxiv 2025.12] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model [PDF,Page]

[arxiv 2025.12] RELIC: Interactive Video World Model with Long-Horizon Memory [PDF,Page]

[arxiv 2025.12] LongVie 2: Multimodal Controllable Ultra-Long Video World Model [PDF,Page]

[arxiv 2025.12] WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling [PDF,Page]

[arxiv 2025.12] Spatia: Video Generation with Updatable Spatial Memory [PDF,Page]

[arxiv 2025.12] Yume-1.5: A Text-Controlled Interactive World Generation Model [PDF,Page]

[arxiv 2026.01] Learning Latent Action World Models In The Wild [PDF]

[arxiv 2026.01] StableWorld: Towards Stable and Consistent Long Interactive Video Generation [PDF,Page]

[arxiv 2026.01] Advancing Open-source World Models [PDF,Page]

[arxiv 2026.01] Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [PDF,Page]

[arxiv 2026.01] LIVE: Long-horizon Interactive Video World Modeling [PDF,Page]

[arxiv 2026.01] DreamDojo A Generalist Robot World Model from Large-Scale Human Videos [PDF,Page]

[arxiv 2026.02] WorldCompass: Reinforcement Learning for Long-Horizon World Models [PDF,Page]

[arxiv 2026.02] AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [PDF,Page]

[arxiv 2026.03] ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling [PDF]

[arxiv 2026.03] WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching [PDF,Page]

[arxiv 2026.03] WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation [[PDF,Page]]

[arxiv 2026.03] VectorWorld: Efficient Streaming World Model via Diffusion Flow on Vector Graphs [PDF,Page]

[arxiv 2026.03] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models [PDF,Page]

[arxiv 2026.04] ActionParty: Multi-Subject Action Binding in Generative Video Games [PDF,Page]

[arxiv 2026.04] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens [PDF,Page]

[arxiv 2026.04] HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds [PDF,Page]

[arxiv 2026.04] MultiWorld: Scalable Multi-Agent Multi-View Video World Models [PDF,Page]

[arxiv 2026.03] [PDF,Page]

memory

[arxiv 2025.06] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval [PDF,Page]

[arxiv 2025.06] Video World Models with Long-term Spatial Memory [PDF,Page]

[arxiv 2025.10] EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory [PDF,Page]

[arxiv 2025.10] Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [PDF,Page]

[arxiv 2025.11] Learning Plug-and-play Memory for Guiding Video Diffusion Models [PDF,Page]

[arxiv 2025.12] VL-JEPA: Joint Embedding Predictive Architecture for Vision-language [PDF]

[arxiv 2026.01] Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory [PDF,Page]

[arxiv 2026.03] Grounding World Simulation Models in a Real-World Metropolis [PDF,Page]

[arxiv 2026.03] MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [PDF,Page]

[arxiv 2026.03] MosaicMem: Hybrid Spatial Memory for Controllable Video World Models [PDF,Page]

[arxiv 2026.04] Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation [PDF]

[arxiv 2026.04] WorldMark: A Unified Benchmark Suite for Interactive Video World Models [PDF,Page]

[arxiv 2026.04] X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference [PDF]

[arxiv 2026.03] [PDF,Page]

3D generation

[arxiv 2025.09] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation [PDF]

[arxiv 2025.09] Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets [PDF,Page]

[arxiv 2025.10] Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets [PDF,Page]

[arxiv 2026.04] Rein3D: Reinforced 3D Indoor Scene Generation with Panoramic Video Diffusion Models [PDF]

[arxiv 2026.03] [PDF,Page]

driving

[arxiv 2024.10] FreeVS: Generative View Synthesis on Free Driving Trajectory [PDF,Page]

[arxiv 2024.11] DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [PDF,Page]

[arxiv 2024.12] InfinityDrive: Breaking Time Limits in Driving World Models [PDF,Page]

[arxiv 2024.12] Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [PDF,Page]

[arxiv 2024.12] UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving [PDF,Page]

[arxiv 2024.12] UniScene: Unified Occupancy-centric Driving Scene Generation [PDF,Page]

[arxiv 2024.12] ACT-BENCH: Towards Action Controllable World Models for Autonomous Driving [PDF]

[arxiv 2024.12] Physical-Informed Driving World Model [PDF]

[arxiv 2024.12] Doe-1: Closed-Loop Autonomous Driving with Large World Model [PDF,Page]

[arxiv 2024.12] GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [PDF,Page]

[arxiv 2024.12] StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [PDF]

[arxiv 2025.01] DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [PDF,Page]

[arxiv 2025.01] HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation [PDF,Page]

[arxiv 2025.02] VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [PDF,Page]

[arxiv 2025.03] MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving [PDF,Page]

[arxiv 2025.06] ReSim: Reliable World Simulation for Autonomous Driving [PDF,Page]

[arxiv 2025.07] Epona: Autoregressive Diffusion World Model for Autonomous Driving [PDF,Page]

[arxiv 2025.07] A Survey on Vision-Language-Action Models for Autonomous Drivin [PDF,Page]

[arxiv 2025.08] ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous [PDF,Page]

[arxiv 2025.10] Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models [PDF]

[arxiv 2025.10] DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [PDF,Page]

[arxiv 2026.01] MAD: Motion Appearance Decoupling for efficient Driving World Models [PDF]

[arxiv 2026.01] Drive-JEPA: Video JEPA Meets Multimodal Trajectory Distillation for End-to-End Driving [PDF,Page]

[arxiv 2026.01] UniDriveDreamer: A Single-Stage Multimodal World Model for Autonomous Driving [PDF]

[arxiv 2026.01] InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [PDF,Page]

[arxiv 2026.03] AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving [PDF,Page]

[arxiv 2026.03] WorldCache: Content-Aware Caching for Accelerated Video World Models [PDF,Page]

[arxiv 2026.03] Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving [PDF,Page]

[arxiv 2026.03] Latent-WAM: Latent World Action Modeling for End-to-End Autonomous Driving [PDF]

[arxiv 2026.04] ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving [PDF,Page]

[arxiv 2026.03] [PDF,Page]

Feedback

[arxiv 2024.12] Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [PDF,Page]

[arxiv 2024.12] LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment [PDF,Page]

[arxiv 2024.12] OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [PDF,Page]

[arxiv 2024.12] Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [PDF,Page]

[arxiv 2025.01] Personalized Preference Fine-tuning of Diffusion Models [PDF]

[arxiv 2025.01] Improving Video Generation with Human Feedback [PDF,Page]

[arxiv 2025.02] HuViDPO: Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment [PDF]

[arxiv 2025.02] CHATS: Combining Human-Aligned Optimization and Test-Time Sampling for Text-to-Image Generation [PDF]

[arxiv 2025.05] DanceGRPO: Unleashing GRPO on Visual Generation [PDF,Page]

[arxiv 2025.06] DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models [PDF,Page]

[arxiv 2025.06] RDPO: Real Data Preference Optimization for Physics Consistency Video Generation [PDF,Page]

[arxiv 2025.09] RewardDance: Reward Scaling in Visual Generation [PDF]

[arxiv 2025.10] VideoReward Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning [PDF,Page]

[arxiv 2025.10] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [PDF,Page]

[arxiv 2025.10] RealDPO: Real or Not Real, that is the Preference [PDF,Page]

[arxiv 2025.10] Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning [PDF,Page]

[arxiv 2025.10] Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization [PDF,Page]

[arxiv 2025.10] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences [PDF,Page]

[arxiv 2025.11] Growing with the Generator: Self-paced GRPO for Video Generation [PDF]

[arxiv 2025.12] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation [PDF,Page]

[arxiv 2026.01] TAGRPO: Boosting GRPO on Image-to-Video Generation with Direct Trajectory Alignment [PDF]

[arxiv 2026.01] PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [PDF,Page]

[arxiv 2026.01] Human detectors are surprisingly powerful reward models [PDF,Page]

[arxiv 2026.03] FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation [PDF]

[arxiv 2026.03] SHIFT: Motion Alignment in Video Diffusion Models with Adversarial Hybrid Fine-Tuning [PDF]

[arxiv 2026.03] [PDF,Page]

improving AR

[arxiv 2026.03] AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization [PDF]

[arxiv 2026.03] Astrolabe: Steering Forward-Process RL for Distilled Autoregressive Video Models [PDF,Page]

[arxiv 2026.03] [PDF,Page]

[arxiv 2022.12; ByteDace]PV3D: A 3D GENERATIVE MODEL FOR PORTRAIT VIDEO GENERATION [PDF]

[arxiv 2022.12]MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation[PDF]

[arxiv 2022.12]Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation [PDF, Page]

[arxiv 2023.01]Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [PDF, Page]

[arxiv 2023.01]DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis [PDF, Page]

[arxiv 2023.02 Google]Scaling Vision Transformers to 22 Billion Parameters [PDF]

[arxiv 2023.05]VDT: An Empirical Study on Video Diffusion with Transformers [PDF, code]

[arxiv 2024] MAGVIT-V2 : Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation [PDF]

[arxiv 2024.08]Sapiens: Foundation for Human Vision Models [PDF,Page]

[arxiv 2024.10] ReferEverything: Towards Segmenting Everything We Can Speak of in Videos [PDF,Page]

[arxiv 2024.10]VideoSAM: A Large Vision Foundation Model for High-Speed Video Segmentation [PDF,Page]

[arxiv 2024.11] Generative Omnimatte: Learning to Decompose Video into Layers [PDF,Page]

[arxiv 2025.01] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [PDF,Page]

[arxiv 2026.03] [PDF,Page]

[arxiv 2022.10]DIFFUSEQ: SEQUENCE TO SEQUENCE TEXT GENERATION WITH DIFFUSION MODELS [PDF]

[arxiv 2023.02]The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [PDF]

Speech

[arxiv 2023.01]Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers[PDF, Page]

[arxiv 2024.09]EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions[PDF, Page]

[arxiv 2025.11] MiMo-Embodied: X-Embodied Foundation Model Technical Report [PDF,Page]

[arxiv 2026.01] Causal World Modeling for Robot Control [PDF,Page]

[arxiv 2026.02] WorldArena: A Unified Benchmark for Evaluating Perception and Functional Utility of Embodied World Models [PDF]

[arxiv 2026.03] RealWonder: Real-Time Physical Action-Conditioned Video Generation [PDF,Page]

[arxiv 2026.03] Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics [PDF,Page]

[arxiv 2026.04] CRAFT: Video Diffusion for Bimanual Robot Data Generation [PDF,Page]

[arxiv 2026.03] [PDF,Page]