Awesome Diffusion Model in RL

May 30, 2026 · View on GitHub

GitHub stars GitHub forks

This is a collection of research papers for Diffusion Model in RL. And the repository will be continuously updated to track the frontier of Diffusion RL.

Welcome to follow and star!

Awesome Diffusion Model in RL
- Table of Contents
- Overview of Diffusion Model in RL
  - Advantage
- Papers
  - Arxiv
  - ICML 2026
  - ICLR 2026
  - NeurIPS 2025
  - ICML 2025
  - ICLR 2025
  - NeurIPS 2024
  - ICML 2024
  - CVPR 2024
  - ICLR 2024
  - NeurIPS 2023
  - ICML 2023
  - ICLR 2023
  - ICRA 2023
  - NeurIPS 2022
  - ICML 2022
- Codebase
- Contributing
- License

Overview of Diffusion Model in RL

The Diffusion Model in RL was introduced by “Planning with Diffusion for Flexible Behavior Synthesis” by Janner, Michael, et al. It casts trajectory optimization as a diffusion probabilistic model that plans by iteratively refining trajectories.

image info

There is another way: "Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning" by Wang, Z. proposed Diffusion Model as policy-optimization in offline RL, et al. Specifically, Diffusion-QL forms policy as a conditional diffusion model with states as the condition from the offline policy-optimization perspective.

image info

Advantage

Bypass the need for bootstrapping for long term credit assignment.
Avoid undesirable short-sighted behaviors due to the discounting future rewards.
Enjoy the diffusion models widely used in language and vision, which are easy to scale and adapt to multi-modal data.

Papers

format:
- [title](paper link) [links]
  - author1, author2, and author3...
  - publisher
  - key 
  - code 
  - experiment environment

Arxiv

Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning
- Prajwal Koirala, Cody Fleming
- Key: Offline RL, Flow Matching, Behavior Cloning, Goal-Conditioned RL, Shortcut Models
- ExpEnv: D4RL, OGBench, Robomimic
Enhancing Memory and Imagination Consistency in Diffusion-based World Models via Linear-Time Sequence Modeling
- Jia-Hua Lee, Bor-Jiun Lin, Wei-Fang Sun, Chun-Yi Lee
- Key: Reinforcement Learning, Model-Based Reinforcement Learning, Diffusion Models, Selective State Spaces
- ExpEnv: Atari 100k Benchmark, ViZDoom, MiniGrid
Enhancing Deep Reinforcement Learning: A Tutorial on Generative Diffusion Models in Network Optimization
- Hongyang Du, Ruichen Zhang, Yinqiu Liu, Jiacheng Wang, Yijing Lin, Zonghang Li, Dusit Niyato, Jiawen Kang, Zehui Xiong, Shuguang Cui, Bo Ai, Haibo Zhou, Dong In Kim
- Key: Generative Diffusion Models, Incentive Mechanism Design, Semantic Communications, Internet of Vehicles
- ExpEnv: None
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu
- Key: 3D Diffusion Policy, visual imitation learning
- ExpEnv: MetaWorld, Adroit, DexArt
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning
- Linjiajie Fang, Ruoxue Liu, Jing Zhang, Wenjia Wang, Bing-Yi Jing
- Key: diffusion models, Actor-Critic, offline RL
- ExpEnv: D4RL
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration
- Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine
- Key: diffusion models, Offline RL
- ExpEnv: Real-world robot manipulation
IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies
- Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine
- Key: diffusion models, Offline RL
- ExpEnv: D4RL
To the Noise and Back: Diffusion for Shared Autonomy
- Takuma Yoneda, Luzhe Sun, and Ge Yang, Bradly Stadie, Matthew Walter
- Key: diffusion models, Imitation, Robotics
- ExpEnv: 2D Control, Lunar Lander, Lunar Reacher and Block Pushing
PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play
- Lili Chen, Shikhar Bahl, Deepak Pathak
- Key: diffusion models, Imitation, Robotics
- ExpEnv: CALVIN, Franka Kitchen, Language-Conditioned Ravens
XSkill: Cross Embodiment Skill Discovery
- Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song
- Key: diffusion models, Imitation, Robotics
- ExpEnv: Real-world robot manipulation
Diffusion Co-Policy for Synergistic Human-Robot Collaborative Tasks
- Eley Ng, Ziang Liu, Monroe Kennedy III
- Key: diffusion models, Human-in-the-loop, Robotics
- ExpEnv: Human-in-the-Loop Simulation
GenAug: Retargeting behaviors to unseen situations via Generative Augmentation
- Zoey Chen, Sho Kiami, Abhishek Gupta, Vikash Kumar
- Key: diffusion models, Data Synthesizer, Robotics
- ExpEnv: end-to-end vision manipulation tasks
Scaling Robot Learning with Semantically Imagined Experience
- Tianhe Yu, Ted Xiao, Austin Stone, Jonathan Tompson, Anthony Brohan, Su Wang, Jaspiar Singh, Clayton Tan, Dee M, Jodilyn Peralta, Brian Ichter, Karol Hausman, Fei Xia
- Key: diffusion models, Data Synthesizer, Robotics
- ExpEnv: robot manipulation tasks
Synthetic Experience Replay
- Cong Lu, Philip J. Ball, Yee Whye Teh, Jack Parker-Holder
- Key: diffusion models, Data Synthesizer
- ExpEnv: D4RL
Value function estimation using conditional diffusion models for control
- Bogdan Mazoure, Walter Talbott, Miguel Angel Bautista, Devon Hjelm, Alexander Toshev, Josh Susskind
- Key: diffusion models, off-policy learning, offline RL, reinforcement learning, robotics
- ExpEnv: D4RL
World Models via Policy-Guided Trajectory Diffusion
- Marc Rigter, Jun Yamada, Ingmar Posner
- Key: world models, model-based RL, policy guidance
- ExpEnv: Gym MuJoCo
Diffusion Models for Reinforcement Learning: A Survey
- Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Yong Yu, Weinan Zhang
- Key: survey
Boosting Continuous Control with Consistency Policy
- Yuhui Chen, Haoran Li, Dongbin Zhao
- Key: Q-learning, sample efficiency, Consistency policy
- ExpEnv: DMC, Gym MuJoCo, D4RL
DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning
- Longxiang He, Linrui Zhang, Junbo Tan, Xueqian Wang
- Key: Constrained policy search, Offline-RL
- ExpEnv: D4RL
Learning to Reach Goals via Diffusion
- Vineet Jain, Siamak Ravanbakhsh
- Key: Constrained policy search, Offline-RL
- ExpEnv: offline goal-conditioned setting
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- Key: RLHF, Alignment, Classifier-free
- ExpEnv: Gym MuJoCo
Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning
- Zihan Ding, Chi Jin
- Key: Consistency policy, three typical RL settings
- ExpEnv: D4RL, Gym MuJoCo
MADiff: Offline Multi-agent Learning with Diffusion Models
- Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
- Key: Multi-agent, Offline RL, Classifier-free
- ExpEnv: MPE, SMAC, Multi-Agent Trajectory Prediction (MATP)
Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning
- Suzan Ece Ada, Erhan Oztop, Emre Ugur
- Key: Offline RL, OOD Generalization
- ExpEnv: 2D-Multimodal Contextual Bandit, D4RL
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song
- Key: Robot Manipulation
- ExpEnv: Robomimic, Push-T, Multimodal Block Pushing, Franka Kitchen
Diffusion-based Generation, Optimization, and Planning in 3D Scenes
- Siyuan Huang, Zan Wang, Puhao Li, Baoxiong Jia, Tengyu Liu, Yixin Zhu, Wei Liang, Song-Chun Zhu
- Key: 3D Scene Understanding, Optimization, Planning
- Code: official
- ExpEnv: ScanNet, MultiDex, PROX
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies
- Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping Luo
- Key: Goal-Conditioned Imitation Learning, Robotics, Classifier-free
- ExpEnv: CALVIN, Block-Push, Relay Kitchen

ICML 2026

Reparameterization Flow Policy Optimization
- Hai Zhong, Zhuoran Li, Xun Wang, Longbo Huang
- Key: flow policy optimization, reparameterization policy gradient, stability regularization, exploration regularization
- ExpEnv: locomotion and manipulation tasks with rigid and soft bodies under both state and visual inputs
Mean Flow Policy Optimization
- Xiaoyi Dong, Xi Sheryl Zhang, Jian Cheng
- Key: mean-flow policies, online RL, maximum-entropy RL, efficient flow-based policy optimization
- ExpEnv: MuJoCo and DeepMind Control Suite benchmarks
DADP: Domain Adaptive Diffusion Policy
- Pengcheng Wang, Qinghang Liu, Haotian Lin, Yiheng Li, Guojian Zhan, Masayoshi Tomizuka, Yixiao Wang
- Key: domain-adaptive diffusion policy, disentangled domain representation, zero-shot adaptation, diffusion injection
- ExpEnv: domain-generalization benchmarks across locomotion and manipulation tasks
PromptRL: Prompt Matters in RL for Flow-Based Image Generation
- Fu-Yun Wang, Han Zhang, Michael Gharbi, Hongsheng Li, Taesung Park
- Key: flow-based image generation, RL post-training, prompt refinement, prompt robustness
- ExpEnv: GenEval, OCR accuracy, PickScore, and FLUX.1-Kontext image-editing reward evaluations
FAIL: Flow Matching Adversarial Imitation Learning for Image Generation
- Yeyao Ma, Chen Li, Xiaosong Zhang, Han Hu, Weidi Xie
- Key: adversarial imitation learning, flow matching, reward-free alignment, low-variance pathwise gradients
- ExpEnv: prompt-following and aesthetic benchmarks, plus discrete image and video generation settings with FLUX fine-tuning
Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models
- Shuchen Xue, Chongjian Ge, Shilong Zhang, Yichen Li, Zhi-Ming Ma
- Key: advantage-weighted matching, diffusion RL, score/flow matching alignment, lower-variance policy gradients
- ExpEnv: GenEval, OCR, and PickScore benchmarks on Stable Diffusion 3.5 Medium and FLUX

ICLR 2026

Exploratory Diffusion Model for Unsupervised Reinforcement Learning
- Chengyang Ying, Huayu Chen, Xinning Zhou, Zhongkai Hao, Hang Su, Jun Zhu
- Key: diffusion exploration policy, score-based intrinsic reward, unsupervised RL exploration
- ExpEnv: Maze2d and URLB benchmarks
Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation
- Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yuxin Chen, Yiheng Li, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li
- Key: mean-flow policy, instantaneous velocity constraint, one-step flow action generation
- ExpEnv: Robomimic and OGBench robotic manipulation tasks
Accelerating Diffusion Planners in Offline RL via Reward-Aware Consistency Trajectory Distillation
- Xintong Duan, Yutong He, Fahim Tajwar, Ruslan Salakhutdinov, J Zico Kolter, Jeff Schneider
- Key: consistency trajectory distillation, reward-aware planner compression, efficient offline diffusion planning
- ExpEnv: Gym MuJoCo, FrankaKitchen, and long-horizon planning benchmarks
Dichotomous Diffusion Policy Optimization
- Ruiming Liang, Yinan Zheng, Kexin Zheng, Tianyi Tan, Jianxiong Li, Liyuan Mao, Zhihao Wang, Guang Chen, Hangjun Ye, Jingjing Liu, Jinqiao Wang, Xianyuan Zhan
- Key: dual diffusion-policy optimization, reward-max/reward-min controllable inference, stable policy improvement
- ExpEnv: ExORL, OGBench, and NAVSIM autonomous-driving VLA evaluation
Flow Matching Policy Gradients
- David McAllister, Songwei Ge, Brent Yi, Chung Min Kim, Ethan Weber, Hongsuk Choi, Haiwen Feng, Angjoo Kanazawa
- Key: flow matching policy gradient, on-policy optimization, expressive continuous-action policy learning
- ExpEnv: continuous control benchmarks
Flow Actor-Critic for Offline Reinforcement Learning
- Jongseong Chae, Jongeui Park, Yongjae Shin, Gyeongmin Kim, Seungyul Han, Youngchul Sung
- Key: flow-based actor-critic, conservative critic regularization, robust offline RL optimization
- ExpEnv: D4RL and OGBench

NeurIPS 2025

Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
- Siyan Zhao, Devaansh Gupta, Qinqing Zheng, Aditya Grover
- Key: diffusion language models, post-training, reinforcement learning, reasoning, large language models
- ExpEnv: Diffusion LLM environments (masked dLLMs)
Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL
- Junyu Guo, Zhi Zheng, Donghao Ying, Ming Jin, Shangding Gu, Costas Spanos, Javad Lavaei
- Key: Offline Reinforcement Learning, Safe Reinforcement Learning, Diffusion Models, Constrained RL
- ExpEnv: generic offline RL datasets / robot learning tasks
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
- Zemin Huang, Zhiyang Chen, Zijun Wang, Tiancheng Li, Guo-Jun Qi
- Key: Reinforcement Learning, Diffusion Language Models, Reasoning, Diffusion Chain of Lateral Thought
- ExpEnv: DCoLT
GenPO: Generative Diffusion Models Meet On-Policy Reinforcement Learning
- Shutong Ding, Ke Hu, Shan Zhong, Haoyang Luo, Weinan Zhang, Jingya Wang, Jun Wang, Ye Shi
- Key: Reinforcement Learning, On-Policy Reinforcement Learning, Generative Diffusion Models, Policy Optimization
- ExpEnv: IsaacLab
ADG: Ambient Diffusion-Guided Dataset Recovery for Corruption-Robust Offline Reinforcement Learning
- Zeyuan Liu, Zhihe Yang, Jiawei Xu, Rui Yang, Jiafei Lyu, Baoxiang Wang, Yunjian Xu, Xiu Li
- Key: Offline Reinforcement Learning, Dataset Recovery, Diffusion Models, Offline RL Robustness
- ExpEnv: MuJoCo, Kitchen, Adroit
State-Covering Trajectory Stitching for Diffusion Planners
- Kyowoon Lee, Jaesik Choi
- Key: Offline Reinforcement Learning, Diffusion Models, Trajectory Optimization, Trajectory Stitching, Planning
- ExpEnv: Offline goal-conditioned RL benchmarks
MMaDA: Multimodal Large Diffusion Language Models
- Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang
- Key: Multimodal Diffusion Models, Diffusion Large Language Models, Reinforcement Learning, Multimodal Understanding, Text-to-Image Generation
- ExpEnv: multimodal reasoning, text-to-image generation, and multimodal understanding benchmarks
Uncertainty-Aware Multi-Objective Reinforcement Learning-Guided Diffusion Models for 3D De Novo Molecular Design
- Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, Pingzhao Hu
- Key: 3D Molecular Design, Diffusion Models, Multi-Objective Reinforcement Learning, Uncertainty Quantification, Deep Learning
- ExpEnv: 3D molecular generation
Prior-Guided Diffusion Planning for Offline Reinforcement Learning
- Donghyeon Ki, JunHyeok Oh, Seong-Woong Shim, Byung-Jun Lee
- Key: Diffusion Models, Offline Reinforcement Learning, Planning, Guided Sampling
- ExpEnv: Long-horizon Offline RL benchmarks
Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning
- Xianghua Zeng, Hao Peng, Yicheng Pan, Angsheng Li, Guanlin Wu
- Key: Offline Reinforcement Learning, Diffusion Models, Hierarchical Diffusion, Long-horizon Planning, Trajectory Modeling
- ExpEnv: Long-horizon offline RL benchmarks

ICML 2025

Graph Diffusion for Robust Multi-Agent Coordination
- Xianghua Zeng, Hang Su, Zhengyi Wang, Zhiyuan LIN
- Key: multi-agent coordination, offline reinforcement learning, diffusion models, Multi-Agent Reinforcement Learning (MARL), offline RL, graph diffusion models, policy robustness.
- ExpEnv: Multi-Agent Particle Environments (MPE) (Spread, Tag, World tasks), Multi-Agent MuJoCo (MAMuJoCo) (2-agent halfcheetah, 2-agent ant, 4-agent ant), StarCraft Multi-Agent Challenge (SMAC)
DiMa: Understanding the Hardness of Online Matching Problems via Diffusion Models
- Boyu Zhang, Aocheng Shen, Bing Liu, Qiankun Zhang, Bin Yuan, Jing Wang, Shenghao Liu, Xianjun Deng
- Key: Online Bipartite Matching (OBM), Diffusion Model, Reinforcement Learning, hardness of combinatorial optimization, DDPMs, shortcut policy gradient (SPG), AI-enhanced combinatorial optimization.
- ExpEnv: fractional OBM, OBM with random arrivals, OBM with stochastic rewards, thick-z graph instances.
RobustLight: Improving Robustness via Diffusion Reinforcement Learning for Traffic Signal Control
- Mingyuan Li, Jiahao Wang, Guangsheng Yu, Xu Wang, Qianrun Chen, Wei Ni, Lixiang Li, Haipeng Peng
- Key: reinforcement learning, diffusion, traffic signal control (TSC), robustness, adversarial attacks, missing data, dynamic state infilling.
- ExpEnv: Cityflow (simulator), JiNan Datasets (JiNan1, JiNan2, JiNan3), HangZhou Datasets (HangZhou1, HangZhou2), New York Datasets (Newyork1, Newyork2).
Explainable Concept Generation through Vision-Language Preference Learning for Understanding Neural Networks' Internal Representations
- Aditya Taparia, Som Sagar, Ransalu Senanayake
- Key: Explainable AI (XAI), Concept Generation, Vision-Language Models, Reinforcement Learning, Preference Learning, RL-based preference optimization (RLPO), TCAV, Generative Models, Understanding Neural Networks' Internal Representations, Diffusion Models (Stable Diffusion/SD), Deep Q-Network (DQN).
- ExpEnv: GoogleNet, InceptionV3, ViT, Swin (CNN-based and Transformer-based classifiers pre-trained on ImageNet).

ICLR 2025

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
- Chunting Zhou, LILI YU, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
- Key: multimodal foundation model, multimodal generation and understanding, diffusion, next token prediction
- ExpEnv: Not specified
What Makes a Good Diffusion Planner for Decision Making?
- Haofei Lu, Dongqi Han, Yifei Shen, Dongsheng Li
- Key: Diffusion Models, Offline Reinforcement Learning, Decision Making, Planning
- ExpEnv: Offline RL Benchmarks
Diffusion-Based Planning for Autonomous Driving with Flexible Guidance
- Yinan Zheng, Ruiming Liang, Kexin ZHENG, Jinliang Zheng, Liyuan Mao, Jianxiong Li, Weihao Gu, Rui Ai, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu
- Key: diffusion planning, autonomous driving
- Code: official
- ExpEnv: nuPlan, 200-hour delivery-vehicle driving dataset
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling
- Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Max Du, Chelsea Finn
- Key: Robot Learning, Action Chunking, Test-Time Decoding
- ExpEnv: Seven simulation benchmarks, Two real-world tasks

NeurIPS 2024

Adversarial Environment Design via Regret-Guided Diffusion Models
- Hojun Chung, Junseo Lee, Minsoo Kim, Dohyeong Kim, Songhwai Oh
- Key: Reinforcement Learning, Unsupervised Environment Design, Diffusion Models
- ExpEnv: Minigrid, Partially Observable Maze Navigation, 2D Bipedal Locomotion
Graph Diffusion Policy Optimization
- Yijing Liu, Chao Du, Tianyu Pang, Chongxuan Li, Min Lin, Wei Chen
- Keyword: Graph Generation, Diffusion Models, Reinforcement Learning
- ExpEnv: Drug Design, Graph Generation Tasks
- Code: official
PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference
- Kendong Liu, Zhiyu Zhu, Chuanhao Li, Hui Liu, Huanqiang Zeng, Junhui Hou
- Key: Image Inpainting, Diffusion Models, Reinforcement Learning, Human Preference Alignment
- Exp: Image inpainting comparison, image extension, 3D reconstruction
- Code: official
Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models
- Sangwoong Yoon, Himchan Hwang, Dohyun Kwon, Yung-Kyun Noh, Frank C. Park
- Key: Diffusion Models, Maximum Entropy Inverse Reinforcement Learning (IRL), Energy-Based Models (EBM), Anomaly Detection
- ExpEnv: Empirical studies on generative modeling and anomaly detection tasks.
Text-Aware Diffusion for Policy Learning
- Calvin Luo, Mandy He, Zilai Zeng, Chen Sun
- Key: Reinforcement Learning, Text-Conditioned Diffusion, Zero-Shot Reward, Policy Learning
- ExpEnv: Humanoid, Dog environments, Meta-World
Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient
- Zechu Li, Rickmer Krohn, Tao Chen, Anurag Ajay, Pulkit Agrawal, Georgia Chalvatzaki
- Key: Reinforcement Learning, Multimodal Learning, Diffusion Models, Actor-Critic Algorithm
- ExpEnv: High-dimensional continuous control tasks, Maze navigation with unseen obstacles
Model-Based Diffusion for Trajectory Optimization
- Chaoyi Pan, Zeji Yi, Guanya Shi, Guannan Qu
- Key: Model-Based Diffusion, Trajectory Optimization, Diffusion Models
- ExpEnv: Contact-rich Tasks, High-dimensional Humanoids
Diffusion for World Modeling: Visual Details Matter in Atari
- Eloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret
- Key: Reinforcement Learning, Diffusion Models, World Modeling, Visual Details
- ExpEnv: Atari 100k Benchmark, Counter-Strike: Global Offensive
MADiff: Offline Multi-agent Learning with Diffusion Models
- Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
- Key: Offline Reinforcement Learning, Multi-agent Learning, Diffusion Models, Coordination
- ExpEnv: Multi-agent Learning Tasks
- Code: official
Amortizing Intractable Inference in Diffusion Models for Vision, Language, and Control
- Siddarth Venkatraman, Moksh Jain, Luca Scimeca, Minsu Kim, Marcin Sendera, Mohsin Hasan, Luke Rowe, Sarthak Mittal, Pablo Lemos, Emmanuel Bengio, Alexandre Adam, Jarrid Rector-Brooks, Yoshua Bengio, Glen Berseth, Nikolay Malkin
- Key: Diffusion Models, Amortized Inference, Reinforcement Learning, Vision, Language, Multimodal Data
- ExpEnv: Vision (Classifier Guidance), Language (Infilling under Discrete Diffusion LLM), Multimodal (Text-to-Image Generation), Offline RL Benchmarks
Diffusion Actor-Critic with Entropy Regulator
- Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li
- Key: Reinforcement Learning, Diffusion Models, Entropy Regulation, Multimodal Policy
- ExpEnv: MuJoCo Benchmarks, Multimodal Tasks
Diffusion Spectral Representation for Reinforcement Learning
- Dmitry Shribak, Chen-Xiao Gao, Yitong Li, Chenjun Xiao, Bo Dai
- Key: Reinforcement Learning, Diffusion Models, Representation Learning, Markov Decision Processes (MDP), Partially Observable Markov Decision Processes (POMDP)
- ExpEnv: Various RL Benchmarks (Fully and Partially Observable Settings)

ICML 2024

Resisting Stochastic Risks in Diffusion Planners with the Trajectory Aggregation Tree
- Lang Feng, Pengjie Gu, Bo An, Gang Pan
- Publisher: ICML 2024
- Key: diffusion planners, stochastic risk, tree, training-free
- Code: official
- ExpEnv: Maze2D, MuJoco, D4RL
DiffStitch: Boosting Offline Reinforcement Learning with Diffusion-based Trajectory Stitching
- Guanghe Li, Yixiang Shan, Zhengbang Zhu, Ting Long, Weinan Zhang
- Publisher: ICML 2024
- Key: data augmentation pipeline, offline RL
- Code: official
- ExpEnv: D4RL
Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning
- Xu-Hui Liu, Tian-Shuo Liu, Shengyi Jiang, Ruifeng Chen, Zhilong Zhang, Xinwei Chen, Yang Yu
- Publisher: ICML 2024
- Key: data distribution shift, plug-in approach
- Code: official
- ExpEnv: D4RL, Mujoco, AntMaze Navigation, Adroit Manipulation

CVPR 2024

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis
- Nilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson, David Fouhey, Leonidas Guibas
- Publisher: CVPR 2024
- Key: 3D Motion Generation, Neural Interaction Fields, Human-Object Interaction
- Code: official
- ExpEnv: AMASS
Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation
- Xiao Ma, Sumit Patidar, Iain Haughton, Stephen James
- Publisher: CVPR 2024
- Key: long-horizon task planning, diffusion models
- Code: official
- ExpEnv: RLBench

ICLR 2024

Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model
- Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu
- Publisher: ICLR 2024
- Key: Time-independent classifier-guided, Safe offline RL
- Code: official
- ExpEnv: DSRL
Training Diffusion Models with Reinforcement Learning
- Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine
- Publisher: ICLR 2024
- Key: reinforcement learning, RLHF, diffusion models
- Code: official
- ExpEnv: None
Reasoning with Latent Diffusion in Offline Reinforcement Learning
- Siddarth Venkatraman, Shivesh Khaitan, Ravi Tej Akella, John Dolan, Jeff Schneider, Glen Berseth
- Publisher: ICLR 2024
- Key: Reinforcement Learning, Diffusion Models
- Code: official
- ExpEnv: D4RL
DMBP: Diffusion model based predictor for robust offline reinforcement learning against state observation perturbations
- Anonymous Authors
- Publisher: ICLR 2024
- Key: Robust Reinforcement Learning, Offline Reinforcement Learning, Diffusion Models
- Code: official
- ExpEnv: D4RL
Flow to Better: Offline Preference-based Reinforcement Learning via Preferred Trajectory Generation
- Zhilong Zhang, Yihao Sun , Junyin Ye, Tianshuo Liu, Jiaji Zhang, Yang Yu
- Publisher: ICLR 2024
- Key: Preference-based Reinforcement Learning, Offline Reinforcement Learning, Conditional Generative Modeling, Diffusion Models
- Code: official
- ExpEnv: D4RL，MetaWorld
Score Regularized Policy Optimization through Diffusion Behavior
- Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, Jun Zhu
- Publisher: ICLR 2024
- Key: offline reinforcement learning, generative models, diffusion models, behavior modeling, computational efficiency
- Code: official
- ExpEnv: D4RL
Simple Hierarchical Planning with Diffusion
- Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
- Publisher: ICLR 2024
- Key: Hierarchical Offline RL, Hierarchical planning, Hierarchical Reinforcement Learning, Diffusion-Based Planning
- Code: official
- ExpEnv: D4RL
Efficient Planning with Latent Diffusion
- Wenhao Li
- Publisher: ICLR 2024
- Key: Offline Decision-Making, Offline Reinforcement Learning, Generative Model, Diffusion Model
- Code: official
- ExpEnv: D4RL
Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion
- Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun
- Publisher: ICLR 2024
- Key: discrete diffusion; world model; autonomous driving
- Code: official
- ExpEnv: NuScenes, KITTI Odometry, Argoverse2 Lidar
AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable Diffusion Model
- Zibin Dong, Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng,Yujing Hu, Tangjie Lv, Changjie Fan, Zhipeng Hu
- Publisher: ICLR 2024
- Key: Reinforcement learning; Diffusion models; RLHF; Preference aligning
- Code: official
- ExpEnv: D4RL
Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks
- Edwin Zhang, Yujie Lu, Shinda Huang, William Yang Wang, Amy Zhang
- Publisher: ICLR 2024
- Key: planning, diffusion, language, RL, reinforcement
- Code: official
- ExpEnv: CALVIN
Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations
- Xiaolin Sun and Zizhan Zheng
- Publisher: ICLR 2024
- Key: Robust Reinforcement Learning, Diffusion Models
- Code: official
- ExpEnv: Atari

NeurIPS 2023

Learning Universal Policies via Text-Guided Video Generation
- Yilun Du, Sherry Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Josh Tenenbaum, Dale Schuurmans, Pieter Abbeel
- Publisher: NeurIPS 2023
- Key: Text-Guided Image Synthesis, Sequential Decision Making, Video Generation
- ExpEnv: real-world robotic
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning
- Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li
- Publisher: NeurIPS 2023
- Key: multi-task reinforcement learning, diffusion models, planning, data synthesis
- ExpEnv: D4RL
Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping
- Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong
- Publisher: NeurIPS 2023
- Key: Residual Policy Learning, Dexterous Grasping, Score-based Diffusion
- Code: official
- ExpEnv: IsaacGym
Efficient Diffusion Policies for Offline Reinforcement Learning
- Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan
- Publisher: NeurIPS 2023
- Key: Computational Efficiency, Offline RL
- Code: official
- ExpEnv: D4RL

ICML 2023

Optimizing DDPM Sampling with Shortcut Fine-Tuning
- Ying Fan, Kangwook Lee
- Publisher: ICML 2023
- Key: Training Diffusion with RL, Online RL, Sampling Optimization
- Code: official
- ExpEnv: CIFAR10, CelebA
MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL
- Fei Ni, Jianye Hao, Yao Mu, Yifu Yuan, Yan Zheng, Bin Wang, Zhixuan Liang
- Publisher: ICML 2023
- Key: Offline meta-RL, Conditional Trajectory Generation, Generalization, Classifier-guided
- ExpEnv: MuJoCo
Hierarchical diffusion for offline decision making
- Wenhao Li, Xiangfeng Wang, Bo Jin, Hongyuan Zha
- Publisher: ICML 2023
- Key: Hierarchical Offline RL, Long Horizon Task, Classifier-free
- Code: official
- ExpEnv: MuJoCo, D4RL, NeoRL
Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning
- Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, Jun Zhu
- Publisher: ICML 2023
- Key: Offline RL, Constrained Policy Optimization, Classifier-guided
- Code: official
- ExpEnv: MuJoco, D4RL

ICLR 2023

Is Conditional Generative Modeling all you need for Decision-Making?
- Anurag Ajay, Yilun Du, Abhi Gupta, Joshua Tenenbaum, Tommi Jaakkola, Pulkit Agrawal
- Publisher: ICLR 2023
- Key: Offline RL, Generative Model, Policy Optimization, Classifier-free
- Code: official
- ExpEnv: D4RL
Imitating Human Behaviour with Diffusion Models
- Tim Pearce, Tabish Rashid, Anssi Kanervisto, Dave Bignell, Mingfei Sun, Raluca Georgescu, Sergio Valcarcel Macua, Shan Zheng Tan, Ida Momennejad, Katja Hofmann, Sam Devlin
- Publisher: ICLR 2023
- Key: Offline RL, Policy Optimization, Imitation Learning, Classifier-free
- ExpEnv: Claw, Kitchen, CSGO
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling
- Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, Jun Zhu
- Publisher: ICLR 2023
- Key: Offline RL, Generative models
- Code: official
- ExpEnv: D4RL

ICRA 2023

Guided Conditional Diffusion for Controllable Traffic Simulation
- Ziyuan Zhong, Davis Rempe, Danfei Xu, Yuxiao Chen, Sushant Veer, Tong Che, Baishakhi Ray, Marco Pavone
- Publisher: ICRA 2023
- Key: Traffic Simulation, Multi-Agent, Classifier-free
- ExpEnv: nuScenes

NeurIPS 2022

TarGF: Learning Target Gradient Field to Rearrange Objects without Explicit Goal Specification
- Mingdong Wu, Fangwei Zhong, Yulong Xia, Hao Dong
- Publisher: NeurIPS 2022
- Key: Inverse RL, Goal Specification, Score-based Diffusion
- Code: official
- ExpEnv: Room Rearrangement, Ball Rearrangement
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
- Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou
- Publisher: NeurIPS Deep RL Workshop 2022
- Key: Offline RL, Policy Optimization
- Code: official, unofficial
- ExpEnv: MuJoco, D4RL

ICML 2022

Planning with Diffusion for Flexible Behavior Synthesis
- Michael Janner, Yilun Du, Joshua B. Tenenbaum, Sergey Levine
- Publisher: ICML 2022 (long talk)
- Key: Offline RL, Model-based RL, Trajectory Optimization, Classifier-guided
- Code: official
- ExpEnv: MuJoco, D4RL

Codebase

GenerativeRL
- Zhang, Jinouwen and Xue, Rongkun and Niu, Yazhe and Chen, Yun and Chen, Xinyan and Wang, Ruiheng and Liu, Yu
- Publisher: GitHub
- Key: Reinforcement Learning, Generative Model, Diffusion Model, Flow Model
- Code: official
CleanDiffuser
- Zibin Dong and Yifu Yuan and Jianye Hao and Fei Ni and Yi Ma and Pengyi Li and Yan Zheng
- Publisher: GitHub
- Key: Reinforcement Learning, Generative Model, Diffusion Model, Flow Model
- Code: official

Contributing

Our purpose is to make this repo even better. If you are interested in contributing, please refer to HERE for instructions in contribution.

License

Awesome Diffusion Model in RL is released under the Apache 2.0 license.