action.md

October 23, 2025 · View on GitHub

Action

(CVPR'20) Speech2Action: Cross-modal Supervision for Action Recognition, [Paper]
(arXiv 2021.01) Trear: Transformer-based RGB-D Egocentric Action Recognition, [Paper]
(arXiv 2021.02) Relaxed Transformer Decoders for Direct Action Proposal Generation, [Paper], [Code]
(arXiv 2021.04) TubeR: Tube-Transformer for Action Detection, [Paper]
(arXiv 2021.04) Few-Shot Transformation of Common Actions into Time and Space, [Paper]
(arXiv 2021.05) Temporal Action Proposal Generation with Transformers, [Paper]
(arXiv 2021.06) End-to-end Temporal Action Detection with Transformer, [Paper], [Code]
(arXiv 2021.06) OadTR: Online Action Detection with Transformers, [Paper], [Code]
(arXiv 2021.07) Action Transformer: A Self-Attention Model for Short-Time Human Action Recognition, [Paper]
(arXiv 2021.07) VideoLightFormer: Lightweight Action Recognition using Transformers, [Paper]
(arXiv 2021.07) Long Short-Term Transformer for Online Action Detection, [Paper]
(arXiv 2021.07) STAR: Sparse Transformer-based Action Recognition, [Paper], [Code]
(arXiv 2021.08) Shifted Chunk Transformer for Spatio-Temporal Representational Learning, [Paper]
(arXiv 2021.08) GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer, [Paper], [Code]
(arXiv 2021.09) GCsT: Graph Convolutional Skeleton Transformer for Action Recognition, [Paper], [Code]
(arXiv 2021.10) Lightweight Transformer in Federated Setting for Human Activity Recognition, [Paper]
(arXiv 2021.10) ASFormer: Transformer for Action Segmentation, [Paper], [Code]
(arXiv 2021.10) Few-Shot Temporal Action Localization with Query Adaptive Transformer, [Paper], [Code]
(arXiv 2021.10) IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action Recognition, [Paper], [Code]
(arXiv 2021.11) Evaluating Transformers for Lightweight Action Recognition, [Paper]
(arXiv 2021.12) MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection, [Paper]
(arXiv 2021.12) Co-training Transformer with Videos and Images Improves Action Recognition, [Paper]
(arXiv 2021.12) Temporal Transformer Networks with Self-Supervision for Action Recognition, [Paper]
(arXiv 2022.01) Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition, [Paper], [Code]
(arXiv 2022.01) Transformers in Action:Weakly Supervised Action Segmentation, [Paper]
(arXiv 2022.02) ActionFormer: Localizing Moments of Actions with Transformers, [Paper], [Code]
(arXiv 2022.03) Multi-View Fusion Transformer for Sensor-Based Human Activity Recognition, [Paper]
(arXiv 2022.03) TransDARC: Transformer-based Driver Activity Recognition with Latent Space Feature Calibration, [Paper], [Code]
(arXiv 2022.03) Zero-Shot Action Recognition with Transformer-based Video Semantic Embedding, [Paper]
(arXiv 2022.03) LocATe: End-to-end Localization of Actions in 3D with Transformers, [Paper]
(arXiv 2022.03) DirecFormer: A Directed Attention in Transformer Approach to Robust Action Recognition, [Paper], [Code]
(arXiv 2022.03) Multi-label Transformer for Action Unit Detection, [Paper]
(arXiv 2022.04) Vision Transformer with Cross-attention by Temporal Shift for Efficient Action Recognition, [Paper]
(arXiv 2022.04) TALLFormer: Temporal Action Localization with Long-memory Transformer, [Paper], [Code]
(arXiv 2022.04) TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting, [Paper], [Code]
(arXiv 2022.04) Detector-Free Weakly Supervised Group Activity Recognition, [Paper], [Code]
(arXiv 2022.05) Cross-modal Representation Learning for Zero-shot Action Recognition, [Paper], [Code]
(arXiv 2022.05) Entity-aware and Motion-aware Transformers for Language-driven Action Localization in Videos, [Paper], [Code]
(arXiv 2022.05) Cross-subject Action Unit Detection with Meta Learning and Transformer-based Relation Modeling, [Paper]
(arXiv 2022.05) Cross-Enhancement Transformer for Action Segmentation, [Paper]
(arXiv 2022.05) Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation, [Paper]
(arXiv 2022.05) Future Transformer for Long-term Action Anticipation, [Paper], [Code]
(arXiv 2022.06) One-stage Action Detection Transformer, [Paper]
(arXiv 2022.06) Spatial Transformer Network with Transfer Learning for Small-scale Fine-grained Skeleton-based Tai Chi Action Recognition, [Paper]
(arXiv 2022.07) Hunting Group Clues with Transformers for Social Group Activity Recognition, [Paper]
(arXiv 2022.07) Global-local Motion Transformer for Unsupervised Skeleton-based Action Learning, [Paper],[Code]
(arXiv 2022.07) Entry-Flipped Transformer for Inference and Prediction of Participant Behavior, [Paper],[Code]
(arXiv 2022.07) Action Quality Assessment with Temporal Parsing Transformer, [Paper]
(arXiv 2022.07) HTNet: Anchor-free Temporal Action Localization with Hierarchical Transformers, [Paper]
(arXiv 2022.07) An Efficient Spatio-Temporal Pyramid Transformer for Action Detection, [Paper]
(arXiv 2022.07) Action Quality Assessment using Transformers, [Paper]
(arXiv 2022.07) Unsupervised Domain Adaptation for Video Transformers in Action Recognition, [Paper],[Code]
(arXiv 2022.07) Spatiotemporal Self-attention Modeling with Temporal Patch Shift for Action Recognition, [Paper],[Code]
(arXiv 2022.08) Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition, [Paper]
(arXiv 2022.08) ViT-ReT: Vision and Recurrent Transformer Neural Networks for Human Activity Recognition in Videos, [Paper],[Code]
(arXiv 2022.08) Adaptive Perception Transformer for Temporal Action Localization, [Paper],[Code]
(arXiv 2022.08) A Circular Window-based Cascade Transformer for Online Action Detection, [Paper]
(arXiv 2022.09) Self-Supervised Multimodal Fusion Transformer for Passive Activity Recognition, [Paper]
(arXiv 2022.09) TASKED: Transformer-based Adversarial learning for human activity recognition using wearable sensors via Self-KnowledgE Distillation, [Paper]
(arXiv 2022.09) Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos, [Paper]
(arXiv 2022.09) Lightweight Transformers for Human Activity Recognition on Mobile Devices, [Paper]
(arXiv 2022.09) Multi-dataset Training of Transformers for Robust Action Recognition, [Paper],[Code]
(arXiv 2022.10) Focal and Global Spatial-Temporal Transformer for Skeleton-based Action Recognition, [Paper],[Code]
(arXiv 2022.10) STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition, [Paper]
(arXiv 2022.10) Transformer-based Action recognition in hand-object interacting scenarios, [Paper]
(arXiv 2022.10) Anticipative Feature Fusion Transformer for Multi-Modal Action Anticipation, [Paper]
(arXiv 2022.10) Holistic Interaction Transformer Network for Action Detection, [Paper],[Code]
(arXiv 2022.10) GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction, [Paper]
(arXiv 2022.10) Hypergraph Transformer for Skeleton-based Action Recognition, [Paper]
(arXiv 2022.11) SVFormer: Semi-supervised Video Transformer for Action Recognition, [Paper],[Code]
(arXiv 2022.11) Interaction Visual Transformer for Egocentric Action Anticipation, [Paper],[Code]
(arXiv 2023.02) Transformers in Action Recognition: A Review on Temporal Modeling, [Paper]
(arXiv 2023.02) Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer, [Paper],[Code]
(arXiv 2023.02) Spatial-temporal Transformer-guided Diffusion based Data Augmentation for Efficient Skeleton-based Action Recognition, [Paper]
(arXiv 2023.02) Temporal Segment Transformer for Action Segmentation, [Paper]
(arXiv 2023.03) EgoViT: Pyramid Video Transformer for Egocentric Action Recognition, [Paper]
(arXiv 2023.03) Vision Transformer for Action Units Detection, [Paper]
(arXiv 2023.03) Group Activity Recognition using Self-supervised Approach of Spatiotemporal Transformers, [Paper]
(arXiv 2023.03) 3Mformer: Multi-order Multi-mode Transformer for Skeletal Action Recognition, [Paper]
(arXiv 2023.04) STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition, [Paper],[Code]
(arXiv 2023.04) End-to-End Spatio-Temporal Action Localisation with Video Transformers, [Paper]
(arXiv 2023.05) Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity Recognition, [Paper]
(arXiv 2023.05) Multi-View Multi-Scale Driver Action Recognition with Vision Transformer, [Paper],[Code]
(arXiv 2023.05) Enhancing Transformer Backbone for Egocentric Video Action Segmentation, [Paper],[Code]
(arXiv 2023.05) A Multi-Modal Transformer Network for Action Detection, [Paper]
(arXiv 2023.06) Optimizing ViViT Training: Time and Memory Reduction for Action Recognition, [Paper]
(arXiv 2023.06) SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network, [Paper]
(arXiv 2023.07) Task-Specific Alignment and Multiple Level Transformer for Few-Shot Action Recognition, [Paper],[Code]
(arXiv 2023.07) VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation, [Paper]
(arXiv 2023.07) Multimodal Distillation for Egocentric Action Recognition, [Paper]
(arXiv 2023.07) Human Action Recognition in Still Images Using ConViT, [Paper]
(arXiv 2023.07) MSQNet: Actor-agnostic Action Recognition with Multi-modal Query, [Paper], [Code]
(arXiv 2023.07) Event-based Vision for Early Prediction of Manipulation Actions, [Paper]
(arXiv 2023.08) PAT: Position-Aware Transformer for Dense Multi-Label Action Detection, [Paper]
(arXiv 2023.08) Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts Learning, [Paper]
(arXiv 2023.08) MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers, [Paper]
(arXiv 2023.08) Memory-and-Anticipation Transformer for Online Action Understanding, [Paper], [Code]
(arXiv 2023.08) Self-Feedback DETR for Temporal Action Detection, [Paper], [Code]
(arXiv 2023.08) EventTransAct: A video transformer-based framework for Event-camera based action recognition, [Paper], [Code]
(arXiv 2023.08) Topology-aware MLP for Skeleton-based Action Recognition, [Paper], [Code]
(arXiv 2023.08) Prompt-enhanced Hierarchical Transformer Elevating Cardiopulmonary Resuscitation Instruction via Temporal Action Segmentation, [Paper]
(arXiv 2023.09) COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers, [Paper], [Code]
(arXiv 2023.09) Unified Contrastive Fusion Transformer for Multimodal Human Action Recognition, [Paper]
(arXiv 2023.09) SkeleTR: Towrads Skeleton-based Action Recognition in the Wild, [Paper]
(arXiv 2023.09) Egocentric RGB+Depth Action Recognition in Industry-Like Settings, [Paper]
(arXiv 2023.10) POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization, [Paper]
(arXiv 2023.11) Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition, [Paper]
(arXiv 2023.11) Act-VIT: A Representationally Robust Attention Architecture for Skeleton Based Action Recognition Using Vision Transformer, [Paper]
(arXiv 2023.11) SigFormer: Sparse Signal-Guided Transformer for Multi-Modal Human Action Segmentation, [Paper], [Code]
(arXiv 2023.11) GeoDeformer: Geometric Deformable Transformer for Action Recognition, [Paper]
(arXiv 2023.12) REACT: Recognize Every Action Everywhere All At Once, [Paper]
(arXiv 2023.12) Adapting Short-Term Transformers for Action Detection in Untrimmed Videos, [Paper]
(arXiv 2023.12) STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition, [Paper],[Code]
(arXiv 2024.01) Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition, [Paper],[Code]
(arXiv 2024.03) SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition, [Paper],[Code]
(arXiv 2024.03) Enhancing Video Transformers for Action Understanding with VLM-aided Training, [Paper]
(arXiv 2024.04) Action Detection via an Image Diffusion Process, [Paper]
(arXiv 2024.04) Dual DETRs for Multi-Label Temporal Action Detection, [Paper],[Code]
(arXiv 2024.04) ASTRA: An Action Spotting TRAnsformer for Soccer Videos, [Paper]
(arXiv 2024.04) Design and Analysis of Efficient Attention in Transformers for Social Group Activity Recognition, [Paper]
(arXiv 2024.05) A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection, [Paper]
(arXiv 2024.05) From CNNs to Transformers in Multimodal Human Action Recognition: A Survey, [Paper]
(arXiv 2024.06) MALT: Multi-scale Action Learning Transformer for Online Action Detection, [Paper]
(arXiv 2024.06) Feature Fusion for Human Activity Recognition using Parameter-Optimized Multi-Stage Graph Convolutional Network and Transformer Models, [Paper]
(arXiv 2024.07) Multi-State-Action Tokenisation in Decision Transformers for Multi-Discrete Action Spaces, [Paper]
(arXiv 2024.07) Dark Transformer: A Video Transformer for Action Recognition in the Dark, [Paper]
(arXiv 2024.07) Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer, [Paper]
(arXiv 2024.07) LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition, [Paper]
(arXiv 2024.08) MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition, [Paper]
(arXiv 2024.08) MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition, [Paper]
(arXiv 2024.08) Online Temporal Action Localization with Memory-Augmented Transformer, [Paper],[Code]
(arXiv 2024.08) HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization, [Paper],[Code]
(arXiv 2024.08) Long-Term Pre-training for Temporal Action Detection with Transformers, [Paper]
(arXiv 2024.08) Temporal Divide-and-Conquer Anomaly Actions Localization in Semi-Supervised Videos with Hierarchical Transformer, [Paper]
(arXiv 2024.08) Prediction-Feedback DETR for Temporal Action Detection, [Paper]
(arXiv 2024.08) SITAR: Semi-supervised Image Transformer for Action Recognition, [Paper]
(arXiv 2024.09) ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL, [Paper],[Code]
(arXiv 2024.09) InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation, [Paper]
(arXiv 2024.10) Deep Learning for Active Region Classification: A Systematic Study from Convolutional Neural Networks to Vision Transformers, [Paper]
(arXiv 2024.10) LiGAR: LiDAR-Guided Hierarchical Transformer for Multi-Modal Group Activity Recognition, [Paper]
(arXiv 2024.10) Spatio-temporal Transformers for Action Unit Classification with Event Cameras, [Paper]
(arXiv 2024.11) Autoregressive Adaptive Hypergraph Transformer for Skeleton-based Activity Recognition, [Paper]
(arXiv 2025.01) FreqMixFormerV2: Lightweight Frequency-aware Mixed Transformer for Human Skeleton Action Recognition, [Paper],[Code]
(arXiv 2025.01) Overcoming Semantic Dilution in Transformer-Based Next Frame Prediction, [Paper]
(arXiv 2025.02) SelaFD:Seamless Adaptation of Vision Transformer Fine-tuning for Radar-based Human Activity, [Paper],[Code]
(arXiv 2025.02) BST: Badminton Stroke-type Transformer for Skeleton-based Action Recognition in Racket Sports, [Paper]
(arXiv 2025.03) End-to-End Action Segmentation Transformer, [Paper]
(arXiv 2025.03) Context-Enhanced Memory-Refined Transformer for Online Action Detection, [Paper],[Code]
(arXiv 2025.03) MultiTSF: Transformer-based Sensor Fusion for Human-Centric Multi-view and Multi-modal Action Recognition, [Paper]
(arXiv 2025.03) MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion, [Paper]
(arXiv 2025.04) WiFi based Human Fall and Activity Recognition using Transformer based Encoder Decoder and Graph Neural Networks, [Paper]
(arXiv 2025.05) DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer, [Paper],[Code]
(arXiv 2025.06) HRTR: A Single-stage Transformer for Fine-grained Sub-second Action Segmentation in Stroke Rehabilitation, [Paper]
(arXiv 2025.06) Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets, [Paper]
(arXiv 2025.08) UniSTFormer: Unified Spatio-Temporal Lightweight Transformer for Efficient Skeleton-Based Action Recognition, [Paper],[Code]
(arXiv 2025.09) CascadeFormer: A Family of Two-stage Cascading Transformers for Skeleton-based Human Action Recognition, [Paper]
(arXiv 2025.09) MMeViT: Multi-Modal ensemble ViT for Post-Stroke Rehabilitation Action Recognition, [Paper],[Code]
(arXiv 2025.10) A Renaissance of Explicit Motion Information Mining from Transformers for Action Recognition, [Paper]