README.md

May 18, 2024 · View on GitHub

FG-2024-Papers

General Information
Repository Size and Activity
Contribution Statistics
Other Metrics
Application
Progress Status
Main

FG 2024 Papers: Explore a comprehensive collection of innovative research papers presented at FG 2024, one of the premier conferences on automatic face and gesture recognition. Seamlessly integrate code implementations for better understanding. ⭐ Experience the cutting edge of progress in facial analysis, gesture recognition, and biometrics with this repository!

Main

:point_right: * This count includes repositories on GitHub, GitLab, Hugging Face, and distributions on PyPI, while excluding Web Page or GitHub Page links.

Tip

The online version of the FG 2024 Conference Program, includes a comprehensive table listing all accepted papers, along with the detailed schedule for Pre- and Post-Workshops, Oral Sessions, Demos, and Poster sessions.

Other collections of the best AI conferences

Important

Conference table will be up to date all the time.

Conference	Year
Conference	2023	2024
Computer Vision (CV)
CVPR
ICCV
ECCV
WACV	:heavy_minus_sign:
FG	:heavy_minus_sign:
Speech/Signal Processing (SP/SigProc)
ICASSP
INTERSPEECH
ISMIR		:heavy_minus_sign:
Natural Language Processing (NLP)
EMNLP
Machine Learning (ML)
AAAI	:heavy_minus_sign:
ICLR	:heavy_minus_sign:
ICML	:heavy_minus_sign:
NeurIPS	:heavy_minus_sign:

Contributors

Note

Contributions to improve the completeness of this list are greatly appreciated. If you come across any overlooked papers, please feel free to create pull requests, open issues or contact me via email. Your participation is crucial to making this repository even better.

Papers

Important

Final paper links will be added as soon as the proceedings are available.

List of sections

Best Reviewed Papers
Best Reviewed Student Papers
Face Biometrics
Facial Expressions
Human Pose and Motion
Gait and Action
Hand and Sign Language
Animation, Synthesis and Self-Supervision
Posters
Demo presentation

Best Reviewed Papers

Title
An Active-Gaze Morphable Model for 3D Gaze Estimation	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Occluded Person Retrieval with Hierarchical Feature Optimization	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
High-Resolution Image Enumeration for Low-Resolution Face Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
OpenThermalPose: An Open-Source Annotated Thermal Human Pose Dataset and Initial YOLOv8-Pose Baselines	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:

Best Reviewed Student Papers

Title
A Unified Model for Gaze Following and Social Gaze Prediction	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
DrFER: Learning Disentangled Representations for 3D Facial Expression Recognition	:heavy_minus_sign:		:heavy_minus_sign:
ClipSwap: Towards High Fidelity Face Swapping via Attribute and CLIP-Informed Loss	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Multi-Modal Human Behaviour Graph Representation Learning for Automatic Depression Assessment	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:

Face Biometrics

Title
Designing Cross-Race Tests for Forensic Facial Examiners, Super-Recognizers, and Face Recognition Algorithm	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
TetraLoss: Improving the Robustness of Face Recognition against Morphing Attacks	:heavy_minus_sign:		:heavy_minus_sign:
Hierarchical Generative Network for Face Morphing Attacks	:heavy_minus_sign:		:heavy_minus_sign:
Face Anti-Spoofing via Interaction Learning with Face Image Quality Alignment	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:

Facial Expressions

Title
Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting	:heavy_minus_sign:	:heavy_minus_sign:
epsilon-Mesh Attack: A Surface-based Adversarial Point Cloud Attack for Facial Expression Recognition		:heavy_minus_sign:
Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport		:heavy_minus_sign:
CSTalk: Correlation Supervised Speech-Driven 3D Emotional Facial Animation Generation	:heavy_minus_sign:	:heavy_minus_sign:

Human Pose and Motion

Title
Uncalibrated Multi-View 3D Human Pose Estimation with Geometry Driven Attention	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Geometry-Biased Transformer for Robust Multi-View 3D Human Pose Reconstruction	:heavy_minus_sign:		:heavy_minus_sign:
BEAVP: A Bidirectional Enhanced Adversarial Model for Video Prediction	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
CasCalib: Cascaded Calibration for Motion Capture from Sparse Unsynchronized Cameras			:heavy_minus_sign:

Gait and Action

Title
Unveiling Gender Effects in Gait Recognition using Conditional-Matched Bootstrap Analysis		:heavy_minus_sign:	:heavy_minus_sign:
GaitPT: Skeletons are All You Need for Gait Recognition	:heavy_minus_sign:		:heavy_minus_sign:
Attention Prompt Tuning: Parameter-Efficient Adaptation of Pre-trained Models for Action Recognition			:heavy_minus_sign:
ViewDiffGait: View Pyramid Diffusion for Gait Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:

Hand and Sign Language

Title
Two Hands are Better than One: Resolving Hand to Hand Intersections via Occupancy Networks	:heavy_minus_sign:		:heavy_minus_sign:
SynthSL: Expressive Humans for Sign Language Image Synthesis	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
A Gloss-Free Sign Language Production with Discrete Representation	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
In My Perspective, in My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition			:heavy_minus_sign:

Animation, Synthesis and Self-Supervision

Title
EAT-Face: Emotion-Controllable Audio-Driven Talking Face Generation via Diffusion Model	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Embedded Representation Learning Network for Animating Styled Video Portrait	:heavy_minus_sign:		:heavy_minus_sign:
Giving a Hand to Diffusion Models: A Two-Stage Approach to Improving Conditional Human Image Generation			:heavy_minus_sign:
RS-rPPG: Robust Self-Supervised Learning for rPPG		:heavy_minus_sign:	:heavy_minus_sign:

Posters

Title
Efficient Verification-based Face Identification	:heavy_minus_sign:		:heavy_minus_sign:
Dataset Infant Anonymization with Pose and Emotion Retention	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Face the Needle: Predicting Risk of Fear and Fainting During Blood Donation through Video Analysis	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Intra-Person Camera Adversarial for Intra-Camera Supervised Person Re-Identification	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Adaptive Cross-Architecture Mutual Knowledge Distillation	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
ASPECD: Adaptable Soft-Biometric Privacy-Enhancement using Centroid Decoding for Face Verification	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Young Labeled Faces in the Wild (YLFW): A Dataset for Children Faces Recognition			:heavy_minus_sign:
Deepfake: Classifiers, Fairness, and Demographically Robust Algorithm	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
PointFaceFormer: Local and Global Attention based Transformer for 3D Point Cloud Face Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Subject-based Domain Adaptation for Facial Expression Recognition			:heavy_minus_sign:
Efficient Detection of Disguised Faces using Photos/Sketches from Low-Quality Surveillance Footage	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Lip and Speech Synchronization using Supervised Contrastive Learning and Cross-Modal Attention	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
If it's not Enough, Make it so: Reducing Authentic Data Demand in Face Recognition through Synthetic Faces	:heavy_minus_sign:		:heavy_minus_sign:
Data Augmentation Techniques for Enhanced Facial Landmarks Detection in Patients with Repaired Cleft Lip and Palate	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Deep Adaptative Spectral Zoom for Improved Remote Heart Rate Estimation	:heavy_minus_sign:		:heavy_minus_sign:
Bridging the Gap: Protocol Towards Fair and Consistent Affect Analysis			:heavy_minus_sign:
ONOT: a High-Quality ICAO-Compliant Synthetic Mugshot Dataset			:heavy_minus_sign:
RFIS-FPI: Reversible Face Image Steganography Neural Network for Face Privacy Interactions	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Unlocking the Black Box: Concept-based Modeling for Interpretable Affective Computing Applications	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Social-MAE: A Transformer-based Multimodal Autoencoder for Face and Voice	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues			:heavy_minus_sign:
AerialFace: A Light Weight Framework for Unmanned Aerial Vehicle Face Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
QGFace: Quality-Guided Joint Training for Mixed Quality Face Recognition			:heavy_minus_sign:
EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition			:heavy_minus_sign:
In-Domain Inversion for Improved 3D Face Alignment on Asymmetrical Expressions	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
3D Face Modeling via Weakly-Supervised Disentanglement Network Joint Identity-Consistency Prior			:heavy_minus_sign:
Expression-Aware Masking and Progressive Decoupling for Cross-Database Facial Expression Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Explainable Face Verification via Feature-Guided Gradient Backpropagation	:heavy_minus_sign:		:heavy_minus_sign:
One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-Scale and Action Label Features	:heavy_minus_sign:		:heavy_minus_sign:
Skeleton-based Self-Supervised Feature Extraction for Improved Dynamic Hand Gesture Recognition		:heavy_minus_sign:	:heavy_minus_sign:
Human Action Recognition with Multi-Level Granularity and Pair-Wise Hyper GCN	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
MGRFormer: A Multimodal Transformer Approach for Surgical Gesture Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
CCDb-HG: Novel Annotations and Gaze-Aware Representations for Head Gesture Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
GestSpoof: Gesture based Spatio-Temporal Representation Learning for Robust Fingerprint Presentation Attack Detection	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Spatio Temporal Sparse Graph Convolution Network for Hand Gesture Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Crowd Detection via Point Localization with Diffusion Models	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
MIMIC-Pose: Implicit Membership Discrimination of Body Joints for Human Pose Estimation	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
DPA-2D: Depth Propagation and Alignment with 2D Observations Guidance for Human Mesh Recovery	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Evaluating Recent 2D Human Pose Estimators for 2D-3D Pose Lifting		:heavy_minus_sign:	:heavy_minus_sign:
The Paradox of Motion: Evidence for Spurious Correlations in Skeleton-based Gait Recognition Models	:heavy_minus_sign:		:heavy_minus_sign:
Improving 2D Human Pose Estimation in Unseen Camera Views with Synthetic Data	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
DualH: A Dual Hierarchical Model for Temporal Action Localization		:heavy_minus_sign:	:heavy_minus_sign:
HR-xNet: A Novel High-Resolution Network for Human Pose Estimation with Low Resource Consumption	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Cross-Block Fine-Grained Semantic Cascade for Skeleton-based Sports Action Recognition	:heavy_minus_sign:		:heavy_minus_sign:
HM-Auth: Redefining User Authentication in Immersive Virtual World through Hand Movement Signatures	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
A Data-Driven Representation for Sign Language Production			:heavy_minus_sign:
Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Resource-Efficient Gesture Recognition using Low-Resolution Thermal Camera via Spiking Neural Networks and Sparse Segmentation	:heavy_minus_sign:		:heavy_minus_sign:
Transfer Learning for Cross-Dataset Isolated Sign Language Recognition in Under-Resourced Datasets			:heavy_minus_sign:
Patch-based Privacy Attention for Weakly-Supervised Privacy-Preserving Action Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Boosting Gesture Recognition with an Automatic Gesture Annotation Framework	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Towards Better Communication: Refining Hand Pose Estimation in Low-Resolution Sign Language Videos	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Quantifying Biometric Characteristics of Hand Gestures through Feature Space Probing and Identity-Level Cross-Gesture Disentanglement	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Hand Graph Topology Selection for Skeleton-based Sign Language Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Unconstrained Hand Recognition using Thermal Infrared Sensing of Dorsal Veins	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Integrating a Hierarchical Structure of Situated Human Motion in Multi-Task Learning for Professional Gesture Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Towards High Fidelity and Accurate Face Swapping	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Face-based Strategies for Evaluating Asymmetry and Speech Articulation in Patients with Craniofacial Anomalies	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention			:heavy_minus_sign:
VoxAtnNet: A 3D Point Clouds Convolutional Neural Network for Generalizable Face Presentation Attack Detection	:heavy_minus_sign:		:heavy_minus_sign:
Multi-View Consistent 3D GAN Inversion via Bidirectional Encoder		:heavy_minus_sign:	:heavy_minus_sign:
Context-based Dataset for Analysis of Videos of Autistic Children	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Seeing and Hearing what has not been Said; A Multimodal Client Behavior Classifier in Motivational Interviewing with Interpretable Fusion	:heavy_minus_sign:		:heavy_minus_sign:
SignAvatar: Sign Language 3D Motion Reconstruction and Generation			:heavy_minus_sign:
PortraitDAE: Line-Drawing Portraits Style Transfer from Photos via Diffusion Autoencoder with Meaningful Encoded Noise	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
FE-Adapter: Adapting Image-based Emotion Classifiers to Videos	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Latent Embedding Clustering for Occlusion Robust Head Pose Estimation	:heavy_minus_sign:		:heavy_minus_sign:
Pivotal Tuning Editing: Towards Disentangled Wrinkle Editing with GANs	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Data-Driven but Privacy-Conscious: Pedestrian Dataset De-Identification via Full-Body Person Synthesis	:heavy_minus_sign:		:heavy_minus_sign:
CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild	:heavy_minus_sign:		:heavy_minus_sign:
Survey of Automated Methods for Nonverbal Behavior Analysis in Parent-Child Interactions	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Naive Data Augmentation Might be Toxic: Data-Prior Guided Self-Supervised Representation Learning for Micro-Gesture Recognition	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
SMCTL: Subcarrier Masking Contrastive Transfer Learning for Human Gesture Recognition with Passive Wi-Fi Sensing	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Semantic-Aware Detail Enhancement for Blind Face Restoration	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models			:heavy_minus_sign:
Breaking Template Protection: Reconstruction of Face Images from Protected Facial Templates	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Benchmarking Skeleton-based Motion Encoder Models for Clinical Applications: Estimating Parkinson's Disease Severity in Walking Sequences	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
The Seven Faces of Stress: Understanding Facial Activity Patterns during Cognitive Stress	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Visual Coherence Face Anonymization Algorithm based on Dynamic Identity Perception	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
PyraMoT: A Novel Framework for Enhanced Facial Thermal Landmarks Detection	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Visual Saliency Guided Gaze Target Estimation with Limited Labels	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Hyp-OC: Hyperbolic One Class Classifier for Face Anti-Spoofing	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Dynamic Cross Attention for Audio-Visual Person Verification			:heavy_minus_sign:
Enhancing Privacy in Face Analytics using Fully Homomorphic Encryption	:heavy_minus_sign:		:heavy_minus_sign:
CribNet: Enhancing Infant Safety in Cribs through Vision-based Hazard Detection		:heavy_minus_sign:	:heavy_minus_sign:
3D Face Morphing Attack Generation using Non-Rigid Registration	:heavy_minus_sign:		:heavy_minus_sign:
BTVSL: A Novel Sentence-Level Annotated Dataset for Bangla Sign Language Translation	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:

Demo presentation

Title
Russian Sign Language Learning Simulator	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign:
Expanding PyAFAR: A Novel Privacy-Preserving Infant AU Detector	:heavy_minus_sign:	:heavy_minus_sign:	:heavy_minus_sign: