Awesome-Multimodal-in-3D

A comprehensive surevy on Multimodal Models in 3D

Generation

Title	Github	WebSite	Pub. & Date
CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language	nan	nan	2022
SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation	nan	nan	2023
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation	nan	nan	2023
Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models	nan	nan	2023
Multimodal 3D Hand Pose Enhancement for Sign Language	nan	nan	2022
Text and Image Guided 3D Avatar Generation and Manipulation	nan	nan	2022
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models	nan	nan	2023
DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models	nan	nan	2023
Guide3D: Create 3D Avatars from Text and Image Guidance	nan	nan	2023
High-Fidelity Generalized Emotional Talking Face Generation with Multi-Modal Emotion Space Learning	nan	nan	2023
MRIS: A Multi-modal Retrieval Approach for Image Synthesis on Diverse Modalities	nan	nan	2023
Text2Tex: Text-driven Texture Synthesis via Diffusion Models	nan	nan	2023
Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation	nan	nan	2023
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation	nan	nan	2023
Text-to-3D using Gaussian Splatting	nan	nan	2023
Autoregressive 3D Shape Generation via Canonical Mapping	nan	nan	2022
SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation	nan	nan	2023
Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution	nan	nan	2023
Cross-Modal 3D Shape Generation and Manipulation	nan	nan	2022
ITportrait: Image-Text Coupled 3D Portrait Domain Adaptation	nan	nan	2023
FaceFormer: Speech-Driven 3D Facial Animation with Transformers	nan	nan	2022
Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints	nan	nan	2023
Text-guided 3D Human Generation from 2D Collections	nan	nan	2023
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration	nan	nan	2023
Semantify: Simplifying the Control of 3D Morphable Models using CLIP	nan	nan	2023
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following	nan	nan	2023
Zero3D: Semantic-Driven Multi-Category 3D Shape Generation	nan	nan	2023
HeadSculpt: Crafting 3D Head Avatars with Text	nan	nan	2023
AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications	nan	nan	2022
T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation	nan	nan	2023
AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars	nan	nan	2022
ArK: Augmented Reality with Knowledge Interactive Emergent Ability	nan	nan	2023
AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion	nan	nan	2023
SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification	nan	nan	2023
TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields	nan	nan	2023
HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation	nan	nan	2023
DreamWaltz: Make a Scene with Complex 3D Animatable Avatars	nan	nan	2023
Zero-Shot Text-Guided Object Generation with Dream Fields	nan	nan	2022
ClipMatrix: Text-controlled Creation of 3D Textured Meshes	nan	nan	2021
AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control	nan	nan	2023
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation	nan	nan	2023
CG-NeRF: Conditional Generative Neural Radiance Fields for 3D-aware Image Synthesis	nan	nan	2023
Shap-E: Generating Conditional 3D Implicit Functions	nan	nan	2023
Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion	nan	nan	2023
LERF: Language Embedded Radiance Fields	nan	nan	2023
CLIP-Mesh: Generating textured meshes from text using pretrained image-text models	nan	nan	2022
Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models	nan	nan	2023
DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model	nan	nan	2023
PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion	nan	nan	2023
MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation	nan	nan	2023
Decomposing NeRF for Editing via Feature Field Distillation	nan	nan	2022
DreamHuman: Animatable 3D Avatars from Text	nan	nan	2023
SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation	nan	nan	2023
Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation	nan	nan	2023
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models	nan	nan	2023
Audio2Gestures: Generating Diverse Gestures from Audio	nan	nan	2023
Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders	nan	nan	2021
AI Choreographer: Music Conditioned 3D Dance Generation with AIST++	nan	nan	2021
3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion	nan	nan	2023
3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process	nan	nan	2023
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis	nan	nan	2023
Magic3D: High-Resolution Text-to-3D Content Creation	nan	nan	2023
CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding	nan	nan	2023
3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows	nan	nan	2023
StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects	nan	nan	2023
DreamStone: Image as a Stepping Stone for Text-Guided 3D Shape Generation	nan	nan	2023
ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation	nan	nan	2023
ATT3D: Amortized Text-to-3D Object Synthesis	nan	nan	2023
Learning Versatile 3D Shape Generation with Improved AR Models	nan	nan	2023
Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation	nan	nan	2023

Pretraining

Title	Github	WebSite	Pub. & Date
CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding	nan	nan	2022
Grounding Pretrained Features in 3D Representations	nan	nan	2023
MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts	nan	nan	2023
CrysMMNet: Multimodal Representation for Crystal Property Prediction	nan	nan	2023
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training	nan	nan	2023
CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized Images	nan	nan	2023
CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition	nan	nan	2023
3D Concept Learning and Reasoning from Multi-View Images	nan	nan	2023
3D-LLM: Injecting the 3D World into Large Language Models	nan	nan	2023
Pri3D: Can 3D Priors Help 2D Representation Learning?	nan	nan	2021
Joint Representation Learning for Text and 3D Point Cloud	nan	nan	2023
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training	nan	nan	2023
ConceptFusion: Open-set Multimodal 3D Mapping	nan	nan	2023
MotionGPT: Human Motion as a Foreign Language	nan	nan	2023
JM3D&JM3D-LLM: Elevating 3D Representation with Joint Multi-modal Cues	nan	nan	2023
Context-aware Alignment and Mutual Masking for 3D-Language Pre-training	nan	nan	2023
Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding	nan	nan	2023
ViT-Lens: Towards Omni-modal Representations	nan	nan	2023

Editing and Manupulation

Title	Github	WebSite	Pub. & Date
ClipFace: Text-guided Editing of Textured 3D Morphable Models	nan	nan	2023
CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout	nan	nan	2023
Volumetric Disentanglement for 3D Scene Manipulation	nan	nan	2022
Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions	nan	nan	2023
LADIS: Language Disentanglement for 3D Shape Editing	nan	nan	2022
Local 3D Editing via 3D Distillation of CLIP Knowledge	nan	nan	2023

detection

Title	Github	WebSite	Pub. & Date
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers	nan	nan	2022
Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild	nan	nan	2023
HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection	nan	nan	2023
ObjectFusion: Multi-modal 3D Object Detection with Object-Centric Fusion	nan	nan	2023
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection	nan	nan	2023
FUTR3D: A Unified Sensor Fusion Framework for 3D Detection	nan	nan	2023
DSGN++: Exploiting Visual-Spatial Relation for Stereo-based 3D Detectors	nan	nan	2022
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection	nan	nan	2023
Focal Sparse Convolutional Networks for 3D Object Detection	nan	nan	2022
AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection	nan	nan	2022
BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection	nan	nan	2022
Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving	nan	nan	2023
Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object Detection	nan	nan	2023
A Generalized Multi-Modal Fusion Detection Framework	nan	nan	2023
From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection	nan	nan	2021
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars	nan	nan	2022
PointSee: Image Enhances Point Cloud	nan	nan	2022
FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection	nan	nan	2023
Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving	nan	nan	2021
Geometric-aware Pretraining for Vision-centric 3D Object Detection	nan	nan	2023
TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning	nan	nan	2022
FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration	nan	nan	2023
FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields	nan	nan	2023
Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based Objects	nan	nan	2023
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection	nan	nan	2022
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection	nan	nan	2023
Paint and Distill: Boosting 3D Object Detection with Semantic Passing Network	nan	nan	2022
RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection	nan	nan	2023
X 3 KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection	nan	nan	2023
Boosting Unsupervised Domain Adaptation for 3D Object Detection in Point Clouds with 2D Image Semantic Information	nan	nan	2023
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross- Modal Fusion	nan	nan	2023
Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection	nan	nan	2022
Unifying Voxel-based Representation with Transformer for 3D Object Detection	nan	nan	2022
MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences	nan	nan	2023
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection	nan	nan	2022
AShapeFormer: Semantics-Guided Object-Level Active Shape Encoding for 3D Object Detection via Transformers	nan	nan	2023
Delving into the Pre-training Paradigm of Monocular 3D Object Detection	nan	nan	2022
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection	nan	nan	2023
Cross-Modal Analysis of Human Detection for Robotics: An Industrial Case Study	nan	nan	2021
PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection	nan	nan	2022
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection	nan	nan	2022
Multi-Modal 3D Object Detection by Box Matching	nan	nan	2023
Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning	nan	nan	2022
Open-Vocabulary Point-Cloud Object Detection without 3D Annotation	nan	nan	2023
Open-Vocabulary Point-Cloud Object Detection Without 3D Annotation	nan	nan	2023

Segmentation

Title	Github	WebSite	Pub. & Date
A Simple and Robust Framework for Cross-Modality Medical Image Segmentation applied to Vision Transformers	nan	nan	2023
MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation	nan	nan	2023
Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation	nan	nan	2023
Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation	nan	nan	2023
Segment Anything in 3D with NeRFs	nan	nan	2023
Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs	nan	nan	2023
Optimal Latent Vector Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation	nan	nan	2021
MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image Segmentation	nan	nan	2023
Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation	nan	nan	2023
LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs	nan	nan	2023
PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering	nan	nan	2023
UniDA3D: Unified Domain Adaptive 3D Semantic Segmentation Pipeline	nan	nan	2023
MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation	nan	nan	2023
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images	nan	nan	2022
Prototype Adaption and Projection for Few- and Zero-Shot 3D Point Cloud Semantic Segmentation	nan	nan	2023
Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors	nan	nan	2023
OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation	nan	nan	2023
Contrastive Learning for Self-Supervised Pre-Training of Point Cloud Segmentation Networks With Image Data	nan	nan	2023
Cross-modal Learning for Domain Adaptation in 3D Semantic Segmentation	nan	nan	2022
Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous Driving	nan	nan	2023
Language-guided Semantic Style Transfer of 3D Indoor Scenes	nan	nan	2022
2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic Segmentation on Point Cloud	nan	nan	2023
Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation	nan	nan	2023
MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving	nan	nan	2023
BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain Generalization of 3D Semantic Segmentation	nan	nan	2023
CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation	nan	nan	2022
Weakly Supervised 3D Open-vocabulary Segmentation	nan	nan	2023
PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models	nan	nan	2023
UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase	nan	nan	2023

Tracking

Title	Github	WebSite	Pub. & Date
3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge Modality Attention	nan	nan	2022
LATTE: LAnguage Trajectory TransformEr	nan	nan	2022
3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking	nan	nan	2023
EagerMOT: 3D Multi-Object Tracking via Sensor Fusion	nan	nan	2021
MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking	nan	nan	2023

Matching

Title	arXiv	Github	WebSite	Pub. & Date
Self-Supervised Learning for Multimodal Non-Rigid 3D Shape Matching		nan	nan	2023

ov-detection

Title	arXiv	Github	WebSite	Pub. & Date
CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection		nan	nan	2023

Anomaly Detection

Title	arXiv	Github	WebSite	Pub. & Date
Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection		nan	nan	2023
EasyNet: An Easy Network for 3D Industrial Anomaly Detection		nan	nan	2023

Grounding

Title	Github	WebSite	Pub. & Date
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding	nan	nan	2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding	nan	nan	2022
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance	nan	nan	2023
NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations	nan	nan	2023
Multi-View Transformer for 3D Visual Grounding	nan	nan	2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding	nan	nan	2022
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection	nan	nan	2022
3D VR Sketch Guided 3D Shape Prototyping and Exploration	nan	nan	2023

Completion

Title	arXiv	Github	WebSite	Pub. & Date
AGG-Net: Attention Guided Gated-convolutional Network for Depth Image Completion		nan	nan	2023

Style-Transfer

Title	Github	WebSite	Pub. & Date
TeSTNeRF: Text-Driven 3D Style Transfer via Cross-Modal Learning	nan	nan	2023
TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition	nan	nan	2022
HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks	nan	nan	2023
CLIP3Dstyler: Language Guided 3D Arbitrary Neural Style Transfer	nan	nan	2023

Pose Estimation

Title	Github	WebSite	Pub. & Date
ZeroPose: CAD-Model-based Zero-Shot Pose Estimation	nan	nan	2023
Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes based on Monocular Camera and Single LiDAR	nan	nan	2022
PoseScript: 3D Human Poses from Natural Language	nan	nan	2022
PoseFix: Correcting 3D Human Poses with Natural Language	nan	nan	2023
Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes	nan	nan	2023
CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware Prompting	nan	nan	2023
Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose Estimation	nan	nan	2022
Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation	nan	nan	2021
Cross-Domain 3D Hand Pose Estimation with Dual Modalities	nan	nan	2023
3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation	nan	nan	2022

Scene Understanding

Title	Github	WebSite	Pub. & Date
Towards Label-free Scene Understanding by Vision Foundation Models	nan	nan	2023
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP	nan	nan	2023
Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction	nan	nan	2023
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding	nan	nan	2023
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding	nan	nan	2023
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models	nan	nan	2022
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding	nan	nan	2023

Manupulation

Title	Github	WebSite	Pub. & Date
PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation	nan	nan	2023
TextDeformer: Geometry Manipulation using Text Guidance	nan	nan	2023
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation	nan	nan	2023

Retrival

Title	Github	WebSite	Pub. & Date
Democratising 2D Sketch to 3D Shape Retrieval Through Pivoting	nan	nan	2023
RONO: Robust Discriminative Learning With Noisy Labels for 2D-3D Cross-Modal Retrieval	nan	nan	2023
TextANIMAR: Text-based 3D Animal Fine-Grained Retrieval	nan	nan	2023
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval	nan	nan	2023
OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data	nan	nan	2023
Towards 3D VR-Sketch to 3D Shape Retrieval	nan	nan	2022

Classification

Title	arXiv	Github	WebSite	Pub. & Date
Multimodal Brain Disease Classification with Functional Interaction Learning from Single fMRI Volume		nan	nan	2023

Localization

Title	Github	WebSite	Pub. & Date
3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions	nan	nan	2023
UnLoc: A Universal Localization Method for Autonomous Vehicles using LiDAR, Radar and/or Camera Input	nan	nan	2023
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language	nan	nan	2023

Question Answering

Title	arXiv	Github	WebSite	Pub. & Date
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes		nan	nan	2023

Prediction

Title	arXiv	Github	WebSite	Pub. & Date
3D Spatial Multimodal Knowledge Accumulation for Scene Graph Prediction in Point Cloud		nan	nan	2023

Depth Estimation

Title	arXiv	Github	WebSite	Pub. & Date
Towards Zero-Shot Scale-Aware Monocular Depth Estimation		nan	nan	2023

Finetuning

Title	arXiv	Github	WebSite	Pub. & Date
ImageBind-LLM: Multi-modality Instruction Tuning		nan	nan	2023

Recognition

Title	Github	WebSite	Pub. & Date
LiCamGait: Gait Recognition in the Wild by Using LiDAR and Camera Multi-modal Visual Sensors	nan	nan	2022
LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape Recognition	nan	nan	2023
Cross-Modal Learning with 3D Deformable Attention for Action Recognition	nan	nan	2023
FER-former: Multi-modal Transformer for Facial Expression Recognition	nan	nan	2023

Reconstruction

Title	arXiv	Github	WebSite	Pub. & Date
Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial Animation		nan	nan	2023
Zero-1-to-3: Zero-shot One Image to 3D Object		nan	nan	2023

Style Generation

Title	arXiv	Github	WebSite	Pub. & Date
Style-aware Augmented Virtuality Embeddings (SAVE)		nan	nan	2023

Scene Understanding

Title	arXiv	Github	WebSite	Pub. & Date
M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding		nan	nan	2023

Captioning

Title	arXiv	Github	WebSite	Pub. & Date
Scalable 3D Captioning with Pretrained Models		nan	nan	2023

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome-Multimodal-in-3D

Table of Contents

Generation

Pretraining

Editing and Manupulation

detection

Segmentation

Tracking

Matching

ov-detection

Anomaly Detection

Grounding

Completion

Style-Transfer

Pose Estimation

Scene Understanding

Manupulation

Retrival

Classification

Localization

Question Answering

Prediction

Depth Estimation

Finetuning

Recognition

Reconstruction

Style Generation

Scene Understanding

Captioning

About

Releases

Packages

vgthengane/Awesome-Multimodal-in-3D

Folders and files

Latest commit

History

Repository files navigation

Awesome-Multimodal-in-3D

Table of Contents

Generation

Pretraining

Editing and Manupulation

detection

Segmentation

Tracking

Matching

ov-detection

Anomaly Detection

Grounding

Completion

Style-Transfer

Pose Estimation

Scene Understanding

Manupulation

Retrival

Classification

Localization

Question Answering

Prediction

Depth Estimation

Finetuning

Recognition

Reconstruction

Style Generation

Scene Understanding

Captioning

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages