cs.CV（2023-12-06）

📊 共 13 篇论文 | 🔗 6 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (6 🔗3) 支柱三：空间感知与语义 (Perception & Semantics) (3 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (2 🔗1) 支柱一：机器人控制 (Robot Control) (1 🔗1) 支柱五：交互与反应 (Interaction & Reaction) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (6 篇)

#	题目	一句话要点	标签	🔗	⭐
1	GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models	提出CAVG模型，利用GPT-4增强多模态视觉定位，提升自动驾驶指令理解。	large language model multimodal visual grounding
2	DiffusionSat: A Generative Foundation Model for Satellite Imagery	DiffusionSat：面向卫星图像的生成式基础模型，支持时空条件生成任务	foundation model	✅
3	Foundation Model Assisted Weakly Supervised Semantic Segmentation	提出基于CLIP和SAM的粗细粒度框架，解决弱监督语义分割问题。	foundation model	✅
4	Understanding (Un)Intended Memorization in Text-to-Image Generative Models	针对文本到图像生成模型，提出一种新的记忆化理解框架。	large language model multimodal
5	Alpha-CLIP: A CLIP Model Focusing on Wherever You Want	Alpha-CLIP：通过引入Alpha通道，实现CLIP模型对图像指定区域的关注与理解	large language model multimodal
6	OneLLM: One Framework to Align All Modalities with Language	OneLLM：提出统一框架对齐多模态数据与语言，实现通用多模态理解。	large language model multimodal	✅

🔬 支柱三：空间感知与语义 (Perception & Semantics) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
7	MMM: Generative Masked Motion Model	提出MMM以解决实时性能与高保真度之间的权衡问题	semantic mapping semantic map motion diffusion model	✅
8	Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting	Gaussian-SLAM：基于高斯溅射的真实感稠密SLAM，实现交互式重建与渲染。	gaussian splatting splatting
9	Artist-Friendly Relightable and Animatable Neural Heads	提出一种可重新光照和动画的神经头部方法，解决动态头像的光照和运动问题。	NeRF neural radiance field

🔬 支柱二：RL算法与架构 (RL & Architecture) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
10	Mitigating Open-Vocabulary Caption Hallucinations	提出MOCHa框架，缓解开放词汇图像描述中的幻觉问题。	reinforcement learning open-vocabulary open vocabulary	✅
11	On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm	提出RDED：一种高效的数据集蒸馏范式，提升蒸馏数据集的多样性和真实性。	distillation

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
12	LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning	提出LEGO：通过视觉指令微调学习以自我为中心的动作帧生成	manipulation egocentric Ego4D	✅

🔬 支柱五：交互与反应 (Interaction & Reaction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
13	Controllable Human-Object Interaction Synthesis	提出CHOIS，通过条件扩散模型生成可控的人-物交互运动	human-object interaction CHOIS

⬅️ 返回 cs.CV 首页 · 🏠 返回主页