cs.CV(2023-12-06)
📊 共 13 篇论文 | 🔗 6 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (6 🔗3)
支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1)
支柱二:RL算法与架构 (RL & Architecture) (2 🔗1)
支柱一:机器人控制 (Robot Control) (1 🔗1)
支柱五:交互与反应 (Interaction & Reaction) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (6 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models | 提出CAVG模型,利用GPT-4增强多模态视觉定位,提升自动驾驶指令理解。 | large language model multimodal visual grounding | ||
| 2 | DiffusionSat: A Generative Foundation Model for Satellite Imagery | DiffusionSat:面向卫星图像的生成式基础模型,支持时空条件生成任务 | foundation model | ✅ | |
| 3 | Foundation Model Assisted Weakly Supervised Semantic Segmentation | 提出基于CLIP和SAM的粗细粒度框架,解决弱监督语义分割问题。 | foundation model | ✅ | |
| 4 | Understanding (Un)Intended Memorization in Text-to-Image Generative Models | 针对文本到图像生成模型,提出一种新的记忆化理解框架。 | large language model multimodal | ||
| 5 | Alpha-CLIP: A CLIP Model Focusing on Wherever You Want | Alpha-CLIP:通过引入Alpha通道,实现CLIP模型对图像指定区域的关注与理解 | large language model multimodal | ||
| 6 | OneLLM: One Framework to Align All Modalities with Language | OneLLM:提出统一框架对齐多模态数据与语言,实现通用多模态理解。 | large language model multimodal | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 7 | MMM: Generative Masked Motion Model | 提出MMM以解决实时性能与高保真度之间的权衡问题 | semantic mapping semantic map motion diffusion model | ✅ | |
| 8 | Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting | Gaussian-SLAM:基于高斯溅射的真实感稠密SLAM,实现交互式重建与渲染。 | gaussian splatting splatting | ||
| 9 | Artist-Friendly Relightable and Animatable Neural Heads | 提出一种可重新光照和动画的神经头部方法,解决动态头像的光照和运动问题。 | NeRF neural radiance field |
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 10 | Mitigating Open-Vocabulary Caption Hallucinations | 提出MOCHa框架,缓解开放词汇图像描述中的幻觉问题。 | reinforcement learning open-vocabulary open vocabulary | ✅ | |
| 11 | On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm | 提出RDED:一种高效的数据集蒸馏范式,提升蒸馏数据集的多样性和真实性。 | distillation |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 12 | LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning | 提出LEGO:通过视觉指令微调学习以自我为中心的动作帧生成 | manipulation egocentric Ego4D | ✅ |
🔬 支柱五:交互与反应 (Interaction & Reaction) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 13 | Controllable Human-Object Interaction Synthesis | 提出CHOIS,通过条件扩散模型生成可控的人-物交互运动 | human-object interaction CHOIS |