cs.CV（2025-10-18）

📊 共 17 篇论文 | 🔗 5 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (8 🔗2) 支柱二：RL算法与架构 (RL & Architecture) (6 🔗2) 支柱三：空间感知与语义 (Perception & Semantics) (2 🔗1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
1	EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning	提出EDVD-LLaMA框架，通过多模态大语言模型推理实现可解释的Deepfake视频检测。	large language model multimodal chain-of-thought
2	VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs	VisionSelector：端到端可学习的视觉Token压缩，提升多模态LLM效率	large language model multimodal	✅
3	Universal and Transferable Attacks on Pathology Foundation Models	提出通用可迁移对抗扰动UTAP，揭示病理学基础模型的脆弱性	foundation model
4	PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies	PRISMM-Bench：首个基于同行评审的多模态不一致性基准，用于评估LMMs的科学推理能力	multimodal
5	Structured Interfaces for Automated Reasoning with 3D Scene Graphs	提出基于结构化接口的3D场景图推理方法，提升LLM在机器人自然语言理解中的性能。	large language model instruction following
6	NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation	NavQ：学习Q模型以实现具有前瞻性的视觉-语言导航	VLN
7	VIPAMIN: Visual Prompt Initialization via Embedding Selection and Subspace Expansion	VIPAMIN：通过嵌入选择和子空间扩展实现视觉Prompt初始化，提升自监督模型在下游任务的性能。	foundation model	✅
8	Cerberus: Real-Time Video Anomaly Detection via Cascaded Vision-Language Models	Cerberus：基于级联视觉-语言模型的实时视频异常检测系统	visual grounding

🔬 支柱二：RL算法与架构 (RL & Architecture) (6 篇)

#	题目	一句话要点	标签	🔗	⭐
9	Self-Supervised Learning to Fly using Efficient Semantic Segmentation and Metric Depth Estimation for Low-Cost Autonomous UAVs	提出一种基于语义分割和单目深度估计的低成本无人机自主飞行方法。	distillation depth estimation monocular depth
10	SSL4RL: Revisiting Self-supervised Learning as Intrinsic Reward for Visual-Language Reasoning	SSL4RL：利用自监督学习作为视觉-语言推理的内在奖励	reinforcement learning large language model multimodal
11	HYDRA: HYbrid knowledge Distillation and spectral Reconstruction Algorithm for high channel hyperspectral camera applications	提出HYDRA，通过混合知识蒸馏和光谱重建算法实现高通道高光谱相机应用	distillation HSI
12	Instance-Aware Pseudo-Labeling and Class-Focused Contrastive Learning for Weakly Supervised Domain Adaptive Segmentation of Electron Microscopy	针对电子显微镜图像，提出实例感知伪标签和类别聚焦对比学习的弱监督域自适应分割方法	contrastive learning
13	RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba	RefAtomNet++：利用语义检索的多轨迹Mamba推进指代表达式原子视频动作识别	Mamba	✅
14	RL makes MLLMs see better than SFT	提出PIVOT，利用强化学习优化MLLM视觉编码器，显著提升视觉感知能力	reinforcement learning multimodal	✅

🔬 支柱三：空间感知与语义 (Perception & Semantics) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
15	REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting	提出REALM框架以解决复杂人类指令下的3D对象分割问题	3D gaussian splatting gaussian splatting splatting	✅
16	HGC-Avatar: Hierarchical Gaussian Compression for Streamable Dynamic 3D Avatars	提出HGC-Avatar，用于可流式传输的动态3D头像的高效高斯压缩。	3D gaussian splatting 3DGS gaussian splatting

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
17	Fit for Purpose? Deepfake Detection in the Real World	构建真实政治Deepfake基准，揭示现有检测器泛化能力不足	manipulation large language model multimodal

⬅️ 返回 cs.CV 首页 · 🏠 返回主页