arXiv 中文要点汇总
🤖 cs.RO
机器人📊 领域分布
机器人控制 5630
RL算法与架构 925
具身大模型 696
空间感知与语义 632
物理动画 76
动作重定向 67
空间感知 65
生成式动作 56
视频提取与匹配 44
其他 13
交互与反应 8
📆 最近更新
📝 最新论文
- cuRoboV2: Dynamics-Aware Motion Generation with Depth-Fused ...
cuRoboV2:基于深度融合距离场和动力学的多自由度机器人运动生成框架 - PhysiFlow: Physics-Aware Humanoid Whole-Body VLA via Multi-B...
PhysiFlow:基于物理感知的多脑潜在流匹配人形机器人全身VLA控制 - Omni-Manip: Beyond-FOV Large-Workspace Humanoid Manipulation...
Omni-Manip:基于全向3D感知的类人机器人大范围操作 - Iterative On-Policy Refinement of Hierarchical Diffusion Pol...
HD-ExpIt:通过迭代式On-Policy优化分层扩散策略,解决语言条件下的... - Observing and Controlling Features in Vision-Language-Action...
提出特征可观测性和可控性方法,实现对Vision-Language-Action...
👁️ cs.CV
视觉📊 领域分布
具身大模型 4284
RL算法与架构 3002
空间感知与语义 2975
机器人控制 879
视频提取与匹配 391
生成式动作 384
物理动画 337
空间感知 328
动作重定向 286
交互与反应 134
视频提取与匹配 6
其他 4
📆 最近更新
📝 最新论文
- Mario: Multimodal Graph Reasoning with Large Language Models 🔗
提出Mario框架以解决多模态图推理中的一致性与偏好问题 - Towards 3D Scene Understanding of Gas Plumes in LWIR Hypersp...
提出基于神经辐射场的LWIR高光谱气体羽流三维场景理解方法 - SSR-GS: Separating Specular Reflection in Gaussian Splatting...
提出SSR-GS,用于高光表面重建中分离高光反射,提升复杂光照下的重建质量。 - MASQuant: Modality-Aware Smoothing Quantization for Multimod... 🔗
提出MASQuant,解决多模态大语言模型量化中的模态不对齐和跨模态计算不变性问... - Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landsc...
评估GPT-5作为多模态临床推理器的能力:一项全景式研究
🎨 cs.GR
图形学📊 领域分布
空间感知与语义 245
机器人控制 88
具身大模型 60
生成式动作 55
RL算法与架构 43
物理动画 38
动作重定向 14
视频提取与匹配 12
空间感知 6
交互与反应 3
视频提取与匹配 1
📆 最近更新
📝 最新论文
- Generalized non-exponential Gaussian splatting
推广3D高斯溅射至非指数高斯,显著加速复杂场景渲染 - TopoEdit: Fast Post-Optimization Editing of Topology Optimiz...
TopoEdit:利用预训练拓扑模型实现快速拓扑优化结构编辑 - BRepMAE: Self-Supervised Masked BRep Autoencoders for Machin...
提出BRepMAE自监督框架,用于CAD模型加工特征识别。 - D3MAS: Decompose, Deduce, and Distribute for Enhanced Knowle...
D3MAS:通过分解、推导与分发增强多智能体系统中的知识共享 - HyperAgent: Leveraging Hypergraphs for Topology Optimization...
HyperAgent:利用超图优化多智能体通信拓扑,提升协作效率与任务适应性
🧠 cs.LG
机器学习 (RL, Diffusion, World Model)📊 领域分布
RL算法与架构 4134
具身大模型 3772
机器人控制 471
物理动画 338
生成式动作 95
交互与反应 63
动作重定向 58
空间感知与语义 49
视频提取与匹配 22
空间感知 3
其他 1
📆 最近更新
📝 最新论文
- FedAFD: Multimodal Federated Learning via Adversarial Fusion...
提出FedAFD,通过对抗融合与蒸馏实现更优的多模态联邦学习 - Diffusion Policy through Conditional Proximal Policy Optimiz...
提出基于条件近端策略优化的扩散策略,提升强化学习中多模态行为建模能力。 - BandPO: Bridging Trust Regions and Ratio Clipping via Probab...
BandPO:通过概率感知边界桥接信任域与比例裁剪,提升LLM强化学习稳定性 - WavSLM: Single-Stream Speech Language Modeling via WavLM Dis... 🔗
WavSLM:通过WavLM蒸馏实现单流语音语言建模 - Decoupling Task and Behavior: A Two-Stage Reward Curriculum ...
提出两阶段奖励课程以解决机器人强化学习中的奖励设计问题
🤔 cs.AI
人工智能 (Agents, Planning)📊 领域分布
具身大模型 5759
RL算法与架构 1905
机器人控制 380
物理动画 111
空间感知与语义 79
生成式动作 67
交互与反应 46
动作重定向 28
视频提取与匹配 26
空间感知 3
📆 最近更新
📝 最新论文
- K-Gen: A Multimodal Language-Conditioned Approach for Interp...
提出K-Gen以解决自主驾驶轨迹生成中的多模态理解问题 - Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Gov...
提出DBC框架,通过行为约束层提升大语言模型在推理时的安全性和合规性。 - Differentially Private Multimodal In-Context Learning
提出DP-MTV框架,实现视觉-语言模型中多模态上下文学习的差分隐私保护。 - Timer-S1: A Billion-Scale Time Series Foundation Model with ...
Timer-S1:通过序列化扩展实现十亿级时间序列基础模型,显著提升预测精度。 - WebFactory: Automated Compression of Foundational Language I...
WebFactory:将LLM知识自动压缩为可交互Web智能体
💬 cs.CL
自然语言 (VLA, Text-to-Motion)📊 领域分布
具身大模型 11347
RL算法与架构 2178
机器人控制 196
视频提取与匹配 63
空间感知与语义 42
物理动画 30
生成式动作 25
动作重定向 22
交互与反应 14
空间感知 1
📆 最近更新
📝 最新论文
- C2-Faith: Benchmarking LLM Judges for Causal and Coverage Fa...
提出C2-Faith基准以评估链式推理中的因果与覆盖忠实性 - TSEmbed: Unlocking Task Scaling in Universal Multimodal Embe...
TSEmbed:通过解耦任务目标实现通用多模态嵌入的任务扩展 - IF-RewardBench: Benchmarking Judge Models for Instruction-Fo... 🔗
提出IF-RewardBench,用于全面评估指令跟随评估中判别模型的性能。 - Reasoning Theater: Disentangling Model Beliefs from Chain-of...
揭示推理模型中的表演性CoT:通过激活探测解耦模型信念与思维链 - Detection of Illicit Content on Online Marketplaces using La...
利用大型语言模型检测在线市场中的非法内容
⚙️ eess.SY
系统控制 (MPC, Dynamics)📊 领域分布
机器人控制 755
RL算法与架构 311
生成式动作 165
物理动画 139
具身大模型 122
交互与反应 18
空间感知与语义 7
动作重定向 5
其他 4
空间感知 3
视频提取与匹配 3
📆 最近更新
📝 最新论文
- A Unified Hybrid Control Architecture for Multi-DOF Robotic ...
提出一种统一混合控制架构,解决多自由度机器人控制难题。 - NL2GDS: LLM-aided interface for Open Source Chip Design
NL2GDS:利用LLM将自然语言硬件描述转化为GDSII版图 - Design of Grid Forming Multi Timescale Coordinated Control S...
针对弱电网,提出基于多时间尺度协调控制的动态虚拟电厂设计 - Multistage Stochastic Programming for Rare Event Risk Mitiga...
提出基于多阶段随机规划的电力系统罕见事件风险缓解方法 - Dual-Interaction-Aware Cooperative Control Strategy for Alle...
提出双重交互感知协同控制策略,缓解混合交通拥堵