你的模型真的会”举一反三”吗?RoboChallenge Table30 V2 正式发布,泛化时代开幕
Table30 V2将为全球具身智能研究者打造了一个精准的“泛化标尺”与公平、开放的真机竞技场
具身智能正站在一个关键的历史节点上。随着 VLA 与 WMA 模型爆发式增长,行业的核心痛点日益凸显:在单任务精调之外,具身智能模型是否真正具备通用泛化能力,还是仅仅陷入了单一任务的过拟合?
带着这一核心追问,RoboChallenge 正式发布 Table30 V2,它以“面向下一代模型的大规模真机原生泛化评测”为标准,从任务升级、评测升级到系统升级三个维度深度重构:通过引入更严苛的软体、工具使用及双臂协作任务,支持零样本与域外泛化测试,并实现3倍于往届的系统吞吐量。Table30 V2将为全球具身智能研究者打造了一个精准的“泛化标尺”与公平、开放的真机竞技场,同时其预览版将作为 RoboChallenge CVPR 2026 Workshop 竞赛的首秀上线发布。
一、 任务升级:直面真实世界的复杂性与灵巧性

具身智能的终极目标是处理现实世界中不可预知的复杂场景。Table30 V2 的第一个核心改进,就是重构了任务集。我们在原有基础上,新增了 18 个全新的双臂灵巧操作任务,配合保留的 12 个经典任务,构建了一个包含 30 个高难度任务的综合评估体系。为什么要如此扩展任务难度?因为泛化能力的缺失往往源于对“简单任务”的过度拟合。
- 从硬到软的跨越:我们引入了对绳索、布料等软连续体物体的处理任务。这些物体形变无限、状态不固定,极大地挑战了模型的空间推理与自适应控制能力。
- 工具与空间的深度交互:新增任务要求机器人能够准确使用工具,并理解复杂的工具-物体空间关系。这不仅是对精度控制的考验,更是对模型物理常识的一次深度摸底。
- 双臂协作的必然性:在 Table30 V2 中,我们设计了大量需要双手高度协调的任务,要求模型在动态受限的环境下,实现高精度的同步控制。
- 硬件升级,验证跨平台能力:引入了新一代移动双臂操纵平台 DOS-W1(具有三角尖端夹具),并与经典的 Aloha系统并存,不仅降低了整体硬件的准入门槛,更通过双机型并行的评测机制,严谨地验证了模型在不同硬件配置下的鲁棒性。
二、 评测升级:告别单点突破,迎接全维泛化

在具身智能领域,我们经常看到模型在单个任务上表现优异,却在稍换场景后即刻“翻车”。Table30 V2 通过重构学习与测试协议,彻底终结了“为了比赛而调参”的旧模式。
- 全面转向“多任务”范式:Table30 V2 将全面支持多任务模型,杜绝为每个任务单独训练一个专用模型的“作弊式”优化。我们要求参评者提交具备通用理解能力的单一模型,这与构建通用具身大模型的行业大趋势高度一致。
- 零样本(Zero-shot)测试的引入:这是本次升级的重头戏。我们引入了物体级和环境级两个层面的零样本测试。模型必须在未见过的物体、未见过的背景、甚至动态变化的干扰(如桌面高度微调)下,展示出其真正的理解力,而非单纯的记忆能力。
分层次的泛化矩阵(In-Domain vs. Out-of-Domain):从传统的域内评估,升级为包含域外(OOD)的高阶测试。我们不仅测试模型在预期之内的表现,更通过动态调整测试环境(如将桌面换成沙发等不可控变化),挑战模型的边界。这不再是一场简单的分数比拼,而是一次对模型“智能本质”的压力测试。
三、 系统升级:吞吐量提升 300%,打造快节奏反馈循环
对于算法迭代而言,速度就是生命线。为了让科研人员不再因为“等待评估结果”而浪费宝贵的算力,我们对整个底层基础设施进行了彻底的扩容与优化。
- 300% 的吞吐量飞跃:通过大量增购主流机器人硬件,并优化调度算法,我们实现了系统吞吐能力的巨大提升。
- 任务准备的“极速化”:我们放宽了像素级的严苛初始状态要求,转向更符合现实的“粗略对齐”,大幅降低了任务准备的空转时间,确保科研团队能够实时获取反馈,快速迭代模型。
- “时间消耗”作为性能指标:我们在排行榜中新增了“完成时间(Time to Complete)”作为关键评分维度,倒逼研究者优化策略的执行效率,而非盲目堆叠推理时间来换取成功率。
诚邀报名:RoboChallenge CVPR 2026 Workshop 竞赛正式开启

Table30 V2 的发布,不仅是一个基准测试的诞生,更是一次对未来具身智能方向的指引。我们诚挚邀请全球科研团队、实验室及个人开发者,参与 RoboChallenge CVPR 2026 Workshop 竞赛。本次竞赛将作为 Table30 V2 预览版首秀,参赛者有机会在我们的真实机器人集群上验证自己的模型,与全球顶尖的具身智能算法同台竞技。
竞赛结束后,我们将持续面向全球研究者开放评测基础设施,让每一个有想法的团队都能在真实机器上验证自己的模型。泛化,是具身智能的下一座山峰。Table30 V2,邀你同攀。
详情敬请关注 RoboChallenge 官方渠道:https://robochallenge.cn/competition。
*本文系量子位获授权刊载,观点仅为原作者所有。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Related Articles
Mark Zuckerberg is reportedly building an AI clone to replace him in meetings
Skip to main contentThe AI version of Zuckerberg is trained on his mannerisms, tone, and public statements, according to a report from the Financial Times.The AI version of Zuckerberg is trained on his...
今年最火的AI产品,不止龙虾|榜单申报中
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...
Sam Altman reportedly targeted in second attack
Jess Weatherbed is a news writer focused on creative industries, computing, and internet culture. Jess started her career at TechRadar, covering news and hardware reviews.Sam Altman was seemingly targeted by...
入职Meta的吴翼,清华叉院官网已撤其教职信息
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 2026-04-13 ...