三连发！阿里发布首个具身大模型Qwen-Robot系列

边走、边看、边思考

6月16日，阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列，包含 VLA 操作模型 Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 和世界模型 Qwen-RobotWorld三大模型。这是千问大模型家族首个完整的具身智能模型系列——三个模型分别为机器人装上灵巧的手、认路的脚和会思考的大脑，既可单独部署，也能协同运转，让不同形态的机器人迈向真实落地有了可靠的”通用底座”。

大语言模型（LLM）是在数字世界里对话和生成内容，而具身智能（Embodied Intelligence）则将这一能力延展到现实物理世界中。当前，全球具身智能行业正处于从“实验室研发”向“真实场景商业化”跨越的临界点，能否在陌生环境里听懂指令、稳定执行，是这道门槛的关键。Qwen-Robot通过三类关键的大模型设计和训练，让模型能更好地听懂人类自然语言、感知三维环境、了解物理规律，从而指挥机器人在真实世界中自主执行复杂操作和精准移动，甚至完成从未见过的任务。

VLA （Vision-Language-Action，视觉-语言-动作）模型是当前具身智能最核心基础模型之一，它将视觉感知、语言理解和动作决策融合，让机器人看得懂、能动手。传统VLA模型的核心痛点是迁移能力不足，换机器人、换场景性能就下降。让不同形态的机器人能听懂一个模型指挥，需要解决动作统一和空间统一两个核心问题，Qwen-RobotManip正是从这两点切入。首先，Qwen-RobotManip 用一套 80 维的统一动作表征，为不同硬件定义了通用的”肢体语言”，让机器人习得基础物理规律与动作逻辑，动作不再是生硬模仿。其次，Qwen-RobotManip 不再依赖繁琐的绝对坐标计算，而是直接基于摄像头画面中的相对位置操作，面对环境变化时也能更快更准。搭载在不同的硬件中，Qwen-RobotManip只需数步反馈即可自动适配，性能稳定高效，像老司机坐进陌生车辆，试几脚油门就能上路。

图说：RoboChallenge真机多任务全球榜单，代号Lira的Qwen-RobotManip夺得第一

Qwen-RobotManip 在超过38000小时的语料上完成了预训练。值得一提的是，区别于行业高度依赖私有自采数据的常规路径，模型全程仅基于开源数据训练，便取得了优异效果：在横跨30项真实世界任务、4个机器人平台的三方真机测评 RoboChallenge Table30 v1 中，代号“Lira”和“Atlas”的两个版本 Qwen-RobotManip列前两名，任务包括拧水龙头、插网线、双臂倒薯条等，官方肯定其”基础任务稳定、高难任务可突破”。

如果说 VLA 模型让机器人能动手，那么 VLN（Vision-Language Navigation，视觉语言导航）模型，就是让机器人能认路、会跑腿。Qwen-RobotNav 基于 Qwen-VL 构建，将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一个框架，遇到复杂任务无需人工切换模型。此前VLN模型由于记忆策略死板，常常陷入“记少迷路、记多混乱”的困境，为此，Qwen-RobotNav 创新推出任务自适应观察机制，根据任务灵活切换记忆策略。Qwen-RoboNav 同时被设计成一个通用接口，可以被上层模型调用，是业内少数原生支持多种智能体框架的 VLN 模型。它让机器人真正做到”边走、边看、边思考最佳路线”，也让导航能力从孤立模型升级为可被统一调用的工具，为完整的具身智能体系统提供了关键一环。比如，对搭载该系统的宇树 Go2 四⾜机器⼈说“帮我找找不记得放在哪的行李箱”，它可以自主巡逻的同时进行视觉推理，最终顺畅地完成寻物导航。

图说：搭载Qwen-RobotNav的机器狗顺利完成寻物导航

会动手、能跑腿，机器人要做得准还得想得深，就像体操运动员一样需要反复在“脑海”里演练动作，这依赖于具身智能领域的世界模型。Qwen-RobotWorld是千问对此的最新尝试，基于对物理规律的理解，可推理和模拟出下一个时间点机器人的合理动作和状态，让机器人在现实世界中可按图索骥般地行动。在实际应用中，Qwen-RobotWorld不仅能生成视频数据以训练模型，大幅缓解训练数据不足的困难，还能在执行动作前，帮助机器人推演未来的动作轨迹，让操作更精准、更到位。

图说：Qwen-Robot系列模型在具身智能评测中夺得多项SOTA

据了解，Qwen-Robot 系列是千问大模型家族从数字智能体迈向物理智能体的重要一步。不管是单独部署，还是整体协同，在统一的自然语言指令下Qwen-Robot都能展现一致的高性能，让一个能够去很多地方、做很多事情、并预见其后果的物理智能体成为可能。未来，这套“通用大脑”将搭载于更多形态的机器人，使其在复杂现实中具备高度自主的感知、决策与长程执行能力。

来源：阿里云

三连发！阿里发布首个具身大模型Qwen-Robot系列

Related Articles

Here’s the problem with putting an AI image generator in Google Earth

The major labels propose rules to keep AI slop off the charts

It’s time to panic about AI safety

Anthropic says Claude accidentally hacked real companies too