星海图创始人高继扬:具身智能三层技术路线,没有捷径可走
新一代具身基础模型G0.5和首款双足人形机器人Kengo亮相不到半个月,星海图又整活儿了。
这家于2023年成立的具身智能公司,今年年初完成股改后,正处于密集发力的窗口期。
这一次,星海图干脆把自己的「朋友圈」一次性亮了个遍。

6月16日,在该公司举办的第一届全球开发者大会(Galaxea WDC 2026)上,上百位全球开发者、顶尖学者、产业链上下游伙伴,甚至连海外机器人企业都来了。
当天活动现场的座位安排颇为讲究:
第一排嘉宾席C位,上午留给了相关部门领导,下午换成了清华大学电子工程系教授汪玉(下午首场演讲嘉宾)。
星海图创始人兼CEO高继扬把自己安排在了他们的右手边。
而他的右侧嘉宾十分固定,今日资本创始人徐新一直听到该公司联合创始人、CTO赵行分享结束才离场。

这种「学术+资本+产业链」高密度同框的场面,传递出一个清晰信号:
2026,似乎真到了具身智能分水岭。
我呢,一天大会跑下来,发现有三件事值得细唠唠:数据、模型、生态。
单拎起哪一个,都足够说明星海图当前的战略意图。
2亿成本投真机,划算么?
在星海图的技术叙事里,被反复提及的关键词就是「数据」。
会上,星海图联合北京亦庄共同发起的一个新的数据公司「亦数智能」,并提出一个非常激进的目标:100万小时超高质量真实数据计划。

100万小时意味着什么?大概是具身智能终于有「互联网级别」的数据养料了。
天眼查显示,亦数智能(北京)科技有限公司,星海图作为第二大股东认缴出资额2500万元,持股比例25%。
亦数智能牵头,原力灵机、蚂蚁数科、百度智能云、猎聘、海天瑞声等15家公司,是首批共建企业。
我们是国内最早、也最坚定押注真实数据的公司。模型、数据和本体,必须在同一套体系里跑通。
高继扬的潜台词很清楚:在具身智能里,数据不是辅助,而是底层生产资料。
这也是具身行业共识。大模型之所以能有效工作,根本原因在于它「吃」了海量数据。
同理,机器学习底层逻辑之一,也是高度依赖数据中台的质量。
但具身的数据从来不是现成的。

一位星海图工程师告诉量子位,真机数据收集难度大,短期内为提升数据量,还得引入UMI、Egocentric数据等。
BTW,很多公司已经把UMI+Ego结合使用了。这类数据被认为是当前行业里较为常见的「廉价替代方案」。
但在内部判断中,这并不是终局。
他们更倾向于把真机数据作为核心资产长期积累。
同时,逐步引入互联网身体数据、人类行为数据以及物品交互数据,用数据工程方式放大规模。
对于仿真数据,星海图团队的态度相对保守。
我们公司不太相信仿真数据、合成数据,与真机数据差异较大,难以总结有效算法设计。
这种判断也并非没由头。海外具身智能公司Genesis AI也未成功将合成数据用于预训练呢。
在数据组织方式上,有行业人士打了个比方:如果说大模型的数据生产是被动收割,那么具身智能更像是丰田式的精细经营,需要对每一条数据进行控制与验证。
问题也随之而来——成本。
在会后群访中,高继扬直言不应只关注数据单项成本,应该关注智能总成本。
采数据是为了搞智能,得回到我们的目的。
智能总成本分三块:数据、算力、研发团队。
我们先把研发团队工程师成本去掉。实践中发现数据和算力成本比例大概是1:10。
也就是1块钱的数据成本,至少需要10块钱的算力成本,才能把模型训明白。
在他看来,如果数据本身不work,后面产生的模型一定也没什么用。

高继扬把真实世界数据拆成两类:
- Human centric data(人类行为数据)
- Robot centric data(机器人遥操作数据)
在成本层面,这两类数据的价格区间已经被拉得非常清晰。
Human centric data大约在每小时50~100元人民币之间,受地区与采集条件影响存在波动。
Robot centric data由于涉及遥操作、人工控制以及设备折旧,成本显著更高,大约在每小时250元左右。
在市场上,一些团队的报价甚至达到300~350元,但通常伴随10%~20%左右的毛利空间,更多取决于运营效率。
如果把这件事放到规模上看,逻辑会变得更直观。
100万小时的数据采集,对应的是1亿~2亿元人民币的成本。
而在高继扬的对比视角里,这个数字并不夸张,甚至是「必须发生的投入」。
今天做大模型训练,每年算力支出是几亿美金级别。相比之下,这一两亿人民币的数据成本是必须要花的,而且从智能产出的角度看,其实非常划算。
G0.5用到双足人形,还需时间
硬件与数据,最终都要服务于模型。
本次大会,星海图新一代VLA基础模型G0.5正式发布,并宣布开源。
在下午场演讲中,赵行重点介绍了星海图的三层技术路线:
- 本能智能:让机器人协调全身
- 作业智能:让机器人干活
- 进化智能:让AI重新定义机器人形态
G0.5处在第二层,但它做了一件关键的事情:把VLA统一进一个自回归生成框架中。

视觉、语言、思维链与动作不再分段处理,而是在同一数据流中连续生成,实现「边理解边执行」的闭环推理。
会后,我们问了赵行一个现实问题,G0.5什么时候能用到双足人形机器人Kengo身上?
他的回答比较直接:至少要等到今年年底。
原因也很现实。这里面还有不少工程问题没有完全解决,比如小型人形机器人的端侧算力仍然不足。
这直接指向一个硬约束——NVIDIA Jetson Thor。
Thor被定义为「机器人大脑」,用于运行VLA、世界模型和多传感器融合任务,但问题是功耗高、体积大,小型人形结构空间不够。

有算法工程师告诉量子位,如果未来有厂商能针对具身智能做Thor的轻量化版本,可以直接用。
这一现实也解释了一个行业现象:为什么很多具身智能公司在早期验证或生产环节,会更倾向于轮式机器人。
相比双足形态,轮式平台在算力承载、供电能力和结构空间上都更加宽松。
高继扬在群访时也说,G0.5的整体架构,更适配双臂智能或轮式双臂这类形态。
现阶段会更多落地在R1 Lite、R1 Pro,包括新发布的单臂A1Z等平台上。

而Kengo这样的双足人形产品,目前仍处在本能智能阶段。
在他看来,以上提到的「三层技术路线」是必经阶段,没捷径可走。
作业智能是当前的主流路线,本质上仍以模仿学习为主,强化学习更多起到辅助作用。
而在本能智能阶段,则是强化学习是主,模仿学习作为补充。
这一趋势在过去几年已经逐渐清晰,包括英伟达的Sonic,以及基于Mimic类方法的跳舞控制系统,本质上都是在强化学习框架中引入模仿信号进行修正。
从长周期看,高继扬认为本能智能与作业智能这两条路径,最终大概率会走向融合。
等到那个阶段,才可能真正把G0.5级别的能力迁移到Kengo这样的双足系统上。

多说一句,今年年初,星海图发布了第一版世界模型Fast-WAM。
在后续研究中,赵行团队发现一个关键问题:市面上大多数基于世界模型的机器人策略,是在一个视频生成模型上再叠加策略模块,导致整个推理链路变得冗长。

他们做了结构性简化:直接去掉推理阶段的视频预测过程,仅保留训练阶段学到的世界表征能力。
结果显示,模型性能没有明显下降,但推理速度提升4倍以上。
同时,Fast-WAM可以在消费级显卡上稳定运行5亿~10亿参数规模模型,为后续工程部署提供了现实基础。
都开始拼生态了
如果只看技术发布,本届WDC不会显得特别激进。
G0.5开源、Fast-WAM、Kengo首秀,基本都在预期内。
一个变化是,星海图开始转向「生态化」叙事了。

除了亦数智能,本次大会上,星海图还联合凯辉基金发布创业孵化项目「星途计划」。
据CFO罗天奇介绍,他们重点关注三个方向:数据驱动智能、应用场景突破、下一代核心技术。
尤其是第三个最关键,因为它对应的是未来Physical AI Agent在真实世界中的扩散路径。
过去一年,星海图已陆续投资近10家企业,未来3到5年希望投资30~50家。
投资不只是为了财务回报,是要与伙伴共同构建产业拼图。
星海图过往投资支持的公司,已有不少成为其上下游伙伴。
「产业成功的时候,不是某一家企业的成功,而是一批企业的共同成功。」高继扬说。

这句话也有潜台词:没有任何一家公司能够独自定义具身智能。行业已经进入平台期前夜。
确实,具身智能行业链条很长,连接AI、机器人、本体、传感器、数据、制造、场景和服务,不是一家公司靠单点技术就能完成的。
当前,不少具身公司都在搭建生态。
区别于智元自研全品类整机,「航母式孵化」应用场景,星海图认为自己走的是「生态平权」路线。
开放技术、工具、接口,降低入行门槛,所有开发者、企业都能平等使用核心能力,打造开放共享生态。
One more thing
会上,高继扬主动谈起星海图的商业模式,会沿着三段式路径演进:
从整机销售,到方案订阅,再到物理世界Token销售。
在这一框架下,第一阶段的整机销售更多承担场景验证功能。
相较于这一阶段直接追求规模化增长,他认为,当系统能力能够被持续调用、任务能力可以实现模块化订阅时,智能驱动的商业化才会逐渐显现出更大的可能性。
在这个逻辑下,2024年10月,星海图首批GalaxeaR1机器人本体,迎来第一个客户——斯坦福李飞飞实验室。

△李飞飞基于R1 发布全身移动操作机器人套件方案
高继扬和量子位分享了合作背后的小故事。
他与赵行都曾在美国读博,与李飞飞团队在学术圈有交集。
「我们想做具身智能这么一款产品,跟他们一碰,正好需要。要不说researcher更懂researcher呢。」
不过,高继扬当时接触的不只有李飞飞团队,也聊过不少潜在客户。
但最后真正接住这件事的,还得是飞飞老师。
版权所有,未经授权不得以任何形式转载及使用,违者必究。