四家大厂齐押注,自变量宣布:机器人住家,倒计时一个月

冯恋阁
2026-04-25 20:10:07
来源: 消费者报道
为什么自变量会选择押注家庭场景?

近日,自变量机器人举行了一场发布会,推出新一代机器人进家庭计划。据介绍,一个月后(5月25日),自变量将推出搭载新一代自研具身智能基础模型WALL-B的机器人,进入家庭提供服务。简单来说,WALL-B是一个升级版的机器人大脑,可以让机器人能真正看懂、理解、搞定真实场景的复杂任务。

(图源:《消费者报道》摄)

此前,这家公司已经和58同城合作,用户通过58同城APP即可预约由人类保洁+机器人提供的智能保洁服务。

近几年,具身智能市场已经跑出了多家知名行业独角兽,自变量是其中之一。这家公司在今年1月宣布完成了由字节跳动领投的10亿元A++轮融资。除字节外,自变量此前先后获得美团、阿里的投资。而在日前的发布会上,王潜确认,公司前不久已经完成了B轮融资,由小米战投领投。

当前,机器人厂商们有的面向表演、有的面向科研,还有的转向工厂。为什么自变量会选择押注家庭场景?

机器人住家,倒计时一个月

在这场大会上,最受关注的是自变量机器人即将尝试常驻家庭服务。自变量表示,自发布会当日起,用户可通过官方渠道提交申请。

(图源:企业供图)

背后的技术,则是其基于世界统一模型架构(WorldUnifiedModel,WUM)的具身智能基础模型WALL-B。

由于训练时使用了大量真实世界数据,WALL-B能够基本理解重力、惯性等物理常识,可以做到预测物体状态、零样本适应新环境。除此之外,WALL-B还能实现长期记忆与自进化。“机器人实际运行中,在推理和执行任务时,会持续进行数据回流、在线运行模型,因此没有固定迭代周期,而是实时更新自身参数。”自变量创始人兼CEO王潜在接受《消费者报道》等媒体采访时表示。

但机器人要走进家里,除了高效,更重要的是隐私。

据自变量介绍,搭载了WALL-B的机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人将处理去除个人特征的场景数据;透明授权,用户主动按下同意键后方可开机;此外,公司也保证做到数据不向第三方共享。

不过王潜也坦言,机器人并不是全然“独立”地完成任务。目前机器人的每一次清洁任务由公司的综合智能系统统筹完成。“现阶段,受限于技术的发展,机器人的动作相比于人来说依然有差别。”王潜坦言,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。

家庭,是自变量今年在应用领域尝试的重要方向。

此前自变量已经和58同城合作,在深圳推出了智能保洁家庭服务。具体而言,自变量的家务机器人会和保洁阿姨配合提供3小时左右的家庭清洁服务。阿姨和机器人分工明确:机器人主要负责客厅区域的收纳和基础清洁,保洁阿姨承担与客户沟通、现场判断以及更复杂的深度保洁工作。

发布会同日,自变量该项限时智能保洁服务也正式在北京上线,用户通过58同城APP或微信小程序即可在线预约。

《消费者报道》尝试在58同城APP上预约智能保洁服务。定位深圳时的预约价格为149元3小时,和该APP上3个小时的人类独立完成的日常保洁价格接近。

(图源:网络截图)

据《消费者报道》了解,在去年年底,自变量与招商积余医养公司(招商观颐)、深圳技术大学联合申报的“面向生活照料的智能机器人研发与应用验证”项目,入选工业和信息化部、民政部联合发布的《智能养老服务机器人结对攻关与场景应用试点项目公示名单》。

这一项目对失能、半失能老人的日常照料提出六大解决方案,包括基础护理、监测预警、差异化照护、情感陪伴、健康管理、环境清洁等。

家庭,最好的机器人大脑试炼场?

一个机器人的能力,由“手(运动控制)、眼(视觉)、脑(感知决策)”等共同决定。

自变量自成立以来重点关注的方向,是大脑。

在具身智能大脑领域,一直存在VLA(Vision-Language-Action,视觉-语言-行动)模型、WMA(World-Model–Action,“世界模型+动作策略”)模型等技术路线的讨论。

VLA一度被业界视为具身智能的主流技术路径。2024年底,自变量发布基于VLA架构的第一代具身基础模型WALL-A,2025年9月,将同样思路架构下的轻量化模型版本WALL-OSS开源。

在这条技术路径下,机器人根据视觉输入和语言指令,执行动作完成任务。

“VLA架构本质上是三个独立模块的拼接:视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。”自变量联合创始人兼CTO王昊指出。换言之,VLA技术路径下,机器人要做的就是读懂指令,并做出指令对应的动作。

这条路径相对清晰,但是随着机器人面对的任务场景逐渐复杂,痛点也开始显现。

VLA模型只能模仿训练数据中的轨迹,无法真正理解物理世界的规律。换言之,机器人只能重复被训练过的动作,并不真正理解自己需要解决的问题。

现实世界是复杂的,机器人要真正投入实用场景,“随机应变”的能力非常关键。这也是自变量研发WALL-B的初心。

在训练数据层面,WALL-B在预训练阶段同步学习视觉、听觉、语言、触觉、动作,多模态输入,进而能够实现多模态输出。

(图源:《消费者报道》摄)

自变量抛出了一组相对的概念,“糖水数据”和“牛奶数据”。

行业内大多数训练模型的数据是前者:来自实验室,固定光照、固定物体位置、无干扰环境。干净、可控、量大,但与真实世界差距显著。

但是对机器人来说后者则更为重要。牛奶数据是采集自真实的现实物理环境,比如家庭的数据。其中有自然光、有随意摆放的物品,家庭中人类、宠物的移动也相当随机。复杂度高,而且会有大量的不可控的情况发生。

“工厂环境下,一个动作可以重复一万次且每次条件相同;而在家庭中,一万个动作每个可能只做一次,每次的环境条件都不一样。”王潜表示,家庭环境具有极高的复杂性和非标准化特征,家庭产生的真实世界数据用以训练,能够满足对机器人泛化性的要求。

因此,自变量认为,家庭是具身智能真正的考场。

同时,市场上也客观存在需求。

去年世界人工智能大会上,王潜在接受媒体采访时曾表示,自己最关注的不是上市或融资,而是能否给客户创造价值。当时他表示,还没发现真正能在实用场景中算出投资回报率(ROI)的商业化落地场景。

今年,王潜在接受《消费者报道》等媒体采访时透露,自变量整体的主线是要保持基模不断向前迭代,通过家庭这类最复杂的场景,能够极大提升模型的通用能力。当具身基模能在家庭中处理各类复杂任务时,本质上就已对其他垂类场景构成降维打击。反过来看,如果选择一个一个垂直场景逐步去覆盖,做大量不同的模型系统,短期内的确可以加速落地,但长期来看,对基模能力的提升作用比较有限。

(图源:企业供图)

他认为,家庭劳动市场背后,有一个规模不小的市场。

单就进入家庭这一场景来看,家务劳动在GDP中的占比约为20%。“人类每天大约会花费1-2小时用于家务,对应职场8小时工作时间,占比接近1/4到1/5,理论上这就是一个体量相当于20%GDP的市场。”王潜表示。

不过他亦透露,目前公司并未设置具体的业绩目标。“我们比较关心如何成为首个实现具身智能“Aha Moment(顿悟时刻)的团队,而非具体的业绩节点或研究目标。”王潜认为,家庭只是公司目前技术探索进程上比较适合的落地方向。

在更远的未来,自变量锚定的是通用机器人市场。在他看来,这一市场未来的对应着难以用数量级衡量的市场价值。

本网站上的内容(包括但不限于文字、图片及音视频),除转载外,均为时代在线版权所有,未经书面协议授权,禁止转载、链接、转贴或以其他 方式使用。违反上述声明者,本网将追究其相关法律责任。如其他媒体、网站或个人转载使用,请联系本网站丁先生:news@time-weekly.com

相关推荐
首份信托一季报出炉,陕国投净利2.9亿缩水25%!一年累计分红4.6亿
火炬十年:创新赋能·共塑未来,悉尼新南威尔士大学火炬创新园区十周年庆典隆重举行
4家“苏系”上市农商行业绩比拼:3家净利增长,2家首次推出中期分红
DeepSeek‑V4 实测:百万字上下文、Agent、逻辑推理一次看全
扫码分享