四家大厂齐押注，自变量宣布：机器人住家，倒计时一个月

冯恋阁

2026-04-25 20:10:07

来源: 消费者报道

为什么自变量会选择押注家庭场景？

近日，自变量机器人举行了一场发布会，推出新一代机器人进家庭计划。据介绍，一个月后（5月25日），自变量将推出搭载新一代自研具身智能基础模型WALL-B的机器人，进入家庭提供服务。简单来说，WALL-B是一个升级版的机器人大脑，可以让机器人能真正看懂、理解、搞定真实场景的复杂任务。

（图源：《消费者报道》摄）

此前，这家公司已经和58同城合作，用户通过58同城APP即可预约由人类保洁+机器人提供的智能保洁服务。

近几年，具身智能市场已经跑出了多家知名行业独角兽，自变量是其中之一。这家公司在今年1月宣布完成了由字节跳动领投的10亿元A++轮融资。除字节外，自变量此前先后获得美团、阿里的投资。而在日前的发布会上，王潜确认，公司前不久已经完成了B轮融资，由小米战投领投。

当前，机器人厂商们有的面向表演、有的面向科研，还有的转向工厂。为什么自变量会选择押注家庭场景？

机器人住家，倒计时一个月

在这场大会上，最受关注的是自变量机器人即将尝试常驻家庭服务。自变量表示，自发布会当日起，用户可通过官方渠道提交申请。

（图源：企业供图）

背后的技术，则是其基于世界统一模型架构（WorldUnifiedModel，WUM）的具身智能基础模型WALL-B。

由于训练时使用了大量真实世界数据，WALL-B能够基本理解重力、惯性等物理常识，可以做到预测物体状态、零样本适应新环境。除此之外，WALL-B还能实现长期记忆与自进化。“机器人实际运行中，在推理和执行任务时，会持续进行数据回流、在线运行模型，因此没有固定迭代周期，而是实时更新自身参数。”自变量创始人兼CEO王潜在接受《消费者报道》等媒体采访时表示。

但机器人要走进家里，除了高效，更重要的是隐私。

据自变量介绍，搭载了WALL-B的机器人在设备端对原始图像进行实时打码处理，原始图像不离开设备，机器人将处理去除个人特征的场景数据；透明授权，用户主动按下同意键后方可开机；此外，公司也保证做到数据不向第三方共享。

不过王潜也坦言，机器人并不是全然“独立”地完成任务。目前机器人的每一次清洁任务由公司的综合智能系统统筹完成。“现阶段，受限于技术的发展，机器人的动作相比于人来说依然有差别。”王潜坦言，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。

家庭，是自变量今年在应用领域尝试的重要方向。

此前自变量已经和58同城合作，在深圳推出了智能保洁家庭服务。具体而言，自变量的家务机器人会和保洁阿姨配合提供3小时左右的家庭清洁服务。阿姨和机器人分工明确：机器人主要负责客厅区域的收纳和基础清洁，保洁阿姨承担与客户沟通、现场判断以及更复杂的深度保洁工作。

发布会同日，自变量该项限时智能保洁服务也正式在北京上线，用户通过58同城APP或微信小程序即可在线预约。

《消费者报道》尝试在58同城APP上预约智能保洁服务。定位深圳时的预约价格为149元3小时，和该APP上3个小时的人类独立完成的日常保洁价格接近。

（图源：网络截图）

据《消费者报道》了解，在去年年底，自变量与招商积余医养公司（招商观颐）、深圳技术大学联合申报的“面向生活照料的智能机器人研发与应用验证”项目，入选工业和信息化部、民政部联合发布的《智能养老服务机器人结对攻关与场景应用试点项目公示名单》。

这一项目对失能、半失能老人的日常照料提出六大解决方案，包括基础护理、监测预警、差异化照护、情感陪伴、健康管理、环境清洁等。

家庭，最好的机器人大脑试炼场？

一个机器人的能力，由“手（运动控制）、眼（视觉）、脑（感知决策）”等共同决定。

自变量自成立以来重点关注的方向，是大脑。

在具身智能大脑领域，一直存在VLA（Vision-Language-Action，视觉－语言－行动）模型、WMA（World-Model–Action，“世界模型+动作策略”）模型等技术路线的讨论。

VLA一度被业界视为具身智能的主流技术路径。2024年底，自变量发布基于VLA架构的第一代具身基础模型WALL-A，2025年9月，将同样思路架构下的轻量化模型版本WALL-OSS开源。

在这条技术路径下，机器人根据视觉输入和语言指令，执行动作完成任务。

“VLA架构本质上是三个独立模块的拼接：视觉模块负责识别物体，语言模块理解指令，动作模块生成轨迹。”自变量联合创始人兼CTO王昊指出。换言之，VLA技术路径下，机器人要做的就是读懂指令，并做出指令对应的动作。

这条路径相对清晰，但是随着机器人面对的任务场景逐渐复杂，痛点也开始显现。

VLA模型只能模仿训练数据中的轨迹，无法真正理解物理世界的规律。换言之，机器人只能重复被训练过的动作，并不真正理解自己需要解决的问题。

现实世界是复杂的，机器人要真正投入实用场景，“随机应变”的能力非常关键。这也是自变量研发WALL-B的初心。

在训练数据层面，WALL-B在预训练阶段同步学习视觉、听觉、语言、触觉、动作，多模态输入，进而能够实现多模态输出。

（图源：《消费者报道》摄）

自变量抛出了一组相对的概念，“糖水数据”和“牛奶数据”。

行业内大多数训练模型的数据是前者：来自实验室，固定光照、固定物体位置、无干扰环境。干净、可控、量大，但与真实世界差距显著。

但是对机器人来说后者则更为重要。牛奶数据是采集自真实的现实物理环境，比如家庭的数据。其中有自然光、有随意摆放的物品，家庭中人类、宠物的移动也相当随机。复杂度高，而且会有大量的不可控的情况发生。

“工厂环境下，一个动作可以重复一万次且每次条件相同；而在家庭中，一万个动作每个可能只做一次，每次的环境条件都不一样。”王潜表示，家庭环境具有极高的复杂性和非标准化特征，家庭产生的真实世界数据用以训练，能够满足对机器人泛化性的要求。

因此，自变量认为，家庭是具身智能真正的考场。

同时，市场上也客观存在需求。

去年世界人工智能大会上，王潜在接受媒体采访时曾表示，自己最关注的不是上市或融资，而是能否给客户创造价值。当时他表示，还没发现真正能在实用场景中算出投资回报率（ROI）的商业化落地场景。

今年，王潜在接受《消费者报道》等媒体采访时透露，自变量整体的主线是要保持基模不断向前迭代，通过家庭这类最复杂的场景，能够极大提升模型的通用能力。当具身基模能在家庭中处理各类复杂任务时，本质上就已对其他垂类场景构成降维打击。反过来看，如果选择一个一个垂直场景逐步去覆盖，做大量不同的模型系统，短期内的确可以加速落地，但长期来看，对基模能力的提升作用比较有限。

（图源：企业供图）

他认为，家庭劳动市场背后，有一个规模不小的市场。

单就进入家庭这一场景来看，家务劳动在GDP中的占比约为20%。“人类每天大约会花费1-2小时用于家务，对应职场8小时工作时间，占比接近1/4到1/5，理论上这就是一个体量相当于20%GDP的市场。”王潜表示。

不过他亦透露，目前公司并未设置具体的业绩目标。“我们比较关心如何成为首个实现具身智能“Aha Moment（顿悟时刻）的团队，而非具体的业绩节点或研究目标。”王潜认为，家庭只是公司目前技术探索进程上比较适合的落地方向。

在更远的未来，自变量锚定的是通用机器人市场。在他看来，这一市场未来的对应着难以用数量级衡量的市场价值。