X-Era Lab王可泽：于真实场景中深耕，引领物理AGI迈向新高度

发布时间：2026-06-23 13:18 来源：格隆汇作者：格隆汇

在人工智能技术迅猛发展的浪潮中，一家名为X-Era Lab的科技公司正以独特的技术路径，在具身智能领域掀起一场静默的革命。这家专注于物理AGI（通用人工智能）研发的团队，选择了一条少有人走的道路——构建能够理解物理世界运行规律的世界动作模型，而非停留在数字层面的语言或图像处理。

与传统大模型通过海量文本数据训练不同，X-Era Lab的突破在于其模型直接从真实世界的物理交互中学习。在无人零售场景中，他们的模型首次"目睹"了玻璃门的开合、商品的取放，以及这些动作引发的细微形变和晃动。这些看似杂乱无章的动态数据，恰恰成为模型理解物理因果关系的关键素材。首席科学家王可泽将这一时刻形容为"技术觉醒的转折点"，标志着人工智能开始真正理解物质世界的运作逻辑。

该团队的核心技术是一种基于4D时空点云的表征方法，将三维空间信息与时间维度有机结合。通过千卡级GPU集群的并行计算，模型能够从海量真实交互数据中提取出通用的物理状态表征。这种技术路线使得模型不仅能"看到"场景，更能"理解"物体间的相互作用和运动规律。与依赖仿真数据的传统方法相比，这种从真实世界中"生长"出来的模型展现出更强的泛化能力。

在数据采集策略上，X-Era Lab展现出独特的务实态度。他们拒绝使用精心设计的标准化数据集，而是直接从运营中的智能货柜收集原始交互数据。每天数万小时的4D+X数据（包含三维空间信息、时间序列、触觉反馈和语言标注）持续回流至训练系统，形成了一个自我强化的数据飞轮。这种"在业务中生长"的模式，使模型能够不断适应现实世界的复杂性和不确定性。

面对行业普遍采用的VLA（视觉-语言-动作）架构，X-Era Lab选择了不同的技术路径。王可泽指出，VLA架构虽然能快速实现特定任务，但其预训练目标与控制目标存在本质错位，限制了模型的泛化能力。他们的解决方案是构建原生世界动作模型，从设计之初就统一物理状态表征与动作输出，这种架构创新使得模型在零售场景的部署成本降低80%以上。

工业场景的应用验证了这种技术路线的优越性。在分拣搬运、上下料等复杂任务中，模型展现出对不同材质、光线条件和物体形态的适应能力。特别是在线束插拔等精密操作中，模型通过学习数百万次真实交互数据，掌握了微米级精度的控制策略，成功率达到行业领先水平。这种从"干净数据集"到"真实战场"的跨越，正在重塑工业自动化的技术范式。

该团队的技术哲学体现在对"底层创新"的坚持。他们认为，具身智能的发展不应局限于现有大模型的"外挂"式改造，而需要构建专门理解物理世界的基座模型。这种坚持在商业层面也获得回报：其零售解决方案已实现规模化盈利，工业场景的部署速度呈现指数级增长。更关键的是，这种技术路线形成了难以复制的壁垒——真实业务场景产生的长尾数据与定制化架构的深度耦合。

在研发组织上，X-Era Lab展现出独特的"双轨制"特征。一方面保持顶尖科学家的研究自由度，在物理因果推理、4D表征等前沿领域持续突破；另一方面建立工程化团队，确保技术成果能够快速转化为商业应用。这种平衡使得他们既能保持技术敏锐度，又能避免陷入"论文导向"的研发陷阱。团队成员构成也反映这种特质——既有来自国际顶尖实验室的理论专家，也有具备丰富工业落地经验的资深工程师。

当前，具身智能领域正经历从技术验证到商业落地的关键转型。X-Era Lab的实践表明，真正通用的物理智能必须经历真实世界的"压力测试"。当行业还在争论技术路线时，他们已经通过持续的数据积累和架构优化，构建起涵盖模型训练、数据采集、商业落地的完整闭环。这种"先扎根再生长"的发展模式，或许为人工智能的产业化进程提供了新的思考维度。

更多>同类内容