
2026-07-01
清华大学人工智能学院助理教授李一鸣,在从英伟达(Nvidia)离职后,于2026年初回国。他发现国内人工智能领域正面临着对“世界模型”概念的普遍焦虑。李一鸣认为,许多公司将仿真、物理等概念与“世界模型”挂钩,导致该领域估值泡沫过大。他强调,解决实际问题比技术路线本身更为重要,并以《长安的荔枝》为例,说明任何技术都需要一套完整的系统支撑才能发挥价值。
李一鸣的团队近期提出了一套名为 Physical AI Infra 的系统,该系统以数据和物理双轮驱动,包含两个核心自研组件:能够将数据采集量级从行业平均的几十万小时提升至百万至千万小时的“数据管线”,以及能够实现“Real-to-Sim-Real”(从真实到仿真再到真实)闭环的“物理引擎”。这套系统旨在通过仿真环境进行机器人强化学习,最终在真实世界执行任务。虽然“世界模型”并非独立组件,但它贯穿于Physical AI Infra的各个环节,既作为预训练目标,也作为机器人强化学习的仿真环境。该基础设施已成功训练机器人掌握切割、旋拧、按压等精细操作技能,并能跨不同本体和多种应用场景部署,包括生产制造、零售服务、酒店运营等。
基于李一鸣团队的技术方案,新成立的“厘清智能”公司在成立仅两个月内,就完成了多轮融资。据独家消息,厘清智能的种子轮融资额高达数亿元人民币,吸引了包括顺为资本、红ဏ်中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等知名投资机构,以及智元机器人、灵心巧手、世纪金源等多家产业资本的注资。
厘清智能之所以获得资本青睐,一方面源于其稀缺的软硬一体化人才团队。李一鸣本人在空间感知、多模态推理、自动驾驶及具身智能等领域拥有丰富经验,曾在纽约大学攻读博士,并与英伟达联合发表多篇重要论文。团队的50余名成员以清华学生为主,平均年龄仅23岁,李一鸣认为清华大学为其提供了宝贵的人才平台。另一方面,厘清智能选择了“全栈自研”的技术路线,涵盖数据采集、模型训练到物理引擎,这在国内尚属罕见,尽管初期投入巨大且技术难度高,但李一鸣坚信打通所有环节是实现信息畅通和协同优化的关键。他计划在2026年底前发布可跨B端场景的世界模型,并于2028年实现解决方案的规模化落地,最终为客户提供一体化的软硬解决方案。
李一鸣在采访中阐述,Physical AI公司不应被定义为本体公司或模型公司,而是提供一套完整的系统。他们以解决实际问题为导向,将“世界模型”视为解决Physical AI问题的技术路线之一,而非终极目标。其核心在于构建数据与物理双轮驱动的生态系统,使“世界模型”渗透于预训练和后训练等各个环节。厘清智能致力于提供包含数据管线、世界模型和物理引擎的整套系统,这里的“模型”只是其中的技术组件。新一代Physical AI团队的关键特征是全栈自研,从数据采集设备到模型训练,他们都自主构建,以实现规模化数据采集和高效的强化学习训练。李一鸣设想,未来的具身公司应成为“World Model as Service”提供商,通过快速的数据积累实现跨本体泛化,交付给客户无需开箱即用的软硬一体系统。他指出,Physical AI领域人才的画像是软硬一体,而国内这类人才十分稀缺,因此他们倾向于内部培养。
在谈及技术判断时,李一鸣强调,仅仅依赖数据采集而不忽视物理规律是不可行的。他认为,具身模型的参数量需要达到甚至超过语言模型量级,才能实现“智能涌现”。他提出,相比于机器人采集数据,人类数据更易于规模化,因为中国拥有庞大的人口基数。同时,他指出,数据量尚不足以支持Physical AI自主泛化到所有场景,物理规律可以弥补这一局限性。厘清智能设计的物理约束下的世界模型方案,能够利用极少量的真实数据来“校准”世界模型,从而在虚拟环境中实现高效学习,例如机器人学习切苹果,只需少量真实操作即可在仿真中完成大量练习。
李一鸣还对当前流行的VLA、视频模型和JEPA等技术路线提出了看法。他认为,基于LLM的VLM和VLA模型与物理世界适配度不高,因为语言模型是高度离散化的空间,且充满人类的偏见。语言的本质是交流,是人机交互的界面,而非观察世界的模态。因此,在训练世界模型时,语言应为辅助而非中心。他强调,世界模型的训练需要SFT和RL的结合,并且必须遵守物理规律,为此他们自研了可微物理引擎。他认为,只有打通感知、推理、决策和动作输出,并面向机器与世界交互任务设计的,才是“原生世界模型”。VLA因其离散的语言表征而非真实世界,JEPA因仅能预测状态而无法输出动作,视频生成模型因推理过程非原生且难以保证几何与物理一致性,都不能被视为“原生世界模型”。构建“原生世界模型”的关键在于高效地将物理世界进行Tokenization,即多模态观测如何被压缩成模型可理解的Token序列。李一鸣透露,他们的视觉Tokenizer效果已优于Meta的DINOv3。此外,构建Physical AI的Infra是另一大挑战,包括设计能够高效建模柔性物体和流体状态的物理引擎。
展望未来,李一鸣认为2028年将是Physical AI规模化落地的关键节点。他提到,轮臂(带轮子的机械臂)是适配大多数操作场景的硬件形态,而人形机器人技术难度较大。他强调,前期与场景方合作至关重要,无论是数据规模化还是机器人后训练,都离不开真实场景的支持。厘清智能采取“先ToB,后ToC”的模式,将B端积累的数据和技能应用于C端,并优先切入工业、物流以及生活服务类场景。最终目标是打造一款通用的Physical AI Infra,如同iOS之于移动应用,实现各类物理操作任务的规模化开发和部署。他预测,到2028年,数据采集规模和电机密度将实现显著提升,届时他们的解决方案才能大规模落地。



