全球计算机视觉顶级学术会议CVPR 2026于6月4日在美国科罗拉多州丹佛开幕。小鹏集团通用智能中心负责人刘先明在大会首次设立的具身智能基座模型部署研讨会上发表主题演讲,首次向外界完整呈现小鹏世界模型的技术图谱。这是小鹏第三次登上CVPR演讲台,与特斯拉、英伟达等企业的技术负责人同台交流。
刘先明在演讲中系统阐述了小鹏物理AI技术体系的架构逻辑。他明确表示,外界长期争论的VLA路线与世界模型路线并非相互竞争的关系。在小鹏的技术架构中,第二代VLA与世界模型是物理世界基座模型的两大支柱,分别对应两种不同的学习方式。第二代VLA的逻辑是向人类学习,将视频流、指令与动作输出进行统一建模,掌握在复杂交通环境中合理行动的能力;世界模型则通过向世界本身学习,对未来状态和场景演化进行预测,理解物理世界的运行规律。二者结合的训练目标,是构建一个能够深度理解真实世界并在其中安全行动的物理AI基座模型。
第二代VLA已于今年3月实现量产装车。数据统计显示,该辅助驾驶系统在推送首月即达成用户辅助驾驶里程占比超过50%的行业指标,超过一半的真实行驶里程由AI主导完成。搭载第二代VLA的小鹏GX已正式发布,以小鹏GX为原型车打造的全栈自研Robotaxi也已量产下线,整车有效算力达到3000TOPS,具备L4级自动驾驶能力。这套系统的设计之初便面向L4级自动驾驶,用同一套软件架构打通了L2与L4之间的技术壁垒。

刘先明将小鹏世界模型必须具备的核心能力概括为三点:主动思考、可控生成和长时序推演。围绕这三个方向,小鹏研发团队近期密集发布了多项研究成果。其中,X-World是一个以动作为条件的多摄像头生成式世界模型,给定历史多视角画面和未来动作序列后,可生成符合物理约束的未来视频流,已投入到闭环仿真测试、在线强化学习和数据生成等研发环节。X-Foresight在架构上与VLA融为一体,在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA的控车决策提供支撑。其采用的长时序分块自回归预测策略,通过预测语义距离更远的片段、保留片段内部密集帧以捕捉瞬时动态,解决了低熵冗余与时间尺度的两难问题。即将发布的X-Mind专注于模型的主动推理与决策可解释性,能够可视化呈现驾驶决策背后的中间推理过程。针对推理成本问题,小鹏提出的X-Cache是一个面向少步自回归世界模型的跨段块级缓存方案,可在基本不牺牲画质的前提下减少约七成重复计算,对世界模型的去噪主干实现最高约2.7倍推理加速。这四项研究成果在近三个月内密集发布,覆盖了从感知生成、决策推理到工程部署的完整链路。
在规模化层面,小鹏第二代VLA模型拥有数十亿参数量,使用了上亿视频片段作为训练数据,每版模型的训练量超过4万亿Token。小鹏是国内最早建成万卡以上规模智算集群的企业,在截至今年3月的一年间,集群单GPU训练效率提升1010%,单任务训练效率提升4360%,GPU硬件利用率从40%提升至90%。通过芯片、编译器、模型的软硬件联合开发,小鹏将车端模型推理速度提升了12倍。刘先明在演讲中展示的三组芯片与模型组合对比数据显示:使用开源模型和通用芯片时,计算利用率为22.8%,推理时延800毫秒;使用开源模型和小鹏自研图灵芯片时,计算利用率为35.1%,推理时延300毫秒;使用自研第二代VLA模型和自研图灵芯片后,计算利用率升至82.5%,时延压缩至80毫秒。

刘先明在CVPR现场再次强调了他的判断:只有能做基座模型的公司,才有可能真正做到L4,并进一步赋能机器人、飞行汽车等多种具身载体。目前,小鹏人形机器人IRON面向量产版本的软硬件研发进展顺利,已进入软硬件合围阶段,预计年底实现量产,2027年一季度进入小鹏线下门店担任导购。