诚迈科技发布端侧智能体引擎萤火Claw，高通骁龙8797平台实现2176 tokens/s大模型首字响应

诚迈科技与子公司智达诚远在6月4日至5日举办的2026高通汽车技术与合作峰会上，展出了自研的萤火AIOS操作系统与端侧智能体引擎“萤火Claw”，宣布与高通围绕车载AI智能体生态深化合作。

高通技术公司执行副总裁兼汽车、工业及嵌入式物联网与机器人事业群总经理Nakul Duggal在峰会演讲中公布了车端人工智能Claw生态计划。此举意味着高通正推动大模型以智能体形式直接部署于车机，座舱从预置功能与OTA迭代的竞争格局，转向软件架构、人机交互与场景服务的综合比拼。

高通汽车峰会现场展出萤火Claw智能体

智达诚远座舱部部长胡俊在主题演讲中介绍，萤火Claw引擎深度适配高通骁龙8797等芯片平台，采用“能力原子化”架构，将座舱系统功能、数据、云端服务、车控、技能单元及多模型部署拆解为独立可编排的基础能力单元，由萤火Claw统一调度端侧与云端的原子化能力，跨系统、跨场景协同联动。这种架构如同为座舱搭建了一套乐高式积木体系，车企无需复杂的底层开发即可组合出定制化的AI座舱体验。

与传统车载助手相比，萤火Claw在交互机制上不再依赖固定唤醒词，通过多模态感知主动预判用户需求；核心模型部署于车机本地，响应速度提升且用户隐私数据保留在端侧；搭载主动记忆系统，实现跨行程的用户习惯与偏好记忆；执行权限上支持串联导航、日程、车载设备及第三方应用。

展区现场亮相的“端侧全时智能座舱助手”基于萤火Claw打造，具备全时免唤醒、多轮对话、主动服务和跨任务执行能力。同场展出的还包括搭载萤火AIOS的座舱AI智能体，轻量版以骁龙8797为算力底座，集成UE5引擎与实时3D渲染；通用型版本集成全数字仪表、全3D Launcher与端侧大模型AI助手。

诚迈科技与智达诚远在高通骁龙8797平台上完成了对阿里Qwen3-30B-A3B MoE模型的深度适配与性能验证。测试数据表明，首字响应速度达到2176 tokens/s，后续生成速度稳定在68 tokens/s。这一性能受益于对高通底层硬件的算子级优化、模型压缩，以及MoE架构总参数规模大但实际激活参数少的特点，在精度几乎不损失的前提下降低了算力消耗。

为进一步压缩延迟，团队引入SSD投机采样算法，将生成速度提升约2.6倍。在连续多轮对话或复杂指令场景中，系统响应更为迅速，为实时语音交互和复杂意图识别留出算力空间。该方案验证了MoE大模型与车规级SoC组合的商业落地可行性，车企基于主流芯片即可构建流畅的本地化座舱智能体。

诚迈科技发布端侧智能体引擎萤火Claw，高通骁龙8797平台实现2176 tokens/s大模型首字响应

相关文章