法官裁定点火开关召回可接受惩罚性赔偿

在过去几年中,智能驾驶领域的竞争焦点经历了显著的演变。

起初,竞争主要集中在硬件层面,例如是否配备激光雷达、摄像头的数量以及算力达到多少 TOPS。随后,随着大模型时代的到来,竞争转向了端到端、VLA(视觉-语言-行为)以及 World Model(世界模型)等技术路线。

如今,越来越多的公司认识到,仅仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的关键在于模型、数据、算力和芯片之间能否构建一个持续迭代的闭环。

这正是促使更多车企走向自研的原因。

特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到 Dojo 超级计算机和自研芯片的整个链条。在中国,小鹏、蔚来以及理想等品牌也在不断向更底层技术进行延伸。

在今年推出的 L8 和 L9 车型上,理想汽车已采用了自研的马赫 M100 芯片。这款采用数据流架构的芯片被理想汽车视为人工智能领域的一个重要技术方向。在此基础上,理想汽车还运行了自研的马赫 VLA 模型。

然而,对于整个行业而言,更值得关注的问题并非“是否进行自研”,而是这些投入究竟能解决哪些具体问题。

带着这个疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了对话。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系以及 AI 基础设施背后的设计理念。以下是经过编辑的部分访谈摘要:

问:为实现四季度达到特斯拉 FSD V14 的效果,理想汽车还需要在哪些方面努力?

詹锟: 我认为在追赶 FSD 的过程中,需要关注两个层面。

首先是基础体验,具体体现在三个方面:安全感、效率和舒适度是否能达到 FSD 的同等水平。FSD 在安全感方面表现出色,效率也很高,舒适度同样令人满意,这些是它的基本功。即使不处理特别复杂的路况,也能达到这样的基础水平。

其次是能力层面,这一点同样难以超越。例如,特斯拉能够识别并礼让特殊车辆,能在极其狭窄的通行环境中实现精准感知,并且能识别交警的指挥信号,这些能力非常强大。

在能力层面,存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力?这可能与过去的范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量探索。

问:我理解马赫 VLA 是一个技术体系,而非单个模型。例如,Mind-Edge 是服务于智能座舱的端侧模型。那么,当前的智能驾驶模型中是否还包含“L”(Language 语言)的部分?

詹锟: 当前自动驾驶的架构普遍存在一个趋势,即将 VLA(视觉-语言-行为模型)与 World Model(世界模型)进行整合。

从长远来看,所有技术路线都会朝着这个方向发展。无论是 VLA 还是 World Model,其提示(Prompt)都需要用到语言。因此,语言部分是必然存在的,关键在于如何运用它。

在机器智能领域,我认为基于视觉(Vision Based)的 approach 更为合理,它能更好地理解空间、感知三维空间并服务于环境。语言无疑是有价值的,它有助于理解环境、交通状况、指令以及进行复杂的决策。

从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。

谢炎: 如果要实现 L3、L4 级别自动驾驶,并解决更泛化的问题,模型就需要具备类似人类的思考能力。届时,语言的重要性将日益凸显,这也将是未来需要大量算力投入的原因。

如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有大量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。就像一个动物,即使学会了所有常见情况,面对从未见过的情形也可能完全不知所措,无法做出正确的选择。

我们认为,越是向 L3、L4 级别迈进,所要解决的问题就越接近那 90%、95%、98% 之后的问题——那些前所未见、需要模型具备人类般思考能力的问题。而实现类似人类的推理和思考能力,其来源是语言模型。例如,在面对警察的手势时,需要理解其意图是让你通行还是止步,这并非仅仅通过收集或生成数据就能解决的。

问:随着理想汽车车队规模的增长,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义价值数据的?

詹锟: 首先,数据的量必须足够庞大,其核心目的是收集更多的 Corner Case(长尾场景)。目前,业界有多种方法可以在车端实现有效的 neural trigger(神经网络触发器),以判断场景的难易程度,并将关键数据回传。这也是特斯拉当前优势的重要原因之一。

其次,数据的质量至关重要,主要体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是 VLA(视觉-语言-行为模型)、World Model(世界模型)还是 Vision-Action(视觉-动作模型),都离不开对 Action(行为)的理解。因此,行为的质量、干净程度和一致性变得尤为重要。

至于数据规模扩大后边际效应是否衰减,首先,只要模型能力在提升,只要我们追求达到满分,其增长曲线必然是“对数曲线”,呈现逐渐衰减的趋势,而非线性增长,这在任何 AI 公司都是如此。尽管后期数据收敛的速度确实会放缓,但我们希望通过规模效应来加速这一过程。

问:马赫 M100 能够应用于不同的 AI 场景。五年后,或者再往后两代产品,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?

谢炎: 尽管业界存在“舱驾一体”的说法,但我们认为舱驾一体的核心在于 AI 算力部分,其他部分的整合并非那么关键。因为座舱系统和 AI 智能驾驶系统可以完全独立运行,但 AI 算力可以集中处理,从而提高分配效率。

我们的路线图最终目标是构建一个车内 AI 计算中心,所有 AI 任务都可以在这个中心进行计算。这类似于在笔记本上运行 OpenClaw,AI 计算并非在笔记本本地完成,而是在 Token Provider Server(Token 供应服务器)上进行,车内也类似,将设立一个 Token Server(Token 服务器)。

这个 Token Server 的优势在于:第一,效率极高。第二,能够实现不同任务的相互隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务干扰,这是软硬件协同设计才能实现的效果。

问:是否因为 M100 采用了数据流架构的 AI 推理芯片,相较于其他厂商的自动驾驶芯片,其对带宽的需求较低,但对片上存储的需求更高?

谢炎: 我们对带宽的要求确实会相对较低,但这并非设计 SRAM 容量(非显存)的直接原因。当前 HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM 等都需要晶体管成本来实现,最终的设计是基于成本、综合性能等多方面因素考量后的选择。

仅仅依靠一两个指标来简单对比不同架构的设计,既不合理也不专业。这就像拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终比拼的是这项运动的整体表现。

问:为何当前的大算力芯片方案,例如英伟达、小鹏、理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?这是为什么?

谢炎: 从本质上讲,座舱和驾驶是两个独立的系统。特别是对于高端 L3 向 L4 级别迈进的自动驾驶,智能驾驶需要一个更高确定性的系统,内存和计算资源是专属的,此时融合的意义就大大减小了。因为资源无法实时切换,实时切换会降低确定性。如果朝着越来越独占的方向发展,融合的价值就不大了——你只是将芯片整合在一起,但资源仍是两份,并不能降低成本,甚至可能影响效率。

您可以看到,现有的舱驾融合系统,它们仍然是分开的。无法做到一会儿运行这个任务,一会儿运行那个任务。如果无法实现这种切换,将两个芯片集成到一个芯片中,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省的幅度也有限。

我的观点是,随着智能驾驶的不断高端化,舱驾融合的意义可能并不大。如果能将这些芯片做得更近,在一个板上实现高度集成化的小体积方案,这是可行的,不一定非要集成到一块芯片中,也可以是多块芯片集成在一个基板上。

问:自研芯片需要具备哪些条件,例如销量、营收、研发投入?目前自动驾驶迭代速度很快,芯片要持续迭代需要什么样的条件?

谢炎: 芯片的初期投入确实不菲,可能每年需要数亿元。

第一个条件是达到一定的营收规模。对于车企而言,年营收达到 1000 亿元以上,研发投入至少占 10%,即每年有几十亿到上百亿的投入,才足以支持芯片的研发。第二个条件是,所研发的芯片所解决的问题,能够显著提升产品的能力。

许多人认为芯片需要有巨大的出货量才行。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如 Lyvis 使用两颗马赫 M100,总面积约为 800 平方毫米。而一部高端手机芯片的面积大约为 100 平方毫米,因此一辆车的智能驾驶芯片面积相当于 8 部手机的芯片面积。

如此计算,几十万辆车的需求量所需的晶圆面积非常庞大,足以摊薄成本。因此,成本不能仅凭单颗芯片的数量来衡量。

问:动态数据流编译器到底难在哪里?花了多长时间才攻克?

谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器工作了,在流片前,已经成功运行了许多模型。

数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群要解决的问题非常相似——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一管理。传统的冯·诺依曼架构的调度方式在这种规模下变得不可行,这是一个超大规模的并行调度问题。