被吐槽没技术的理想要为自己正名

zhiyongz 2年前 (2024-07-10) 阅读数 276 #汽车

文章标签理想

李想没亮相的这场发布会，却展示了其硬核实力。

随着特斯拉FSD（完全自动驾驶）进入中国市场的步伐加快，各大车企纷纷跟进，推出自己的端到端大模型方案。

6月，理想汽车董事长兼CEO李想在2024中国汽车重庆论坛上表示，理想汽车将在今年三季度推出无图NOA（自动辅助导航驾驶），最早今年年底最晚明年年初，推出基于理想自研大模型和VLM视觉模型的L3级自动驾驶系统。同时，随着这套技术的演进、算力的增强、模型的加大，无监督的L4级别自动驾驶至少三年内一定可以实现。

7月5日，理想汽车举办了理想 2024 智能驾驶夏季发布会。这次发布会李想并没有出席，而是由三位技术专家介绍了理想智能驾驶的现在和未来。

在发布会上，他们以对话的形式，介绍了最新的端到端+VLM双系统智能驾驶模型，通过世界模型的学习和思考环境，这一系统将加速自动驾驶技术的迭代。

被吐槽没技术的理想要为自己正名理想第1张

首批推送OTA 6.0版本的，是AD Max用户 | 图片来源：理想汽车

同时，理想推出的OTA 6.0版本智能驾驶升级，将引入无需高清地图的NOA功能，并覆盖理想MEGA和理想L9、L8、L7、L6的AD Max车型，惠及超过24万名用户，实现全国范围内的智能驾驶体验。

目前，多家厂商都在追逐「端到端」，但理想汽车是首个公开技术方案的车企。那么，理想的「端到端」方案到底有何特殊之处呢？

「紧跟」特斯拉

作为自动驾驶行业的标杆企业，特斯拉的技术路线一直备受关注。自2023年5月，伊隆·马斯克首次公开提到「特斯拉FSD v12是一个端到端AI」，到2024年3月，特斯拉开始大规模推送v12版本，特斯拉的端到端技术不断进步的过程，也见证了中国自动驾驶行业逐渐达成共识的历程。

尽管行业内对端到端的发展趋势已形成普遍共识，但在具体技术路线上的分歧仍然存在。例如，「模块化端到端」采用监督学习的训练方式，而「单模型端到端」可能更倾向于自回归和生成式的训练方法。

理想这次公布的自动驾驶方案，有点类似Momenta的双系统模式。其理论来源是诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考，快与慢》理论，提到了认知心理学里系统 1 与系统 2 的概念。其中，系统 1 是基于人们过去的经验和习惯形成的直觉，能够迅速做出决策。系统 2 则代表着思维推理的能力，面对复杂问题和未知场景，人们需要思考、推理来解决。总之，系统 1 和系统 2 相互协作，构成了人类认知和理解世界以及做出决策的基石。

被吐槽没技术的理想要为自己正名理想第2张

理想自动驾驶系统 1 的演进路径 | 图片来源：理想

具体到理想汽车的自动驾驶技术架构，主要靠三个部分来实现：系统 1 由端到端模型（E2E）实现，主要用于快速响应常规驾驶问题。这个系统经历了三个阶段：

模块化设计，包含感知、定位、规划、导航、NPN，支持了 100 个城市的 NOA。无图模式。只有感知和规划两个模型，最大的变化是去掉了NPN，不依赖于先验信息类似特斯拉的 One Model的端到端模型，只有一个模型，输入的是传感器，输出的是行驶轨迹。

被吐槽没技术的理想要为自己正名理想第3张

理想智能驾驶系统2的技术架构图 | 图片来源：理想

系统2是视觉语言模型（VLM），具备处理复杂场景的能力。它由Transformer模型组成，将提示词（Prompt）文本进行分词编码，并将摄像头图像和导航地图信息一起传输给模型进行自回归推理。系统2的输出包括环境理解、驾驶决策和驾驶轨迹，然后传递给系统1来控制车辆。

与大多数单帧的VLM模型不同，理想设计了流式视频编码器，能够缓存更长时间的视觉信息。此外，系统还增加了记忆模块（Memory bank），可以缓存多帧历史信息，从而解决长时间序列推理时延的问题。

可以这样理解，系统2就像是一位智能导航和决策专家，它不仅能够看到当前的路况和环境（摄像头图像），还能够根据地图信息和用户的指令（Prompt文本）来进行决策和规划行车路径。

与此同时，理想汽车介绍了端到端方案的测试和验证方法。一般来说，业内主流的做法是通过3D虚拟环境、重建仿真、生成仿真等进行仿真测试。理想则结合了重建仿真和生成仿真两种技术路径。

可以用一个比方来说明：假设你在准备考试，有两种题型需要练习：真题和模拟题。真题是过去考试中实际出现过的问题，模拟题则是根据考试大纲编写的新题目。真题可以让你熟悉考试的风格和类型，而模拟题可以帮助你应对可能出现的新情况。

理想的测试方法类似于这个准备过程。他们先使用3D高斯溅射（3DGS）技术，像是真题一样重建真实场景，然后利用生成模型，像是模拟题一样补充新的视角。这样一来，他们创建的测试环境既真实又多样，可以更全面地评估自动驾驶系统的表现。

此外，他们采用了动静态分离的策略，就像是分开练习不同类型的题目：静态部分是环境重建，动态部分则是对动态物体进行重建和生成新视角。通过这种方法，他们创建了一个360°可编辑的3D物理世界，能够模拟各种不同的驾驶条件，比如天气变化、时间不同、车流量等，来全面测试自动驾驶系统的适应能力。

开城大战继续玩下去

除了自动驾驶新架构，理想汽车还发布OTA 6.0版本的智能驾驶升级，带来无需高清地图支持的NOA功能。这次升级将覆盖理想MEGA以及理想L9、L8、L7、L6的ADMax车型，惠及理想超过24万名用户。

在2023年，中国智能驾驶行业的焦点集中在「城市NOA开城大战」。目前，华为和小鹏已经推出了无需高清地图的高阶驾驶辅助功能，蔚来也推出了全域领航辅助NOP+城区功能。

被吐槽没技术的理想要为自己正名理想第4张

理想无图NOA的推送节奏 | 图片来源：理想汽车

这次，理想也紧随其后。据了解，理想汽车最新发布的无图NOA（导航辅助驾驶）功能不仅可以在城市和城镇中行驶，还能适应二级道路。相比之前的版本，新版无图NOA在BEV（鸟瞰视图）、感知能力、规控能力以及整体系统能力上都有了全面提升，能够应对更多复杂的行驶环境。

发布会上，理想汽车拆解了无图NOA的四大核心能力，其中最值得关注的是前两个：

哪里都能开。无图NOA无需依赖大量的「先验信息」。理想汽车的智能驾驶系统中有许多「小机器人」在运行，虽然部分「小机器人」可能仍需一些先验信息，但整体能力的提升，使得系统能够更灵活地应对各种路面情况，而无需事先验证。绕行丝滑。该能力结合了时间和空间的双重规划。在实际驾驶中，常常会遇到车辆或行人阻碍通行。这时，「绕行顺畅」能力就显得尤为重要。其背后的时空联合能力，可以同步规划横纵（前后左右）的空间，并持续预测自车与他车之间的空间交互关系。通过规划出「未来一段时间内」的所有可行驶轨迹，筛选出最优、最高效的行驶路径。

除此之外，理想汽车还对AEB（自动紧急制动）和AES（自动紧急转向）进行了多项优化。在日常生活中的低速场景，特别是在地库停车等复杂环境中，用户可能会遇到柱子、墩子等障碍物。理想汽车的低速AEB能够在这些情况下自动刹停，避免剐蹭，减少用户的烦恼。

在高速行驶时，如果前车突然急刹并避让，而当前的车与前车距离过近，无法及时刹停，理想汽车的AES功能会自动减速并紧急转向避让。这个功能在“消失的前车”场景中尤其重要，可以显著提升行车安全。

目前，端到端自动驾驶已经成为行业的共识。华为、小鹏、元戎启行、商汤绝影、零一汽车等主机厂和智能驾驶技术公司纷纷进入这一领域，并在最近半年陆续披露了上车量产规划。

然而，端到端技术不是一项「一招鲜」的技术，它需要一整套支持系统才能真正发挥作用。以特斯拉为例，虽然其他公司也在使用端到端技术，但效果却不如特斯拉理想。

特斯拉的成功不仅是因为采用了端到端，还因为他们在每个细节上都做得非常出色。不过，对在智能驾驶上的布局虽然相对较晚的理想汽车，端到端还是让它有了追赶的机会。