{{detailStore.author.is_follow?'已关注':'关注'}}
飞机先生唠唠|到底该不该去高精地图?
新出行原创 · 精品文章

智能驾驶,该不该去高精地图呢?

当我们讨论无图化的时候,其实更多讨论的是去高精地图,而不是去地图本身。

  • 高精地图就像一个给火车铺设的轨道,我们只要沿着轨道就能到达目的。
  • 地图更多是提供指引,比如我们开车听到的“前方两百米右转”,我们还是需要自行完成行车规划。

现如今大家对无图的边界,是寻找一张感知系统“能自己画”(认知)同时也“能看得懂”(感知)的地图,它不需要高精地图的高精信息与绘制流程,但也需要具备一定的数据信息。Harry Wong 把它定义为 “智能驾驶增强数据地图” ,非常认同。

高精地图该不该“去”

当一个功能开始涌现的时候,我们这时候该讨论的就不再是功能本身了,我们还需要看功能背后的商业模式或者运营形式。

高精地图自有三种特性,需要具备资质、具备高精度、具备高频的更新率。当这三个属性单纯放在智能驾驶功能上,无疑非常好用。

这就像你遮着眼睛,高精地图牵着你走。

而且前面如果有坑,地图还会跟你说,“诶,5米后,我说一二三你就跳哈。”

高精地图怎么会不好用呢?

但去高精地图化不是功能本身出问题,而是这背后的运营模式。

高精地图的制作顺序一般是:

  • 图商投人、投钱先做一遍采图
  • 车企买图
  • 车企开始用自己车队先验证图
  • 最后交付用户

特殊的点在于,验证完地图交付用户后,高精地图的能力才刚刚开始,而不是一个产品周期的结束,同时高精地图的成本也在增加。

这时候运营顺序开始变化:

  • 各地的用户率先发现道路更新反馈
  • 车企收到问题后开始交给图商
  • 图商开始头疼,因为它服务维护的车企也不是只有一家,bug 反馈也越来越多

所以当一份高精地图最好用的时候是刚刚交付的时候。同时伴随着的是它的成本不断增加、无法跟上用户体验的更新频率,车企解决部分 bug 有时候也只能通过降级,用户体验也会越来越差。

是谁带来了无图化?

但无图化思路的提起,并不是因为大家看清了这种矛盾关系,其实是得益于 BEV 大模型网络和大计算平台的发展。

所以我们需要解决两个容易混淆的问题:

  • 到底什么是 BEV 大模型?
  • 为什么以前 BEV 不可以取代高精地图,现在却可以?

BEV 也就是 Bird's Eye View(鸟瞰视角)的简称,所以字面意思非常容易理解,就是上帝视角。背后的技术是将传感器的信息转换为一个统一的俯视视角。

那为什么以前 BEV 不可以取代高精地图,现在却可以?

BEV 原理并不复杂,它也不是一个新的技术,只是给了系统一个看世界的角度,实际上是新的算法赋予了新的生命力。

BEV 会历经两个阶段:

第一阶段就是先通过 2D 图像中目标检测,然后再通过摄像头投射到 3D 视角里。它利用上帝视角解决了空间检测的问题,但难以泛化、难以训练。

第二阶段开始先直接在 BEV 初始化特征形成 3D 空间,结合 transformer 将图像信息特征化。通过融合更多传感器,比如激光雷达、毫米波等一起融合,通过一个新的网络编码后再投入到 BEV 。

这时候 BEV 带来了几个核心的变化,它的精度变高、变得可训练可泛化、场景也变得可理解,也就是一个完整的端到端的感知大模型。

BEV 算法通过在环境提取特征,并且把不同传感器的特征映射到统一的坐标系里,在做融合后在做相应的学习分类。而 transformer 给感知带来了一个更大的视野,它不再像传统神经网络一样机械化的流水线处理,transformer 擅长挖掘不同元素之间的相关信息。

系统可以直接获得多传感器融合后的 3D 空间信息,利用一个网络直接输出感知结果,更为关键的是如果在这个基础上我们加入了时间序列,也就是给传感器加入了时间流,这时候我们就可以获得一个完整的具备前后时间线的感知架构。

这时候系统开始:

  • 多传感器能够融合并且在统一视角内表达;
  • 具备推理、预测能力;
  • 成为一个端到端的能力,能够开始积累数据、具备泛化能力(满足不同车型、不同平台);
  • 构建语义地图,逐步取代高精地图。

所以 BEV + transformer 开始用一个端到端的大模型来取代过去基于大量人工、无法泛化的 2D 时代,让它的架构变得更加简洁,同时大家可以基于这个新的框架积累更多的数据,形成所谓的端到端闭环。

BEV 就像是一个提供全局视角,transformer 开始基于全局思路找到相对应的词组关系,最后形成一句环境相应的“句子”给到下游规划, transformer 和 BEV 做了结合之后大大提升了感知的性能。

所以 BEV 只是一个结果,怎么用好它,才是这几年技术变革的关键。

无图化有哪些“难”

上面可以和大家聊到 BEV + transformer 解决了空间问题,在这基础上如果我们加入时间序列,就可以得到类似视频流的体验。

这就像我们过去基于图片的视角去收藏、回忆,如今我们以电影的形式呈现,开始加入了故事线,有前因后果的关系,这在自动驾驶中让系统去场景理解一样重要。

有了结合前后时间的关系,更多的场景能够被理解,例如道路与道路、路口之间的逻辑关系,也可以对动态目标做未来轨迹预测。

这时候我们既掌握了动态目标的检测与预测,同时对道路的表达形式也开始变化,开始对环境具有逻辑感知能力,这也给无图的思路提供了可能。

所以利用 BEV 所生成的语义地图,也就是无图化会有两个重点:

第一个通过车端的算法,能不能重构成系统可用的地理信息变得非常关键。

第二目前的通勤模式以及无高精地图化的城市级 NOA ,其中的地图是两个概念,前者是局部地图,后者是全局地图,这两者在采集难度、监管问题上都存在不同。

同时衡量一个系统能力也开始有所变化:

第一是感知变成一个端到端的工具,不再是基于规则类算法,它可以直接输出 3D 检测、车道逻辑关系、车辆预测甚至是占用网络。但也因为它成为一个端到端的系统,就更需要一套成熟的数据驱动系统。

如何低成本获得数据,同时如何给大量“没有规律”的数据做好自动标注,将自动化的能力完成可持续的迭代训练,满足长期的持续迭代能力。

第二是 BEV + transformer 不仅只是网络算法的升级,它对硬件芯片、传感器、数据闭环能力都有新的要求。比如当 transformer 模型越来越大时这时候对芯片有效算力、功耗、带宽需要也更大。

第三是激光雷达的必要性。激光雷达和实现 BEV 没有必然联系。但激光雷达提供一个原生的 3D 视角空间,所以激光雷达本身可以作为一个天然的 3D 特征,能够容易做对齐,更为准确稳定。同时也能给训练数据不足时候提供一个补充。如果我们的模型有了数据量支撑,可以接近激光雷达的精度,激光雷达的必要性相应就会变低。

在过去特斯拉提出 BEV 之前,很多人都是高精地图的信奉者。

伴随着高精地图的成本、更新频率、商业闭环模式的局限,我们都看到了高精地图的“难”。但伴随着大算力硬件、BEV + transformer 等新算法的到来,也给市场带来了一个新的解题思路,给去高精地图化带来了可能。

伴随着通勤模式、更多城市 NOA 的使用范围也会也不断降低智能驾驶的成本、带来更大范围的泛化。这也将会是今年下半年的一大热题。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧

飞机先生 Lv.5

新出行认证:新出行编辑

简介:可微信可电联,72小时为新出行用户服务。

17646

获赞

23

关注

1994

粉丝

2693

原创

{{recommend_circle[curIndex].series[0].name}}

指导价:
{{recommend_circle[curIndex].series[0].price.max>0?(recommend_circle[curIndex].series[0].price.min == recommend_circle[curIndex].series[0].price.max) ? `${recommend_circle[curIndex].series[0].price.min}万` : `${recommend_circle[curIndex].series[0].price.min}-${recommend_circle[curIndex].series[0].price.max}万`:'暂无报价'}}