{{detailStore.author.is_follow?'已关注':'关注'}}
「深度」解析小鹏记忆泊车背后 是噱头派还是技术派?
新出行原创 · 精品文章

在技术快速迭代的背后,我们除了看到实用性和功能性的技术迭代,也希望能够看到技术背后更深层逻辑以及前瞻意义。

在完成自动驾驶闭环前,各大技术路线都需要解决三大场景,包括城市、高速结构化道路以及自主泊车。

从现在看,小鹏的高速 NGP 、城市 NGP 以及记忆泊车是基于三者路线共进的方式,可以看到技术背后有许多共性与互补,同时看到了许多新的技术难点。

目前车企选择三者技术路线齐步走比较少,这背后其实除了传统的技术演进以外,还需要有一个很重要的架构基础:

「就是在一开始设定的硬件架构以及计算平台,并在这基础上搭载自己的算法软件,才能满足持续迭代的能力。」

所以从小鹏现阶段看,从感知架构的基础上做技术演进,在效率以及路线会更清晰、更加稳健。

此次我们不再做整个泊车的过程解读,反而我们从技术背后逻辑出发,看看小鹏记忆泊车后是噱头或者是技术派,以及对于技术未来落地的可能以及猜想。

一、三问小鹏 VPA记忆泊车  是噱头还是技术派?

1、一个有趣的指标: 设计运营范围(ODD)

我们先来看看评价自动驾驶一个有趣的指标,叫做设计运营范围(ODD)。

如果你的运营范围越小,那么你的场景范围、技术以及成本等要求会越低,同时也会更加安全。

深圳地区的龙舟 ONE Robobus 测试车

例如现在很多无人车的路线,从园区跑、到整个产业园跑,到现在在城市某个大范围区域开放道路跑等等,技术难度与要求也不一样。

而当我们看回地库时,我们会发现这是一个天然的空间,例如

  • 场景维度上比较单一;
  • 没有太多光线、天气等自然环境变化;
  • 速度维度上整体速度比较慢,更为安全等。

但难点也非常明确,比如

  • 地库里的信号问题;
  • 毫米波传感器探测局限;
  • 地库也有行人横穿等复杂场景;
  • 现阶段没有完整的地图数据可供参考等。

2、三大基本问题的发问:

小鹏 VPA 记忆泊车其实和我们在陌生城市开车的逻辑类似:

你到一个陌生的地方需要导航知道你现在的起点和要到达的终点,然后规划好路线到目的地去。这次我们发问三大基础问题:

  • 第一个是定位问题,在密闭的环境下,小鹏VPA如何解决“我在哪里”的基础问题?
  • 第二个是建图,缺失高精地图下,小鹏VPA如何解决地图问题,是用Vslam(基于视觉的定位与建图)么?
  • 第三个问题是小鹏得到起点A 和终点 B 后怎么到达目的地?规划与控制有哪些亮点?

二、定位,难不难?

其实无论是定位或是建图,其都不只是在记忆泊车上,在开放道路中也是一个重要衡量指标。

自动驾驶中,车是如何找到自己?

我们先来看一个大体的环境:

开放道路的自动驾驶大多以 GPS 这个绝对定位来告诉你的起点,告诉你在哪里。

在自动驾驶中,基础定位需要有高精度和高鲁棒性。

但在城市环境下,高楼和大树等的存在带来的多镜效应,大大影响 GPS 的性能表现,另外还包括恶劣天气等也会导致定位不准的问题。

所以在开放道路中,如何确保高精度的定位,我把其要总结为三大核心:

  • 第一类是我们非常熟悉的利用各类传感器和地图去做环境特征匹配定位,比如利用激光雷达、摄像头等;
  • 第二类是基于信号的定位,完成坐标的绝对定位,例如目前主流的 GNSS(全球导航卫星系统) ;
  • 第三类就是基于 IMU 的相对定位坐标,利用航迹推演做一个校正和补充。

第一类我们都比较熟知,那绝对定位和相对定位的区别在哪里呢?应用场景有什么区别呢?

绝对定位可以简单理解为卫星定位下的三维坐标,我们可以简单理解为「经纬度」,和我们手机导航类似,得知你现在的初始位置,在地球哪个坐标。

而相对定位则是你当前和周边事物、车辆等之间的相对距离位置,是根据上一刻的位置和方位做下一个位置推断。

我们举一个常见的例子:

在自动驾驶定位时,GNSS 会给惯性导航一个初始位置和初始速度,而 IMU 则也可以为绝对定位做一个修正和虑波,例如在摄像机遇到强反光、GPS 信号受大树、大楼遮挡下出现信号丢失问题时。

IMU 则可以短暂起到绝对位置的接管作用,所以多个模块的融入能够解决应对复杂环境的高精度定位需求。

2、那没信号的地库,怎么办呢?

地库环境错综复杂,并且常常丢失信号,手机偶尔都不好使,GPS 这种绝对定位显然并不稳定和不安全的方案。

没人给 IMU 等传感器一个初始定位以及全局定位,怎么办?

那我们能不能换个思路:直接利用视觉来做建图和定位呢?这就是我们常常提及的 VSLAM 了。

简单而来说,GPS 通过经纬度告诉你初始定位信息,并利用三维地图做视觉特征的匹配。那面对地库我们能否去自建一张地图,然后利用视觉重新定位,利用自身的位姿变化来计算物体的距离完成定位呢?

这就有点像:

「从你家到公司这段路,开多了就不需要导航一样,我们通过看到周边环境去得知你的定位和路线。」 

3、难题

但很不幸,在地库这样的环境下,用传统的 SLAM 比较难。

小米扫地机器人

传统的 SLAM 利用视觉定位需要有具备差异的视觉特征,怎么理解呢?

「我们知道地库的特征点都比较单一,并且纹理也非常重复,如果我们在地库看着相同的场景化东西,也是很难记忆的。」

那如果我给这些单一的地库场景加一些语义信息呢?

例如给地库里地面条形状物体标记为减速带、给白色框框标记为车位,圆乎乎黑不溜秋的建筑物标记为柱子、地面的箭头标记为转弯箭头等等,我只是保留了这些具备 ROI (感兴趣)的东西,问题是不是就简单了很多?

就像你在一个陌生的大城市步行导航,我们只需要根据导航的路线用我们的视觉去匹配这条路线的场景,也就是我们的兴趣点上,其它的道路、路牌、附近的高楼等多余信息就会被我们过滤。

我们就很容易找到目的地,而且压力会很小。

我拜托了@新出行设计中心设计了几张图像,更为直观:

首先我们利用传感器识别到地库的图像。
进行语义提取。
生成存储量更小的语义地图。

其实还是跟我们开头所讲的,这些都要得益于小鹏一开始在设定架构时选用了视觉传感器架构、合适的 IMU 等来满足不断演进的可能,很多传感器都不能因一时所需再加上的。

我们简单讲讲它的逻辑:

我们利用卷积神经网络将被检测的物体提取为例如停车线、停车位、减速带、左转/右转等标志、障碍物等特征信息,先将地图中的语义特征与目标匹配,而这些参照物都相对固定。

「例如停车线拿来做停车位检测、停车墩做停车标志、而其它的空间或者是障碍物、行人、车辆等则用来做规划。」

所以利用多帧图像来预估自身的位姿变化,通过匹配这些特征信息累积后得到距离信息,这个定位精度非常理想,可以达到厘米级。

四、建图,难不难?

我们看到小鹏利用语义建图,在语义建图过程中呢,个环视摄像头负责将图像转换成一个 IPM 图(俯视全景图),并对特征点信息进行提取。此时我们上面提到的 IMU 在此刻提供一个相对位姿,通过算法在累积后就能够完成整个建图过程。

所以相机所处的位置,也就是在定位时,只要有特征点的位置在,就能利用算法把相机所处的位置估算出来,在建图后利用匹配完成定位。

五、预测与规控

解决了定位问题以及地图问题,那么我们现在来看看我们要怎么去的问题。

地库环境虽然场景单一,但例如鬼探头、行人横穿、路口等场景还是非常多,具备挑战性的。

视频上传成功

小鹏从一开始坚持了全栈算法的自研以及架构的开发,而搭建好这个基础后快速做功能的演进就会有很大的优势。而记忆泊车呢,相信这也是小鹏技术进化的一种延伸。

例如:

从简单的对物体的感知能力问题上,基于感知算法这个大前提下,如果你的对于目标物的识别、感知和融合后算法不够准确的话,那么可能就会遇到无法认知的问题。

我们简单的把避障总结为几个阶段:

  • 第一个是你通过识别障碍物完成简单刹停动作,你可能不认识这个障碍物,你只能做简单的刹停,停止整个机器驾驶行为,这也是当前主流辅助驾驶所处理的方式;
  • 第二个阶段是你能识别障碍物后还能完成绕行,就是避障,这需要大量的深度学习以及感知训练,赋予视觉决策一个聪明的大脑,去分配它的“四肢”。
  • 第三阶段是针对避障路径不断持续优化。
躲避行人。

而这一次小鹏是基于全栈算法下的一次进化,相信也是记忆泊车背后的一个重要隐喻。

那解决大脑认知后背后,难点是什么呢?

预测。

虽然避障方式看起来非常简单,无非时做刹车的纵向避障以及做绕行的横向避障,但实行起来却非常困难。

行进过程中除了需要解决自身定位以外,还需要匹配感知融合、预测规控的全栈算法。

避障要做的前提是解决从对物体的感知识别后完成追踪,随后预测障碍物的行进轨迹,最终做好规划和控制。

遇前车挡道,向左变道。

你要预测障碍物是否对你行驶的路径产生威胁,如果有影响,那么你就要做好你避让路线的规划,你是要纵向刹车还是横向去避让它。

和大家讲了这么多,大家有没有看到小鹏关于城市 NGP 的一些雏形,而在这之间可能缺乏的只是一些场景化。

相信伴随着 P5 在现阶段的传感架构上加入激光雷达,弥补了视觉的部分短板,势必会带来一个更好的表现。

#飞机先生观点总结#

1、 语义地图数据小 利于众包更新

利用视觉传感器成本低、更容易提取语义信息存在众多优势。另外相比传统的点云地图,语义地图数据更小,只有一些特征点信息,上传、下载速度很快,又解决了定位和建图的两大关键问题。

而基于道路的特征提取方法,其实也官方应用在自动驾驶系统中,包括开放道路上的道路标线包括车道线、路缘石、路牌等,这些特征相对稳定,可以通过先验地图来完成摄像头匹配,这也是我们开头所讲的互通性。

而从泊车的发展路径看,语义地图本身的数据量较小,不像传统自动驾驶地图所需的精度,利于上传和下载,所以云端上可以做地图的合并与更新。

那我们可以试猜想只要使用泊车的用户足够多,就能将采用众包的方式将各大地库的场景采集到云端,再下放到各个车辆中,完成真正的自寻车位、可跨楼层的自主泊车与召唤。

另外对于场景化的训练以及优化,例如在云端完成整个路径的优化学习后,对针对性的场景做训练优化,完成数据泛化呢?

2、小鹏正专注于数据处理与地图采集。

何小鹏在中国汽车蓝皮书论坛上所提到的,将在今年拓展一个千人团队,其中首要做的第一是数据的标注运营、感知、长尾场景的处理、第二是地图数据。

上述的观点都与当前的泊车背后的技术有着不谋而合之处。而以泊车这个小场景出发,我们似乎能够预见小鹏在背后更多的技术远见。

3、难点

当然实现的难点还有很多,例如在这个技术方案中动态性能上有些劣势,视觉 SLAM 以及 IMU 都存在累积误差出现漂移问题。

IMU 属于航位推算定位,那么如果前序帧定位结果出现误差的话,是会一直累积到最终的定位结果中,这时候需要环路检测以及做位姿图优化。

另一个难题在三目和单目传感器类似,很难做绝对的深度信息,例如无法做运动轨迹以及判断地图的实际大小,当然 IMU 可以弥补一些劣势,但我们将同一个泊车场景去放大一倍的深度时,可能就会出现感知错觉。

从当前看,小鹏的记忆泊车只能在单平层以及固定车位只是技术落地的雏形,但其都是通向未来真正的自主泊车的必经之路。它更像是一朵含苞待放的花蕊,需要向下扎根,同时也需要往上分支绽放....

我们拭目以待。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧

飞机先生 Lv.5

新出行认证:新出行编辑

简介:可微信可电联,72小时为新出行用户服务。

17646

获赞

23

关注

1994

粉丝

2693

原创

{{recommend_circle[curIndex].series[0].name}}

指导价:
{{recommend_circle[curIndex].series[0].price.max>0?(recommend_circle[curIndex].series[0].price.min == recommend_circle[curIndex].series[0].price.max) ? `${recommend_circle[curIndex].series[0].price.min}万` : `${recommend_circle[curIndex].series[0].price.min}-${recommend_circle[curIndex].series[0].price.max}万`:'暂无报价'}}