同事告诉我，他刚刚叫醒了一个睡着的卡车司机 | 夏炎

Original 夏炎我是科学家iScientist 2022-10-01

收录于合集 #我是科学家 · 演讲合集 160个

2020年10月25日，“科普中国-我是科学家”第28期“AI：人工智能，或者爱”演讲现场，Momenta研发副总裁夏炎带来演讲：《同事告诉我，他刚刚叫醒了一个睡着的卡车司机》。

夏炎演讲视频：

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=t321822srgm

以下为夏炎演讲实录：

2020.10.25 合肥

大家好，我是Momenta夏炎。

“Momenta”是“momentum”（动量）的复数。在物理学中，动量和速度是对偶的概念。我的“初速度”是从合肥开始的，大三时在陈小平老师的实验室学习，之后，不断积累“动量”，现在在Momenta从事自动驾驶的研究。

做自动驾驶这样有意思的技术，最欣慰的事情莫过于有意思的技术真正落地，实现产品化，从而产生商业价值，进而产生意义。

2018年的某一天，我旁边的一位同事很开心地告诉我：“我的算法叫醒了一个卡车司机，避免了交通事故的发生。”

那是一个夜晚，这位司机驾驶着一辆货车跑在高速公路上。货车司机是一个非常辛苦的职业，当时这位司机非常困。我们的设备安装在货车上方，可以通过摄像头看到驾驶舱内的状态。当这个司机开始打瞌睡时，我们设备上的算法是能够识别出他的疲劳状态，就可以发出预警。在预警发出几秒钟之后，车前面就突然出现了一个障碍物，正是因为我们的预警，司机才能够把这个障碍物避开。如果当时司机还是一个瞌睡、疲劳的状态，可能当时真的会发生一场交通事故。

这是我第一次感受到，我们所做的技术真正对社会产生了意义，我们在做有意思、也有意义的工作。

那么，从技术上，这种预警是怎样实现的呢？

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=a3234gyy759

司机疲劳警示底层技术的实现 | Momenta

首先，驾驶舱内会有一个红外摄像头，能够实时捕捉到驾驶员的图像。

我们可以用模型抽取这些图像中的一些特征，来识别人脸的身份。

head pose指头部姿态，这个小人的XYZ和三个角度分别是多少，都可以通过摄像头进行智能识别。

这是一个睁闭眼的状态。眼睛的睁闭度也可以自动识别。

这是视线方向。向下看？向右看？向左看？都可以识别出来。

综合头部姿态和视线所注意的方向，还可以识别出当前这个司机在注视驾驶舱的哪一块区域，是驾驶中控屏还是后视镜，是左边后视镜还是右边的，或者，是在低头玩手机。通过这些信号，就可以识别司机的状态。

另外，司机在驾驶时可能会有一些异常动作——

比如抽烟，这是一种比较危险的驾驶行为。

比如打电话，这种行为也可以通过一个简单的摄像头来进行识别。

打哈欠，这是疲劳驾驶的典型标志。我们通过摄像头实现识别，并发出预警。

当然，自动驾驶不只是对驾驶员状态的警报，它其实是一个非常大的范畴。现在已经有很多对“自动驾驶”的讨论，但我还是要简单阐述一下：其实自动驾驶是有两种落地的形态，一种是人机共驾，一种是完全无人，这两种形态实际上是不一样的。

先说人机共驾。比如我们购买的乘用车，其车载芯片中已经安装了一些智能的功能，在车主开车时，智能芯片里面的算法能够提供一些智能驾驶的功能，协助司机在大部分场景中完成驾驶。这种是人机共驾形态，驾驶舱内是有人的。产品面向的客户侧重乘用车主。

完全无人形态，顾名思义，驾驶座上不需要有司机。但完全无人的形态对技术的要求很高，其对应的落地场景是自动驾驶出租。

这是两种完全不一样的产品落地场景。

像人机共驾的形态，它所提供的价值是什么？比如说刚刚过去的国庆，很多地方都发生了大堵车。堵车时，首先要跟着前车，距离不能太远，否则会被加塞；但也不能太近，不然会追尾。不能太远也不能太近，需要要踩一脚油门，踩一脚刹车，这是一个非常机械、往复、疲劳的活动。通过人机共驾形态的智能驾驶产品，可以把驾驶员从疲劳往复的活动解放出来，进而解放人们耗费在交通拥堵中的一些精力。

完全无人形态的最大应用场景是什么？比如自动驾驶（无人驾驶）出租。因为我们的出行需求非常大，出租车或者网约车实际上是一种常用的形态。但是出租车、网约车都是由司机去进行这些枯燥而往复的活动，如果说我们能够把司机解放出来，解放人类的时间去做更多有意义的事情，价值就创造出来了。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=a3234un4amv

我要特别说明的是，虽然现在国内很多城市，比如北京、上海、苏州都已经出现了自动驾驶出租的试运营，但其实驾驶座上都有一位安全员，因为完全无人驾驶这种形态，还处于试运营的发展过程中，还没有完全成熟到驾驶座上没有人的形态，所以这是两种不同阶段的自动驾驶。

做自动驾驶，一定要真正地对社会产生价值、创造意义。

那么，对于人机共驾这样一种形态，我们所追求的意义在哪里？

你可以想想一个城市人的日常生活：每天上下班或上下学，从家里的停车场开车开到城区，上城市高架路，再下高架路，进到城区，再进到学校或者单位的停车场把车停下来，周而复始。至少在工作日，每天都是从一个停车场到另一个停车场的活动。它所覆盖的场景包括停车场，城区，和高速或高架路，这三个主要的典型场景。如果说人机共驾形态的自动驾驶功能，能够使驾驶员在这三个场景中变得更轻松、更安全，这实际上就是智能驾驶在人机共驾形态落地产品的主要价值。

下面将对人机共驾这一形态在这三个场景中的应用分别进行介绍。首先介绍一下高速场景，现在屏幕上显示的是苏州下班晚高峰时在高速路上的场景。大家可以看到屏幕上有一个scene，这实际上是装在车上面的前视摄像头的视野。人机共驾形态的车上一般都会装有很多传感器，传感器就像眼睛一样能够探测周围的世界，比如摄像头，毫米波雷达以及高精度地图。这些传感器都被放在一个车载芯片上面。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=q32346l5p4w

可以看到方向盘是自动控制的，没有人工干预。在拥堵场景中，也可以实现自主变道，如果前面车速度较慢，我们的车可以自主进行变道。那么，变道行为是如何产生的？其实是通过摄像头、传感器去识别到汽车周围的环境信息，并且知道周围的车都在什么位置，让车自主学习去做一个决策，进行驾驶行为。

https://v.qq.com/txp/iframe/player.html?width=500&height=375&auto=0&vid=t32348xqfct

下了高速之后就进入城区了，我们进入普通的城市道路。城市道路比高速场景要更复杂一些。首先，先看一下用来捕捉周围环境的技术。

开车的朋友都知道，与高速场景不同，在城市道路行驶时，旁边的车道跟你的车道不一定是同样速度的。这就需要我们自己的车做避让，这样才能通过。

此外，城市道路中经常会有一些违规行驶，比如横穿马路的三轮车。我们需要对这些违规车的行为进行预测，来保证车辆安全地通过。

在城市里还会经常遇到施工场景，这里有一个施工车，旁边放了一堆锥桶，需要通过传感器去识别这些障碍物的位置，并做出智能的路线规划。这个紫色线条代表是规划出来的路线，帮助驾驶员把施工的场景绕过去。

再比如说城区中会遇到的路口汇流，包括加塞这种需要汽车避让的交通环境，都需要通过传感器，来让车“看”到这些目标，进而去避让它，同时，保持一个合理的速度行驶。

此外，路口还会有很多行人，会有行人闯红灯横穿马路。我们也需要所以要合理地避让行人，顺畅安全地行驶过路口。

我们看一下在道路狭窄且多车交互的复杂场景中，我们自动驾驶算法的表现。我们的车遇到了一辆逆行的三轮车，同时还有大卡车进行加塞，右侧又有需要避让的摩托车和行人。这时，我们就需要在保证安全的前提下去做处理。图中，左边是真实场景，右边是通过算法识别并结构化的环境的信息，算法就是通过这样的信息识别做出智能判断。

在城区行驶一阵后，我们到了停车场，这是今天要与大家分享的最后一个场景。在停车场，车辆也是通过传感器、摄像头、超声波雷达以，及IMU和GPS这一类惯性导航的设备对周围的环境进行观察。

图片的最右边是一个矢量化的停车场的地图，显示出车辆通过摄像头、传感器实时感知、识别到的车位，车辆和行人的信息。图中，一辆车挡住了我们的去路，我们需要通过小幅转动方向盘进行避让，最终把车停到目标车位。这个驾驶座内没有司机，我们实现了自动泊车入位。

等到车主想要取车离开的停车场时，人在电梯口，手机按一个按钮，就能把车叫过来，然后，车主上车，这个车自动地把她带离车库。

刚才介绍的三个典型场景，从高速，到城区，到停车场，是一个端到端的自动驾驶，其目标是将连续自动驾驶的时长最大化，以人机共驾的形态，提升司机驾驶的安全性和智能性。

但是，在某些特定场景，小规模的区域里面可行，我们就能够去落地自动驾驶技术。真正做落地的产品，一定是可规模化的。也就是说，我的车不仅要在合肥能用，在蜀山区能用，而且也要在北京能用，在新疆能用。如此，当行驶的公里数增加，一定会遇到各种各样的corner case（边角案例），各种各样的长尾问题。当这些场景积累起来，就是数量非常庞大的一些问题。

比如说，像图中这样大卡车，不像正常的车是一个钢体，而是在车体中间有转动的部分。另外，普通的小轿车有四个轮子，像这种大货车经常会有八个轮子，十二个轮子等等。此外，在很多的场景中，我们还会遇到车体本身的形态被遮蔽的情况。本来一个摩托车上可能是载一个或者两个人，但也有载三个人的情况偶会发生。像这些场景，我们应该怎么处理？车轮有四个、八个、十二个；摩托车载入有一个、两个、三个……如果每遇到一种场景就用一个if else语句解决，那是难以穷尽所有可能的。

车辆数越多，场景越规模化，公里数就越多。千亿公里，实际上是自动驾驶需要达到的最小里程数。千亿公里是什么概念？相当于地球到太阳系尽头行星距离的20倍。这么长的距离，在实际运行中所能遇到的corner case也一定是非常多的，可能是百万级的。即使是用一百万个工程师，我们也无法通过使用“if else”这样的规则式来穷尽、解决这些问题。

所以我们提出的解决方式，不是去写很多的规则，而是去构建体系、去自动化地解决问题。我们所构建的人工智能的体系，很像一个轮子，我们叫它“飞轮式体系”。这个体系里面有三个关键因素，也是做人工智能问题经常要去解决的三个问题。

首先，如何设计算法？这个算法不是像我刚才讲到被if else这种规则所驱动的算法，而一定要是能被数据驱动的算法。

有了数据驱动算法之后，我们就要去思考，如何实现可规模化地获取量产的数据？只有获得了大量的、规模化的数据才能够去解决规模化的问题。

有了数据和算法之后，如何能让两者自动化地转起来？这个实际上是一套闭环自动化的工具链。这是构建人工智能产业体系的三个非常重要的因素，也是我们解决问题的方式。

通过刚才简要的介绍可以看到，自动驾驶涉及到的、需要解决的问题是非常多的，从环境感知到行为预测，驾驶预测，到驾驶决策规划算法。我们希望能够用有意思的、有挑战性的技术去解决这些问题。

自动驾驶对社会产生的价值，实际上是提高驾驶安全、驾驶的舒适性和智能性，这是非常有意义的。

“先有意思，再有意义”是我做事情的一个原则，因为，有意思让你出发，有意义让你坚持。

谢谢大家。

演讲嘉宾夏炎：《同事告诉我，他刚刚叫醒了一个睡着的卡车司机》 | 拍摄：Vphoto

作者：夏炎

监制：吴欧

策划：麦芽杨

编辑：麦芽杨杨婧凝音

排版：凝音

校对：夏晓茜

在“我是科学家iScientist”后台回复“演讲”，或者点击菜单栏“演讲”，即可看到更多科学家演讲。

本文版权属于“我是科学家”，未经授权不得转载。

如需转载请联系iscientist@guokr.com

更多精彩内容，请下载科普中国客户端

扫描下方二维码，即可跳转到下载界面↓↓↓

【扩展阅读】自行车实现无人驾驶，背后究竟有何“天机”？

武汉出租车司机集体请愿给留口饭吃！无人出租车之后，无人外卖也上路了，底层人出路在哪？

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

特朗普遇刺13大疑问，深刻揭示犹撒本质

悲剧！朝鲜30多名中学生遭公开处决，因观看韩剧

同事告诉我，他刚刚叫醒了一个睡着的卡车司机 | 夏炎

您可能也对以下帖子感兴趣

武汉出租车司机集体请愿给留口饭吃！无人出租车之后，无人外卖也上路了，底层人出路在哪？

天津版“周公子”晒与多位国企大佬的香艳酒局，喊着想看十万加曝光文章

穷追猛打！别让油的关注度被稀释转移

特朗普遇刺13大疑问，深刻揭示犹撒本质

悲剧！朝鲜30多名中学生遭公开处决，因观看韩剧

生成图片，分享到微信朋友圈

同事告诉我，他刚刚叫醒了一个睡着的卡车司机 | 夏炎

您可能也对以下帖子感兴趣