城市大脑的眼疾与升级：解析高文院士提出的“数字视网膜”体系-MEGVII旷视科技

城市大脑的眼疾与升级：解析高文院士提出的“数字视网膜”体系

2019-05-08

城市大脑.jpg

近几年来，城市大脑概念可谓如火如荼。

相比于前两年大家对这一概念比较陌生，如今相信大部分读者应该都已经知道，所谓城市大脑的基本内涵，是指用公路上的大量摄像头，来识别车流、车牌和车辆，以及一些路段广场上机遇摄像头执行人脸识别和人流判断。

这些“城市之眼”收集的数据，一方面可以帮助提升城市安防的智能化水准，比如预判人群拥堵、识别交通事故与可疑车辆等等；另一方面，城市大脑的作用主要体现在和交通灯、高架桥准入闸口的互动上。通过对车辆数据的识别和判断，进而用城市大脑进行交通指挥，被广泛相信是治理城市拥堵的有效方式。

这些技术逻辑近两年被反复讨论，加之科技巨头的不断加注与宣传，很可能让大众觉得城市大脑已经非常完善，可以真正承担一座城市的“AI交通指挥官”。然而事实上并非如此，从一种产业构思到实际落地，城市大脑，或者称作智慧城市系统，还面临着非常多物理世界中客观存在的困难与障碍。尤其是城市摄像头体系本身，与后加入的AI大脑，二者其实存在着无法忽视的“代沟”。

这个问题应该如何解决，近两年也有相当多的学术讨论。比如中国工程院院士、中国计算机学会理事长，北京大学教授、博导高文提出的“数字视网膜”理念，就广为产学各界重视。在这一问题中构成了一种代表性的解题方案。

我们似乎可以从数字视网膜应运而生的现实问题，以及其发展思路中，共同探讨这样两个问题：城市的智能，距离我们究竟有多远？而如果希望拉进这个距离，目前有哪些急需开展的工作？

从这个角度思考，我们或许会发现数字视网膜既是一种学术创新，也是一个新的产业机遇。

“眼疾”未愈，城市大脑依旧幼稚

城市大脑概念，在现实执行中面临的第一个问题，也可能是最根源的问题之一，就是原本并不用于智能计算的城市摄像头，如何与AI带来的识别，甚至智能分析能力连接在一起？

这个问题涉及一个基本矛盾，就是智能发生在哪里。

今天一般的城市大脑与智慧城市项目，主要是将摄像头收集来的视频数据进行存储，从而在云端用算法就行识别和分析。

而这里就有很多矛盾滋生了出来，比如传统摄像头收集的视频数据过于庞大，清晰度也欠佳，AI算法很难识别。

即使摄像头能够提供高清数据，但由于拍摄的视频没有进行特征提取，于是从提取到识别、检索，再到推理的全链计算都必须发生在云端。这带来的数据量非常庞大，云端将承受难以负载的数据压力，从而影响识别精度与数据处理准确度。同时，把基础视频数据堆积到云端，客观上也会造成过大的延迟，很难满足交通场景里实时反应的刚性需求。

同时，城市综合体每天产生的视频数据，其本质上堪称一个“数据包袱”。这些数据存在哪？存多久？谁来看？如何检索？在海量数据面前，这些问题一一成为了城市数据管理体系的重担。

那么如果让摄像头自己具备识别能力呢？这是如今智慧城市的主要解决方案，但是由于此前的原版摄像头不便拆卸，想要加入新的识别能力就要加装一个新的摄像头。于是我们看到了拍照摄像头、人脸识别摄像头、车牌识别摄像头、车辆识别摄像头等等；在路口抬头一看，简直能激发密集恐惧症。

这些“智能摄像头”识别出的数据，本质上无法做到汇融与底层打通，而是只能各自为政。后端的AI也就只能偏听偏信，无法进行完整的交通场景分析，给出真正的“智能建议”。

那么如果让识别和推理的全套AI能力都发生在摄像头里呢？这带来的最大问题就是端侧算力不够充沛，无法支撑复杂的计算。如果在每个摄像头都加载大量AI算力和专用硬件模组，那将是一笔无法负担的成本。而且想要让AI全局化理解城市，各摄像头也必须进行全局汇总。

这样左右为难的问题，就是今天城市智能从理想到现实的差距。高文院士将之总结成“存储难，检索难，识别难和功能多样化”四个问题，并且形象地比喻为城市的“自闭症”和“弱视”。

那么如何破解城市的种种“眼疾”呢？如果也用仿生学来比喻，那就是今天城市有了云计算和AI作为大脑，也有了摄像头作为眼睛，但是二者之间缺少一样东西：视网膜。

未来城市，需要一场“数字视网膜”安装手术

哺乳动物的视网膜，可称得上一件造物主的奇瑰之作。

视网膜的一个特性，是它隐藏在大脑和双眼之间，沉默着充当人类智慧与世间万物的翻译。我们的视网膜，其实并没有传递给大脑真实的画面和色彩，而是对这些“数据”进行了优化，让我们的大脑直接处理可感可理解的视觉信息。

在高文院士看来，今天城市大脑与万千摄像头之间，需要加装的就是这样一层“数字视网膜”。

当然，数字视网膜并非真的要做一种仿生视网膜的硬件，而是希望能够改变目前摄像头只能看或者单一链路识别的功能。让摄像头本身拥有一定的AI处理能力，能够对识别到的车、人、场景进行主动特征提取。

从而让摄像头上传到云端的视频数据，一路通过高效编码作为数据存储；另一路经过特征提取直接作为智能大脑的“可读物”。

这样既把识别和推理等智能计算保留在了云端，又让端侧完成了初步的智能化解析，平衡了两侧的成本与效率关系。而云大脑与摄像头的智慧结合，就是给城市安装了一层新的“数字视网膜”。

这个技术设想，是希望从计算和视频编码的可行性上，将城市的“大脑”和无数“眼睛”结合为一体。而设想想要变成现实，需要建立在端侧设备具有优化的视频编码能力，以及AI领域高强度的视频特征抽取能力。从而创造一个功能集成，能集编码和特征编码为一体的视频和图象感知系统。

换言之，软件层的创新将带给城市硬件系统更好的成本比值以及更优化的效率。与目前大多数产业方案相比，这套系统的特点在于平衡了理想目标和现实中的可执行性：摄像头完成特征抽取，云端只负责识别和推理。云计算和终端各负担一部分计算任务，合理分配算力。用更优化的视频解码技术，以及AI带来的视频特征抽取能力，让整套体系能够在有限算力与带宽条件下执行。

即便如此，给城市做一场“安装数字视网膜”的手术也并不容易。

挑战、路径与产业机遇：数字视网膜的未来棋路

想要在新兴的城市大脑技术，与中国技术庞大、种类繁杂的城市摄像头体系之间做出“智慧融合”。虽然具有强烈的必要性，以及技术可行性，但现实中还是要应对众多挑战。

比如说，数字视网膜的创新逻辑在于，用领先的视频编码标准与编码技术，换取硬件门槛的降低。而这就要求在视频编码技术和机器视觉技术上达成一系列新的突破，让数字视网膜真正“以内功赢人”。

更重要的挑战在于，数字视网膜体系，需要端侧摄像头具备相对通用化的视频处理能力，尤其是AI相关的视频特征提取能力。根据行业目前的普遍理解，这需要建立在专用芯片给摄像头提供更有针对性的AI算力基础上。这就需要一个从基础硬件到算法层，再到产业层的整体配合。

其次，必须正视的一点，是数字视网膜体系不可能朝夕功成。全国庞大的城市摄像头技术，必须逐步替换。这需要优先在现实场景中建立更多边缘技术节点，通过边缘计算来满足端侧AI算力的需求，逐渐向完全的数字视网膜体系过度。并且，如何针对已经存储的视频数据进行重新的特征抽取与识别也是个问题，这可能需要具备更优能力的视频编码软件来执行。

总而言之，我们可以看到“数字视网膜”这场城市大脑的新升级，将牵动硬件、软件与产业层的多条线索。而走到现实当中，这为今天的智慧城市、城市大脑等项目提出的第一个挑战，就是城市大脑类项目整合者、AI算法公司、智能摄像头厂商，包括芯片厂商和云计算厂商的通力合作，构筑基于数字视网膜目标的新兴产业链。

在这个命题中，今天可以看到，计算基础设施与解决方案供应商、安防硬件厂商、城市大脑项目执行者，比如阿里、腾讯、京东等互联网巨头，包括机器视觉相关的AI算法公司，都将获得新的产业机遇。

同时，如果我们将数字视网膜规划的未来城市，看作是智能城市产业的下一步，那么这个未来变化同样将为创业者打开机遇。因为其必然需要建立新的机器视觉任务开发生态，并且产业链粘合过程中，需要大量的新的企业级服务公司。

由此可见，医治城市大脑的眼疾，也是一场城市智能产业升级的开始。据了解，目前数字视网膜体系已经在多个地区与产业端口中开始了应用。从学术创新到产业突破，“智能+”时代正在构筑越来越多这样的产业升级轨迹。

让城市之眼看到未来的同时，身处城市中的我们，也应该看到未来的脚印。

城市大脑的眼疾与升级：解析高文院士提出的“数字视网膜”体系

2019-05-08