首个智源联合实验室落地旷视发布全球最大物体检测数据集

2019-04-17

4月16日，北京智源人工智能研究院联合中国人工智能领军企业旷视召开“智源学者计划启动暨联合实验室发布会”。北京市科委副主任张光连出席会议并致辞。海淀区委常委、副区长李俊杰出席会议，并与旷视首席科学家、旷视研究院院长孙剑博士共同为首个智源联合实验室——“北京智源 - 旷视智能模型设计与图像感知联合实验室”揭牌。国家科技部、北京市科委、海淀区人民政府、北京科技创新投资管理有限公司等有关部门领导及投资机构，和智源研究院相关发起单位领导及代表出席会议。

北京智源人工智能研究院是在科技部和北京市委市政府的指导和支持下，由北京市科委和海淀区人民政府推动成立，依托北京大学、清华大学、中国科学院、旷视等北京人工智能领域优势单位共建的新型研发机构。北京智源人工智能研究院副院长刘江介绍，自2018年11月成立以来，研究院始终积极探索新型科研管理等机制体制创新，贯彻国家新一代人工智能发展规划总体部署。会上，刘院长正式宣布实施“智源学者计划”，支持科学家勇闯人工智能科技前沿“无人区”，同时与北京优势高校院所和骨干企业共建联合实验室，开展跨学科、大协同的创新攻关，引领未来人工智能基础研究方向。

智源与旷视共建联合实验室

建设一体化开放创新平台

2017年7月，国务院发布《新一代人工智能发展规划》，人工智能上升为国家战略。建立开源开放的人工智能开放创新平台，服务企业应用技术开发成为当前该领域的难点。国家希望龙头企业通过打造人工智能开源开放创新平台，调动产学研及社会各类创新创业主体参与共同打造我国自主知识产权的产业生态，提升国际影响力，促进行业整体发展。而北京作为第一个国家新一代人工智能创新发展试验区，也希望能够充分调动北京技术、人才方面优势，通过组织机制创新，依托龙头企业牵引进行多主体协同创新，打造我国乃至全球技术高地。

面向人工智能未来发展，围绕重大应用需求，北京智源人工智能研究院希望联手各大高校、科研院所、优势企业等机构成立联合实验室，建立全方位科研合作的平台，其目标是高效整合大学、科研院所、企业的数据、平台、场景等优势资源，形成具有国际领先水平的人工智能研究团队，培育国际顶尖AI人才，推动人工智能产学研协同创新发展，产出系列国际领先水平的突破性成果，并将重点组织数据共享，支持算法开源，推动场景开放，实施协同创新。

北京智源人工智能研究副院长唐杰介绍，智源联合实验室分为两类，分别是与高校院所共建、与优势企业共建。基于“成熟一个、启动一个”的原则，研究院择优支持共建。通过立项论证，“北京智源 - 旷视智能模型设计与图像感知联合实验室”（以下简称“智源-旷视联合实验室”）成为智源联合实验室首个成功落地的项目，也是北京作为国家新一代人工智能创新发展试验区进行机制创新的第一个重大成果。会上，海淀区委常委、副区长李俊杰，旷视首席科学家、旷视研究院院长孙剑代表双方共同为实验室揭牌。

Image 067.png

◆ 海淀区委常委、副区长李俊杰（右），旷视首席科学家、旷视研究院院长孙剑（左）共同为实验室揭牌

作为联合实验室主任，孙剑博士向大家解读了“智源-旷视联合实验室”的成立背景以及重点任务。“目前有大量的高校、研究院所、创新创业人员和行业客户，想参与到人工智能创新中，但苦于没有数据，算力或算法等资源，无法施展。”孙剑表示，旷视希望通过和智源联手创办实验室，打造全面、开放的数据集，建设具有共性技术的开放创新平台，从而构建自主可控产业生态，推动整个行业协同创新发展。

Image 068.png

◆ 旷视首席科学家、旷视研究院院长孙剑博士

孙剑介绍，未来三年，“智源-旷视联合实验室”将基于旷视在计算机视觉技术和应用的深厚积累，建设一体化的数据共享、模型设计与场景测试的开放创新平台，突破大数据背景下模型架构设计、优化和部署等技术，探索突破视觉系统性能极限和模型设计及场景测试的自动化，推进大数据背景下模型架构设计、优化和部署等方面的研究。具体包括以下三个方面：

1. 数据方面，“智源-旷视联合实验室”将立足旷视算法落地场景丰富、数据积累深厚的优势，以开源数据集、预抽取特征等形式，持续开放通用物体分类、物体检测追踪、人像人形识别属性等视觉问题数据，助力相关领域研究。针对高搜索效率、高准确率、高灵活性等关键指标，该实验室还将开展支持大计算量模型的新神经网络架构搜索算法（NAS）研究，构建一站式深度模型自动化设计平台等工作。

2. 模型设计优化方面，平台将提供自动化模型搜索、错误分析与可视化工具，加速大模型架构探索和优化，降低面向应用的模型设计门槛，以解决传统模型架构人工设计方法的经验性强，迭代周期长的问题。同时，实验室还将积极探索低位宽神经网络相关技术，研究实现对于大计算量模型的云上和终端两级的硬件支持，完成从模型搜索到实际应用的垂直整合。

3. 场景验证方面，实验室将通过建设人脸抓拍识别、结构化检测、大规模人像比对等验证场景和提供自动分析报告服务，为研究算法调优提供环境，并积极探索低位宽等网络压缩技术，研发高效硬件部署方案，推动模型研究成果迅速投入实用。针对计算机视觉算法与真实场景适配的问题，实验室还将建设可重现的实景测试环境，并提供自动化的量化错误分析报告，帮助算法迭代。

孙剑表示，一站式深度模型自动化设计平台建成后，将面向高校院所、创业企业等创新创业主体开放，致力推动图像感知与计算领域的协同创新。“通过以上措施，智源-旷视联合实验室将被打造成为一个开放、贴近实际场景的计算机视觉算法研究实验平台，形成涵盖数据、平台、场景的完整闭环，有利于打造我国自主可控的技术和产业生态，助力我国图像感知和计算领域的技术及应用达到国际先进水平。”

旷视发布全球最大的物体检测数据集

首批开放63万张图像和1000万标注框

会上，孙剑博士还公布了由旷视研究院推出的全球最大的物体检测数据集——Objects365。

“Objects365是新一代通用物体检测数据集，具有规模大、质量高、泛化能力强的特点。”孙剑介绍。首先，在规模方面，Objects365定义了生活中常见的365个类别，第一批将开放63万张图像，拥有高达1000万的标注框（每张图像的平均标注框为 15.8个），而这个数量级分别是目前全球最权威的物体检测数据集——MS COCO的5倍和11倍。

Image 069.png

◆ Objects365与大型经典数据集的基本对比

◆ 数据集官网：http://www.objects365.org/

在研究过程中，由于算法优化的上限严重依赖于基准数据集的质量，旷视研究院在打造Objects365时设计了一套标注流程，通过标注员严格的资质审核，以及对目标物体严谨、科学的分类保证每一张图片的标注质量。此外，作为一个优秀的预训练数据集，Objects365预训练模型在使用过程中，可以轻松超越现有算法的精度，显著加速收敛过程，表现出极强的泛化能力。在执行COCO、VOO Det、CityPersons等检测任务时，在VOC Seg和ADE等分割任务上均有显著提升。

旷视联合智源发起DIW 2019挑战赛

探讨检测问题的瓶颈及优化方向

作为“智源-旷视联合实验室”工作的一部分，孙剑博士也借此机会面向全球的研究者们发起Detection In the Wild 2019（DIW 2019）挑战赛。孙剑介绍，DIW 2019是由旷视研究院联合北京智源人工智能研究院举办的挑战赛，并已成功申请为2019 CVPR Workshop。其目的是为了推动目标检测技术的发展，改善现有目标检测数据集的类别覆盖不全、标注精度不高、密集场景缺少等问题。

◆ 旷视DetectionIn the Wild 2019（DIW 2019）挑战赛

◆ 点击阅读原文或复制链接进入挑战赛官网：

https://www.objects365.org/workshop2019.html

挑战赛赛程共分为四个阶段：即日起进入第一阶段，开放注册并同步发布训练集和验证集；第二阶段（5月初）发布测试集数据；第三阶段（6月初）终止提交结果；最后阶段将于CVPR 2019 Workshop期间公布比赛结果，并邀请优胜队在研讨会中介绍比赛经验，共同探讨检测问题的瓶颈及优化方向。

DIW 2019挑战赛共分为三个赛道，即Objects365赛道、Objects365小赛道和CrowdHuman赛道。旷视研究院与智源研究院为每个赛道的冠军队伍准备了10000美元的奖励。

其中，参加Objects365赛道的选手将利用公开的365种类别，60万张图片超过1000万个框的完整训练集对检测模型进行训练；在3万张图片构成的验证集上调试算法，并在10万张图片构成的测试集上进行最终的挑战。

而为了加快算法迭代速度，研究长尾类别检测问题，主办方还设立了Objects365小赛道，即从Objects365数据集中挑选出65个类别，选手可以用1万张图片进行模型的训练。

CrowdHuman赛道则是为了解决现实生活中的在密集、遮挡条件下的人群检测问题，其算法的提升将会推动人体检测算法落地。届时，选手将基于专门为了密集场景人体检测设计的CrowdHuman数据集进行训练，数据集包含有丰富标注信息和多种场景。

智源学者计划发布

旷视张祥雨入选首批青年科学家

北京智源人工智能研究院院长黄铁军介绍，“智源学者计划”是智源研究院打造高层次基础研究人才队伍的引领性工程，旨在面向当前和未来人工智能创新发展，选拔并培养一批德才兼备、具有国际影响力的学科领军人才和具有发展潜力的青年学术英才，构建富有创新能力、梯队合理的人工智能基础研究创新团队，建立面向未来人工智能发展的高端人才储备，引领未来人工智能基础研究方向，推动北京人工智能产业创新发展。

依托北京大学、清华大学、中科院等优势高校院所，以及旷视等骨干企业研究院，“智源学者计划”主要对四类人才进行重点支持，分别是：智源科学家首席（CS）、智源研究项目经理（PM）、智源研究员（PI）和智源青年科学家。目前，经过提名、初评、审议等流程，已经遴选出首批智源学者共21人，并即将启动公示程序。其中，年仅28岁的旷视研究院研发总监张祥雨博士成功入选“智源青年科学家”，是9名青年科学家候选人中年龄最小的一位，也是多个高影响力卷积神经网络模型的主要研发者之一，曾获得2016年国际计算机视觉与模式识别会议（CVPR）最佳论文奖、国际顶级计算机视觉竞赛多项冠军。

众所周知，作为现代视觉识别系统核心的 CNN 模型在不断加深、精度不断涨点的同时，却面临着由于计算复杂度不断增加，导致在手机等产品落地上速度慢的尴尬困局。如何又好又快地实现精度速度双双提升，成为深度模型落地的一个关键点。发布会现场，张祥雨博士基于长期以往对高效模型设计的深入研究，从轻量级架构、模型裁剪、模型搜索三个维度，向专家们分享了旷视研究院在高效轻量级深度模型上的一些研究思路和实践成果，以及最新研发的 Brain++ AutoML （自动化机器学习）技术，该技术致力于推动机器学习模型从“手工”时代步入“自动化”时代。

黄铁军表示，首批智源学者将致力于打破基于计算机实验和神经科学的人工智能的惯用建模范式，以可解释性的新型人工智能模型、新型的机器学习算法、深度学习的基础研究为研究内容，解决人工智能面临的可计算性、可解释性、泛化性、稳定性等基础理论问题，建立以数学与统计理论为第一原理的新一代人工智能方法论。“智源学者计划”今年将计划遴选智源学者100人，其中青年科学家30-50人。2020年和2021年再分别增加100人，智源学者总体规模保持在300人左右。

会议最后，北京市科委副主任张光连总结表示，首个联合实验室的落地，标志着北京智源人工智能研究院的科研工作迈出了坚实的一步，今后必将对推动北京人工智能产业创新发展发挥重要作用。“人工智能很热，在发展人工智能产业中，北京市有很多优势。我们推动创新、搭建平台、人才荟聚，但不能仅仅停留在创新阶段，还要积极谋发展，集结社会的力量先行先试，让重点企业、重点技术、重点新成果从实验室走出来，促进人工智能和实体经济深度融合。”作为首个智源联合实验室发起者和中国最具代表性的人工智能企业之一，旷视也将积极探索人工智能基础研究和创新应用研发，与智源研究院一同，力争打造具有重要国际影响力的原创重大战略平台，为我国人工智能产业的发展做出更大贡献。

ECCV 2018 | 10篇论文+5项世界第一，记旷视科技ECCV之旅