CVPR 2021，旷视研究院斩获 7 项竞赛冠军-MEGVII旷视科技

CVPR 2021，旷视研究院斩获 7 项竞赛冠军

2021-06-29

在近期举行的全球计算机视觉三大顶级会议之一 CVPR 2021 （Conference on Computer Vision and Pattern Recognition 2021，即“计算机视觉与模式识别会议”）上，旷视研究院表现出色，在多个细分赛道斩获7项冠军！

恭喜旷厂小伙伴再创佳绩的同时，为了帮助大家更好地了解旷视在CVPR 2021挑战赛中的精彩表现，我们对参赛论文进行了梳理，希望通过十分钟的阅读，能让你对这些斩获荣誉的研究成果可以一目了然。这些成果覆盖了高动态范围图像、图像超分辨率、图像去模糊、自动驾驶等方向，也欢迎大家参与交流和分享。

NTIRE 2021挑战赛

作为图像视频修复和增强领域极具影响力的国际竞赛， NTIRE（New Trends in Image Restoration and Enhancement, 即图像恢复与增强的新趋势）涵盖了从图像到视频几乎所有方向，一直备受工业界关注。在NTIRE 2021挑战赛上，旷视研究院包揽了高动态范围图像、图像超分辨率、图像去模糊三大赛道的冠军。

高动态范围图像赛道冠军

目前动态场景下的多帧HDR成像任务主要包含两个难点：

1.如何解决相机抖动和前景目标运动带来的对齐问题；

2.如何在融合过程中有效恢复过曝/欠曝区域丢失的细节。

针对上述问题，旷视提出了一种新颖的双分支网络结构ADNet，分别对原始LDR输入和对应gamma矫正之后的图像进行处理。对于原始的LDR图像，旷视提出使用空间注意力模块来检测过曝/欠曝和噪声区域。对于对应的gamma矫正图像，旷视首次在该任务中提出使用可变形对齐模块来对齐动态多帧。

基于上述改进，和目前较好的AHDRNet方法相比，旷视的方法可以更好地解决鬼影问题，获得噪声更少、图像细节更清晰的HDR结果。

关键词：双分支网络结构ADNet；去鬼影；少噪声

论文地址：https://reurl.cc/vqa1XL

代码地址：https://github.com/Pea-Shooter/ADNet

图像超分辨率赛道冠军

针对RAW域下的多帧模式图像超分辨率问题，解决方案为使用特征金字塔增强多尺度特征，同时消除一定的噪声影响。此方式下的多帧特征更加稳定，再利用多尺度的可变性卷积模块（Deformable Convolution）对所有特征进行对齐。

旷视设计了一种跨帧的非局部融合网络（Cross Non-Local Fusion），使得每一帧图像在融合时都将自身与参考帧的非局部空间关系信息考虑在内，由此提高多帧融合效果。

图像融合后的重建部分，旷视使用了考虑长范围信息的超分重建网络结构，该结构中每一个Block的输入都是之前所有Block的输出，可以避免在重建的过程中信息丢失的问题，提高超分的纹理效果。正体框架结构如下：

相比于EDSR、EDVR等图像或视频超分模型，EBSR在RAW域多帧超分任务上性能更好，也更加稳定。EBSR在合成数据和真实数据的多帧超分任务上都达到了SOTA效果。

关键词：跨帧的非局部融合网络；可变性卷积模块

论文地址：https://reurl.cc/9rvXna

代码地址：https://github.com/Algolzw/EBSR

图像去模糊赛道冠军

归一化（Normalization）技术在高层计算机视觉任务中（如图像分类，目标检测等）有广泛且成功的应用，但是在底层视觉任务中，简单的使用它会造成性能损失。

受到实例归一化（Instance Normalization）在风格迁移任务中成功应用的启发，旷视设计了 半实例归一化模块，即将特征从通道维度一分为二，其中的一半进行实例归一化，另一半保持不变。

基于此，旷视提出了半实例归一化网络HINet，在更少计算量的前提下，在多个图像恢复任务上达到领先性能。特别的， 旷视的方法在SIDD数据集上，仅用7.5%的计算量就超越了当前领先模型 0.11 dB PSNR。

和目前较好的方法MPRNet相比，旷视在多种图像恢复任务上均有优势：

关键词：图像恢复；半实例归一化

论文地址：https://arxiv.org/abs/2105.06086

代码地址：https://github.com/megvii-model/HINet

WAD 2021挑战赛

近年来，随着自动驾驶热度的不断攀升， WAD（Workshop on Autonomous Driving）挑战赛的竞争也愈加激烈，在Argoverse 2021 Competition挑战赛上，旷视同样表现不俗。

Streaming Perception Challenge赛道冠军

在Streaming Perception Challenge赛道，本次挑战的主要关注点之一是自动驾驶场景下的实时视频流目标检测问题。由一个服务器收发图片和检测结果来模拟视频流30FPS的视频，客户端接收到图片后进行实时推断，这对参赛团队的算法创新和工程实现能力都提出非常高的要求。

基于在目标检测领域积累的技术优势，大赛中，旷视提出了针对高分辨率自动驾驶场景的2D目标检测方案。

结合旷视自研的 单阶段目标检测算法（YOLO-X，即将开源），同时使用TensorRT进行推理加速，旷视的2D目标检测方案具备性能优异、实时性高等优势，可大大提升自动驾驶场景中2D物体的检测性能，最终在Streaming Perception Challenge赛道取得的了 full-track和detection-only track双赛道第一的优异成绩。

关键词：自动驾驶；2D目标检测方案

比赛网站：https://eval.ai/web/challenges/challenge-page/800/overview

IMC 挑战赛

图像特征匹配涉及图像检索，重定位等诸多富有前景的下游任务。然而，来自视角、尺度、光照等方面的复杂变换以及遮挡、相机渲染等因素的存在，使得该领域相当具有挑战性。

本届IMC2021挑战赛基于真实拍摄场景，重点考核了参赛模型的位姿估计准确性。整体竞赛框架由预处理、关键点提取、描述子提取、关键点匹配和匹配对过滤五个部分组成。

在Unlimited keypoints赛道上，旷视研究院拔得头筹。

Unlimited keypoints赛道冠军

基于技术积累和深入数据分析，旷视研究院采用 漫水填充和语义遮罩技术对图像进行预处理，有效降低了关键点噪音。此外，在关键点提取阶段利用Homographic Adaptation和Refinement策略提升基线模型预测的关键点数量及质量。

在描述子提取阶段，考虑到巨大的几何变换如旋转和尺度缩放，旷视采用了测试时增强技术以增强模型鲁棒性。最后，旷视设计了SuperPoint、DISK与SuperGlue的联合架构与适应性RANSAC进行匹配和位姿估计。凭借适应性策略和高效集成技术，最终旷视获得IMC2021挑战赛Unlimited keypoints赛道冠军。

关键词：多尺度融合；多角度融合；模型集成；自适应RANSAC
比赛网站：https://www.cs.ubc.ca/research/image-matching-challenge/current/

SimLocMatch挑战赛

有别于现实场景，SimLocMatch是一个基于合成的数据集和基准，包含具有不同挑战性的场景。此次CVPR 2021 SimLocMatch大赛采用合成数据以允许更为严格的评估准则。旷视研究院将SimLocMatch挑战赛冠军成功收入囊中。

SimLocMatch 冠军

基于包含 Homographic Adaptation、Refinement、SuperPoint+DISK+SuperGlue 在内已有的精巧架构，旷视研究院额外设置了 最小匹配量置信策略，以辅助模型分辨极端场景以舍弃模糊匹配，成功提升了模型对抗极端样本的能力。

关键词：模型集成；最小匹配置信度策略

比赛网站：https://simlocmatch.com/

研究创新不止，技术更迭不怠！

再次给旷视研究院获奖同学点赞

同时也期待更多优秀的小伙伴加入我们

用人工智能造福大众！