【视频时空表征】Video Representation Learning by Dense Predictive Coding#开源论文# #ICCV 2019# 本文是牛津大学发表于ICCV 2019 workshop的工作。近期来自VGG的高质量工作，因为没有在主会议发表所以没有引起大范围关注，但保持了一贯低调又实用的风格。本文提出了一种新型的自监督学习（self-su

【视频时空表征】Video Representation Learning by Dense Predictive Coding
#开源论文# #ICCV 2019# 本文是牛津大学发表于ICCV 2019 workshop的工作。近期来自VGG的高质量工作，因为没有在主会议发表所以没有引起大范围关注，但保持了一贯低调又实用的风格。本文提出了一种新型的自监督学习（self-supervised learning）方法Dense Predictive Coding，学习视频的时空表征（spatio-temporal representation），在动作识别任务（UCF101和HMDB51数据集）上获得了state-of-the-art的正确率，并且用无需标注的自监督学习方法在视频动作识别上达到了ImageNet预训练的正确率。自监督学习是利用无标注的数据设计代理任务（proxy task），使网络从中学到有意义的数据表征。本文设计的代理任务是预测未来几秒的视频的特征，并且用对比损失（contrastive loss）使得预测的特征和实际的特征相似度高，却不必要完全相等。因为在像素级别（pixel-level）预测未来的帧容易受到大量随机干扰如光照强度、相机移动的影响，而在特征级别（feature-level）做回归（regression）则忽视了未来高层特征的不可预测性（如视频的未来发展存在多种可能）。文中的设计促使网络学习高层语义特征，避免了网络拘泥于学习低层特征。作者在不带标注的Kinetics400上训练了自监督任务（Dense Predictive Coding），然后在UCF101和HMDB51上测试了网络所学权重在动作识别上的正确率。Dense Predictive Coding在UCF101数据集上获得了75.7%的top1正确率，超过了使用带标注的ImageNet预训练权重所获得的73.0%正确率。该研究结果证明了大规模自监督学习在视频分类上的有效性。
论文链接：http://t.cn/AinpI0va
源码链接：http://t.cn/AiENT33j