【视频时空表征】Video Representation Learning by Dense Predictive Coding
#开源论文# #ICCV 2019# 本文是牛津大学发表于ICCV 2019 workshop的工作。近期来自VGG的高质量工作,因为没有在主会议发表所以没有引起大范围关注,但保持了一贯低调又实用的风格。本文提出了一种新型的自监督学习(self-supervised learning)方法Dense Predictive Coding,学习视频的时空表征(spatio-temporal representation),在动作识别任务(UCF101和HMDB51数据集)上获得了state-of-the-art的正确率,并且用无需标注的自监督学习方法在视频动作识别上达到了ImageNet预训练的正确率。 自监督学习是利用无标注的数据设计代理任务(proxy task),使网络从中学到有意义的数据表征。本文设计的代理任务是预测未来几秒的视频的特征,并且用对比损失(contrastive loss)使得预测的特征和实际的特征相似度高,却不必要完全相等。因为在像素级别(pixel-level)预测未来的帧容易受到大量随机干扰如光照强度、相机移动的影响,而在特征级别(feature-level)做回归(regression)则忽视了未来高层特征的不可预测性(如视频的未来发展存在多种可能)。文中的设计促使网络学习高层语义特征,避免了网络拘泥于学习低层特征。作者在不带标注的Kinetics400上训练了自监督任务(Dense Predictive Coding),然后在UCF101和HMDB51上测试了网络所学权重在动作识别上的正确率。Dense Predictive Coding在UCF101数据集上获得了75.7%的top1正确率,超过了使用带标注的ImageNet预训练权重所获得的73.0%正确率。该研究结果证明了大规模自监督学习在视频分类上的有效性。
论文链接:http://t.cn/AinpI0va
源码链接:http://t.cn/AiENT33j
