使用RNN对视频特征做时序建模,如AttentionLSTM模型。这类模型的输入是视频特征,而不是原始视频,因此往往用作后处理模块。
使用3D网络提取时序信息。如SlowFast模型,创新性的使用Slow和Fast两个网络分支分别捕获视频中的表观信息和运动信息。这一方法在很大程度上是受到灵长类视觉系统中视网膜神经节细胞的生物学研究所启发。研究发现,在灵长类的视觉系统中,约80%是P细胞,15-20%是M细胞。M细胞以较高的频率工作,对时间变化更加敏感;P细胞则提供良好的空间细节和颜色感知。相应的,SlowFast模型的Slow分支类似于P细胞,感知空间信息;Fast分支类似于M细胞,对时间变化敏感。该模型在视频分类任务上取得了SOTA的效果,同时也是AVA 视频检测挑战赛的冠军模型。3D网络尽管在精度方面很有优势,但由于3D卷积计算量大,训练和推理耗时较长,难以用于产业实践。
使用2D网络提取时序信息,如经典的TSN模型。TSN模型采用“段共识”的操作融合多帧图像的特征信息,能将绝大部分原本用于图像分类的网络模型进行扩展,通过简单地修改输入形式,就能直接用于下游的视频分类任务上。给后续许多模型提供了一种通用的思路。
数据增强Video Mix-up
更优的网络结构
更稳定的训练策略
Cosine decay LR:在使用梯度下降算法优化目标函数时,我们使用余弦退火策略调整学习率。假设一共有T个step,在第t个step时学习率按以下公式更新。同时使用Warm-up策略,在模型训练之初选用较小的学习率,训练一段时间之后再使用预设的学习率训练,这使得收敛过程更加快速平滑。
Label smooth
Precise BN
知识蒸馏方案:Two Stages Knowledge Distillation
飞桨PaddleVideo项目二维码
https://github.com/PaddlePaddle/PaddleVideo
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
END
使用RNN对视频特征做时序建模,如AttentionLSTM模型。这类模型的输入是视频特征,而不是原始视频,因此往往用作后处理模块。
使用3D网络提取时序信息。如SlowFast模型,创新性的使用Slow和Fast两个网络分支分别捕获视频中的表观信息和运动信息。这一方法在很大程度上是受到灵长类视觉系统中视网膜神经节细胞的生物学研究所启发。研究发现,在灵长类的视觉系统中,约80%是P细胞,15-20%是M细胞。M细胞以较高的频率工作,对时间变化更加敏感;P细胞则提供良好的空间细节和颜色感知。相应的,SlowFast模型的Slow分支类似于P细胞,感知空间信息;Fast分支类似于M细胞,对时间变化敏感。该模型在视频分类任务上取得了SOTA的效果,同时也是AVA 视频检测挑战赛的冠军模型。3D网络尽管在精度方面很有优势,但由于3D卷积计算量大,训练和推理耗时较长,难以用于产业实践。
使用2D网络提取时序信息,如经典的TSN模型。TSN模型采用“段共识”的操作融合多帧图像的特征信息,能将绝大部分原本用于图像分类的网络模型进行扩展,通过简单地修改输入形式,就能直接用于下游的视频分类任务上。给后续许多模型提供了一种通用的思路。
数据增强Video Mix-up
更优的网络结构
更稳定的训练策略
Cosine decay LR:在使用梯度下降算法优化目标函数时,我们使用余弦退火策略调整学习率。假设一共有T个step,在第t个step时学习率按以下公式更新。同时使用Warm-up策略,在模型训练之初选用较小的学习率,训练一段时间之后再使用预设的学习率训练,这使得收敛过程更加快速平滑。
Label smooth
Precise BN
知识蒸馏方案:Two Stages Knowledge Distillation
飞桨PaddleVideo项目二维码
https://github.com/PaddlePaddle/PaddleVideo
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
END