近几年,人工智能计算机视觉技术在安防、工业制造等场景的产业智能化升级进程中发挥着举足轻重的作用。“人员进出管理”作为各行业中的关键场景,应用需求十分迫切。如居家防盗、机房管理以及景区危险告警等场景,需要对异常目标(人、车或其他物体)不经允许擅自进入规定区域进行及时检测。利用深度学习视觉技术,可以及时准确地对闯入行为进行识别并发出告警信息,切实保障人员的生命财产安全。相比传统人力监管的方式,不仅可以实现7X24小时不间断的全方位保护,还能极大地降低管理成本,解放劳动力。
场景复杂:在实际场景中,摄像头采集到的图像会受到诸如光照、天气、植物、建筑等因素的干扰,即使同一场景在不同时间的图像形态差异也非常大,需要模型有极好的特征学习能力与泛化性才能”应对自如”。
性能要求极致:为了保障目标区域的安全,当目标区域内出现异常侵入时须及时预警。然而出于对硬件成本及便携性的考虑,实际部署环境多为移动端或嵌入式设备,模型在追求高精度的同时,也必须具有极小的体积与极快的预测速度。
方案设计
方案优化
PP-LCNet作为针对CPU量身打造的骨干网络模型,在速度、精度方面均远超如MobileNetV3等同体量算法,在有人/无人场景中,速度较SwinTransformer的模型快50倍以上,较MobileNetV3 large 1.0快50%。
SSLD半监督蒸馏算法可以使小模型学习到大模型的特征和ImageNet22k无标签大规模数据的知识。在训练小模型时,使用SSLD预训练权重作为模型的初始化参数,可以使有人/无人分类模型有2.5个点的精度提升。
该方案融合了图像变换、图像裁剪和图像混叠3种数据增强方法中,并支持自定义调整触发概率,能使模型的泛化能力大大增强,提升模型在实际场景中的性能。模型可以在上一步的基础上,精度再提升1个多点。
SKL(symmetric-KL)在经典的KL知识蒸馏算法的基础上引入对称信息,提升了算法的鲁棒性。同时,该方案可以方便地在训练中加入无标签训练数据(Unlabeled General Image),可以进一步提升了模型效果。该算法可以使模型精度继续提升两个多点。
模型训练
环境配置与数据准备
教师模型训练
模型训练
模型部署
由于PaddleClas已经提供了完备易用的部署支持,在实际过程中只需要2步就能完成本地部署:
第一步:将刚刚训练好的模型导出成静态图模型
第二步:运行以下命令,就可以对单张图像进行快速预测
图3 实际运行效果示意图
范例使用工具介绍
飞桨产业实践范例
助力企业跨越AI落地鸿沟
精彩课程预告
为了让小伙伴们更便捷地应用重点区域人员闯入范例教程,百度高级研发工程师于5月26日20:00为大家深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实践。
欢迎扫码报名
获得直播/回放链接
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~