PaddleWeekly | 支持GPU加速!这款硬字幕提取神器超好用
发布日期:2021-08-06T11:23:00.000+0000 浏览量:4453次
开源发展至今,越来越多的开发者使用开源代码的同时,也开始将自己的项目和代码大方骄傲地分享出来,在开源当中找到了成就和价值。更多的开发者得益于开源的优势,从加入使用,到共同开发。如此正向循环,不断地推动开源生态发展,开源社区也不断地壮大。
文章太长、技术太硬?点击下方视频即可查看本期的非硬核版本PaddleWeekly项目推荐~
随着网络的发展,传统视频字幕的加载形式也出现了不小变化,在视频传播初期往往以外挂字幕为主,但后续为了实现更高的兼容性和传播能力,逐渐发展出了软字幕、硬字幕两种全新的形式。
其中外挂字幕的灵活性使其成为初期视频字幕的主流方式
。
在这些加载形式中外挂字幕灵活性最高,在用户播放视频时,播放器往往会在视频原目录下查找srt、vtt、ass等字幕文件,匹配完成后与视频进行关联,最终呈现出带有字幕的视频画面。
然而,外挂字幕所拥有较高的灵活性来源与字幕文件。
虽然用户可以自行修改字幕文件来做到字幕翻译、矫正等工作,但由于在视频分发过程中需要将视频文件和字幕文件一起打包发布,这也使得该字幕挂载方式在传播方面受到了一定限制。
为改善该问题,软字幕的出现让分发视频可以通过单文件的形式进行发布,其原理为在视频中的视频流、音频流两项基础流外增加一个字幕流,在该流中加入字幕信息即可达到显示视频字幕的效果。
然而在早期的视频播放设备中,由于字幕流同样需要解码器方可工作,这也使得部分不支持字幕解码器的设备没有办法显示来自软字幕的字幕信息。如果将字幕以图像的形式直接“贴”在视频上,是不是就可以共用一套解码器了吗?
当然可以,硬字幕就是将字幕转换为图像然后与视频进行逐帧融合,它可以像水印一样一直挂在所显示的画面上,无需额外的字幕流解码器即可轻松播放。但也正是因为进行了图像融合,我们在丢失原始素材文件后,若想对生成后的硬字幕个人作品进行翻译、矫正也增加了许多难度,一个视频硬字幕提取器则能很好的解决该类情况。
Video Subtitle Extractor(VSE)就是这样一款可以提取来自视频硬字幕的开源项目,其底层借助拥有强大的文本识别能力的PaddleOCR,使用者只需对硬字幕出现的区域进行框选即可批量进行识别所出现的字幕信息。也正是因为PaddleOCR,该工具在GPU模式下可获得相较CPU模式近10倍的性能提升。
除此之外,项目作者还提供了多种用于质量和速度优化的常见策略实现,在字幕提取前会预先搜索视频中关键帧情况,同时还会联合前后帧关系过滤出与字幕无关的文字信息,最后还非常贴心的加入了srt格式的字幕文件生成能力,体验极佳!
当然,目前市面上硬字幕提取工具有很多,但由于VSE是一款开源的字幕工具,这也意味着在开源协议允许的范围内我们可以和作者一起实现更加丰富的功能,共建开源生态你准备好了吗?
https://github.com/YaoFANGUK/video-subtitle-extractor
开源项目不在规模大小,大的开源项目成为行业翘楚,提供全面解决思路和方式,但小项目一样激动人心,创意傲人。
如果你想推荐自己的项目,可将项目链接和简要的描述发送给GT,即有机会参与项目推荐并获得
飞桨周边小礼品一份
,你的代码也能给别人带来效率和价值!(联系方式微信/QQ 1029550448)
http://discuss.paddlepaddle.org.cn/
欢迎加入官方QQ群获取最新活动资讯:793866180。
如果您想详细了解更多飞桨的相关内容,请参阅以下文档。
https://www.paddlepaddle.org.cn/
GitHub: https://github.com/PaddlePaddle/Paddle
Gitee: https://gitee.com/paddlepaddle/Paddle
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体,是中国首个自主研发、功能丰富、开源开放的产业级深度学习平台。飞桨企业版针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。