PaddleOCR 2.8版本发布！

发布日期：2024-08-29 06:10浏览量：5600次

PaddleOCR是基于飞桨深度学习开源框架的文字识别开发套件，旨在打造一套丰富领先实用的OCR工具库，打通数据准备、模型训练、压缩和推理部署全流程。在开源社区的热烈期盼与共同努力下，PaddleOCR迎来了里程碑式的版本更新——v2.8.0！本次更新不仅引入了前沿的OCR技术成果，还对项目结构进行了深度优化，解决了若干历史疑难问题，旨在为广大开发者提供更加高效、便捷的OCR解决方案。

让我们一同探索一下PaddleOCR v2.8.0带来的全新体验与无限可能吧！

顶尖模型引入，引领OCR技术潮流

PaddleOCR v2.8.0隆重引入了PaddleOCR算法模型挑战赛的冠军方案，为OCR领域树立了新的标杆。

其中，赛题一“OCR端到端识别任务”的冠军方案——场景文本识别算法SVTRv2，以其卓越的识别性能与泛化能力，为用户带来了前所未有的识别体验，如下图所示。

SVTRv2技术方案示意图

赛题二“通用表格识别任务”的冠军方案——表格识别算法SLANet-LCNetV2，则以其精准高效的表格识别能力，为数据处理与分析提供了强有力的支持，如下图所示。

SLANet-LCNetV2技术方案示意图

项目结构优化，聚焦OCR核心

为了进一步提升PaddleOCR项目的专业性与易用性，我们决定将非核心模块PPOCRLabel和StyleText迁移至新的仓库，使PaddleOCR项目更加专注于OCR与版面识别的核心技术。这不仅简化了项目结构，也为开发者提供了更加清晰的项目导航与资源访问路径。

详见：https://github.com/PaddlePaddle/PaddleOCR/discussions/13020

历史疑难问题解决，提升用户体验

为提升广大开发者的使用体验，在新版本中，我们重点解决了更新Backbone后无法运行模型、numpy版本依赖冲突、Mac系统中运行卡顿等一系列历史疑难问题。部分疑难问题还在解决过程中，欢迎广大开发者一起参与！

详见：https://github.com/PaddlePaddle/PaddleOCR/discussions/13057

其它优化改进，持续精进

除了上述重大更新外，PaddleOCR v2.8.0还包含了一系列细微但重要的优化改进。包括但不限于：

1. 解决版面分析中，OCR结果偶尔丢失的问题。

2. 添加 pyproject.toml，使PaddleOCR符合 PEP 518规范。

3. 对于大图推理，引入滑动窗口操作。

这些改进旨在进一步提升软件的稳定性、兼容性和性能表现，确保PaddleOCR能够应用在更广泛的场景。

开源共建，共创辉煌

需要特别强调的是，PaddleOCR v2.8.0的每一个进步与成就都离不开开源社区的支持与贡献。在PMC（Project Management Committee）的统一管理下，众多社区开发者携手并进，共同努力，才使得PaddleOCR能够不断前行、日益完善。这里要特别感谢PaddleOCR PMC成员：GreatV (PMC Chair)、tink2123 (PMC Chair)、Topdu 、SWHL、Liyulingyue、Sunting78、jzhang533，也感谢虽然暂未加入PMC但是作出了大量贡献的热心开发者。