案例简介
对项目标的主体公司的风险评估是金融机构开展业务的起点,而标的公司财务数据的分析是量化评估业务风险的基 础。基于标的公司审计报告的科目与数据识别,替代人工,通过机器识别是保证业务系统高效、准确解决财务数据 录入效率和质量问题,为金融业务开展提供技术支持。
三行科技实时在线采集上清所、上交所、货币网等网站公开披露的扫描版审计报表后,借助飞桨深度学习开源平台进行文字识别,通过财报系统自动解析,完成信息自动化录入,满足业务需求的性能指标。通过与天津大学国家应用数学中心吴偶教授团队合作,在大量文档数据进行模型训练与优化,实现财务报表科目和金额的高效识别,成功完成了财务数据的结构化存储,为后续多项业务过程提供数据基础。
相关产品
PaddleOCR
场景分析
大背景
财务数据是金融机构开展业务的基础,在投资、投行、风控等领域,高效的获取高质量的数据能够获得业务优势。而公开披露的财务报表数据尚需依赖人工录入,无法实现高效和高质量。
金融业务是经营风险的活动,投资和投行等金融业务对风险的管理逐步向量化分析和管理转变,数据是实现风险量化管理的基础。
业务需求
战略需求
数据:可持续积累数据资产,建立基于金融大数据的核心价值。
技术方案
技术问题抽象
落地方案
效果调优
财务表格线条密集标注成本高,为缓解标注数据过少带来的问题,采 用两级训练策略,前期利用生成的表格进行预训练,后期采用真实数 据进行 Finetune, 取得了不错的应用效果
财务报表金额文本居多,结合表格解析的先验知识,在预测金额时, 在 CTC 解码之前过滤无效字符。
上线效果
三行科技借助 PaddleOCR 开发的文字识别算法,在文字检测召回率上较之前算法提升 5%,检测速度提升 30%。
案例企业简介
北京三行科技有限公司(简称三行科技),长期服务于军队单位、政府部门、金融行业和国有大型企业,是国家高 新技术企业,注册资金 5000 万元,和中科院、天津大学等高校,微软、IBM、Oracle、惠普、思科、华为、华三、 阿里云等原厂商一直保持良好的合作关系。具有多家行业成功案例,例如中国人寿、国都证券、国融证券、申万宏 源证券、太平洋证券、英大基金、泰达宏利基金、邦银金租、银联商务、东旭集团、中航工业、华北空管局、清华控股等。 三行科技本着“以信誉求生存,以科技求发展”的宗旨,坚持“用户至上,质量第一,服务优质,科技引领,开拓创新” 的原则,持续关注业内最新产品和技术发展,致力于为客户提供一流的信息化应用解决方案和服务。