\u200E
金仕达—反洗钱风控系统用户信息智能识别录入
发布日期:2021-09-27T03:37:42.000+0000 浏览量:5102次

一、案例简介

反洗钱是金融行业监管体系中的重要一环,众多金融机构和公司都会选择使用反洗钱系统来量化和把控金融交易中的洗钱风险。为了保障用户交易资产依法合规,某银行资管系统需将用户的开户资料全部录入反洗钱系统中进行审核和风控。但用户大多以图片、PDF、扫描文件等不可直接复制的方式上传信息(如身份证、营业执照、开户申请书、企业征信报告),人工录入只能靠逐字键入,不仅过程繁琐、极易出错,为了确保信息的准确性某银行资管还不得不设二次核验专岗。

为了解决这一难题,提高用户信息录入效率,减少人工操作产生的错误,某银行资管引入了金仕达智能化用户信息录入系统来简化流程、降低信息录入及核验的人工成本。该系统是上海金仕达软件科技有限公司(以下简称“金仕达”)基于飞桨深度学习开源开放平台的PaddleOCRPaddleSlimPaddle Serving,专门针对用户信息录入,研发出的一套智能文档分析系统,为用户在使用反洗钱系统信息录入时,提供智能导航和自动录入功能。

二、相关飞桨产品

PaddleOCR、 PaddleSlim、Paddle Serving

三、相关硬件产品

英特尔至强E5处理器 / 英伟达RTX3070 GPU

四、场景分析 

在反洗钱系统用户信息录入环节中,用户上传附件文档是否被正确录入,是反洗钱系统用户信息核验的必要环节,决定着反洗钱系统信息的准确率,如果用户信息没有被正确录入,将为整个反洗钱系统运行的准确性带来巨大危害。

反洗钱系统用户信息录入识别业务面临了三大难点:

难点一:版面多样性强

开户资料文档中包含身份、企业执照、申请表、征信报告以及各类附件等信息,版面种类复杂多样,无法预制一个通用型的分类规则来对多样的版面进行分类处理。

多类格式文件

 

难点二:信息提取规则复杂

所需提取字段信息种类多、定制性强,需提供自定义配置入口,页面自动导航的精度要求需要高达99.9%才能辅助用户定位到对应文档。

难点三:处理时效要求高

流行的多阶段文字识别算法处理多页文档信息耗时高。

五、业务抽象

反洗钱系统的用户材料为PDF文件,可以先拆分为JPG图片,再进行页面分析,页面类型的判断主要基于页面的内容,可以采用关键字模糊匹配的方式区分页面。对任务抽象可以判定为典型的计算机视觉任务。因此,需要先使用OCR模型对文字内容进行检测和识别,再对文本和所在位置进行分析,求解该任务。

六、技术方案

百度飞桨是产业级深度学习开源平台,已有超过12万家企业在飞桨平台上训练超过36万个模型,加快了企业AI落地的速度,也是金仕达选择的原因。整套智能文档分析系统提取出数据集样本进行预处理,提高数据质量,将处理后的数据通过PaddleOCR对原始文本进行快速和精准的识别,分别从识别出的页面文字和对关键字段进行匹配,从而准确定位到对应文档,并把对应字段自动填充到反洗钱系统中。

技术方案整体架构图

 

第一阶段:数据采集、标准和增强

由于反洗钱系统用户信息录入时,上传的附件文件包含了PDF、Word等多类格式文件,为了提升数据训练,需要预先对用户文档区域进行提取及校准。

在对数据预处理过程中,部分文件版面存在小幅倾斜、部分文件页边距较大、营业执照图片横置等问题,因此结合PaddleOCR,通过DocEdgeNet文档预处理算法进行边缘检测、投影变换和图像质量增强得到精确的数据质量。

数据预处理

 

第二阶段:模型选择及调优 

PaddleOCR提供了多种OCR模型,综合考虑模型的准确率、识别速度和部署便捷性,选择了在ch_ppocr_mobile_v2.0预训练模型基础上进行微调,得到了一个最能满足场景需求的识别模型,用于页面类型分析和字段识别。

页面导航及信息抽取

文档图像预处理部分,使用了自研DocEdgeNet文档预处理算法,进行文档边缘检测,并基于检测结果进行投影变换和图像质量增强。

关键字提取阶段采用了基于AC自动机的关键字信息提取算法。

关键字提取算法

 

第三阶段:模型训练及评估

在模型的训练和评估环节,由于PaddleOCR默认的训练方式就足以满足业务方案的需求,因此没有进行过多的修改和优化,只是需要将新增的训练数据转为PaddleOCR训练所要求的格式。并且使用了PPOCRLabel工具,对StyleText生成训练数据进行半自动标注。

此外,对于文档边缘检测模型,使用了PaddleSlim工具对DocEdgeNet进行通道剪枝及量化操作,将模型转化为轻量级推理模型,在原始精度下降1%的前提下压缩比达到90%,预测速度提升4.7倍。

 

第四阶段:部署及上线 

OCR模型和文档边缘检测模型分别训练完成后,转为推理模型,用于智能文档解析服务的调用。之后,利用PaddleServing组件方便集成的特性,将智能文档解析功能快速部署为线上服务。用户通过web端访问反洗钱业务框架后台时,即可直接调用智能文档解析服务展示结果。

七、上线效果 

通过智能文档分析算法,文档页面导航上识别准确率达到99%,在信息抽取上准确率达到95%,在反洗钱系统信息录入和审核环节中节省用户80%以上的时间。对于70页的文档,只需2分钟即可完成整体过程,极大提升了某银行资管的核验效率。

八、案例企业简介

上海金仕达软件科技有限公司成立于1995年,是全国领先的金融科技服务商,主要业务涵盖交易所、银行、保险、证券、期货、公募及私募基金等金融行业细分领域。金仕达服务于国内400多家大型金融机构,具有代表性的包括8家大型国家级交易所、行业内头部证券公司(10大券商占9家)、国内前5期货公司以及9大行超过半数的黄金业务客户。