\u200E
无需标注数据、效果超强的保险领域FAQ问答系统来了!
发布日期:2022-10-10T03:14:33.000+0000 浏览量:1758次

“全面赋能千行百业”是AI的重要使命,政务、法律、金融、医疗、制造等传统行业智能化程度越来越高,在效率、成本和收益方面蕴藏着巨大的开拓空间。其中,金融业,就正在AI技术的赋能下,发生着一场“降本增效”的变革。

本文详细聊聊这个话题。我们分别从“ 场景 ”、“ 技术 ”和“ 工具 ”层面进行展开。

场景层面,提到AI+金融,可能会有人很快想到“股价预测”,但其实比起令人琢磨不透的股价波动,金融行业存在着更多收益确定性高、AI价值附增显著的业务场景。举几个例子:

  • 基于CV技术实现“印章弯曲文本检测与识别”;
  • 基于NLP技术实现的“上市公司公告风险事件提取”、“保险领域智能问答系统”;
  • 基于跨模态技术实现的“扫描版合同关键信息抽取”、“表格识别与属性分析”、“双录稽查场景智能音视频质检”;
  • 基于CV检测技术、智能推荐技术实现“银行网点来客画像分析与精准营销”等。
可以说, AI正在深入到金融行业的方方面面,酝酿一场巨大的“降本增效乃至增收”的行业变革

技术


深耕技术深度和先进性常常能在互联网行业产生可观的收益,同样的,只要方向对,先进的AI技术用在传统行业的场景里同样能起到事半功倍的效果。

金融保险领域客服业务场景为例,客服场景业务人员需求量大,且有一定的专业性要求,导致企业用工成本较高。而且,在实际场景中,用户的常见问题占比往往达到60%~70%,这部分重复性工作费时费力,适合通过技术来做智能化处理。许多金融企业都搭建了智能FAQ问答系统,然而,常见的方案有诸多不足:
  • 方案一:基于保险关键字的问答匹配。该方案效果有限,无法对语义信息进行精准建模,且优化起来较为繁琐;
  • 方案二:基于语义匹配搭建问答系统。该方案是越来越常见的做法,但往往需要以人工、半人工方式构造FAQ的“标准问”与“非标准问”,标注成本高,而且经常难以招架真实用户千变万化的表达方式,导致“人工智能”被用户吐槽成“人工智障”,可谓费力不讨好。

而百度研发了先进的端到端智能问答技术RocketQA,不仅在学术竞赛榜单MS MARCO多次刷新记录,而且实现了精准、泛化能力强的语义召回,在实际应用中大大减少了传统离散检索引入的人工构建开销。

RocketQA训练技术,可以借助cross-encoder精排模型的优势,有效地为语义召回模型挖掘困难样本,进而提升系统的语义召回能力;优化后的语义召回模型又进一步的提升了召回样本的质量,有助于后续打造效果更强的cross-encoder模型,提升模型的精排能力和最终的答案准确度。再结合人工标注的百万级问答数据集DuReader,效果非常强悍!

总之,基于端到端智能问答技术RocketQA构建出的FAQ问答系统,不仅构建效率大大提升,且无需标注数据、比传统技术方案具备显著的效果优势。

更进一步的 ,还可以使用百度今年发布的集可信分析和增强于一体的可信AI工具集TrustAI,问答效果会有进一步提升。对NLP领域数据标注的常见问题,如“训练数据中存在脏数据限制模型效果提升”,“数据标注成本太高但又不清楚该标注什么数据”,“数据分布有偏导致模型鲁棒性差”等,TrustAI发布了多项功能帮助NLP开发者解决训练数据缺陷问题,用最小的标注成本获得最大幅度的效果提升。
以上技术均已开源。对智能问答技术赋能金融行业感兴趣的同学,可以下滑到文末扫码入群,关注百度飞桨&百度智能云举办的AI+金融行业系列课程 直播回放 ,学习AI在金融行业的风控、运维、营销、客服等场景上的实战经验。

然而,如果徒有先进的AI技术,却没有配套的高效落地工具,那传统行业的落地依然困难重重,工具的重要性不言而喻。


工具



“深度学习,NLP啥的太难懂了,我们一时半会搞不定”

——来自行业人员吐槽

“需求场景太多了,人手不够,开发不过来”

——来自AI专业人员吐槽
这是AI在传统行业落地时经常在行业侧和互联网AI平台侧遭遇的灵魂抱怨。
究其原因,就在于大部分的AI落地工具是面向专业AI从业者开发的,对行业落地来说门槛过高或开发效率过低。而市面上的一些门槛低的AI平台又往往会牺牲灵活性,开发时会有较多的限制。
不过,百度飞桨PaddleNLP不久前发布了 NLP流水线系统Pipelines ,其在易用性、灵活性和定制化方面做了一个很好的折中,是一个非常适合做行业落地的开源工具。
简单来说,PaddleNLP Pipelines将各个NLP复杂系统的通用模块抽象封装为标准组件,支持开发者通过配置文件对标准组件进行组合, 仅需几分钟即可定制化构建智能系统,让解决NLP任务像搭积木一样便捷、灵活、高效 。同时,Pipelines中预置了前沿的预训练模型和算法, 在研发效率、模型效果和性能方面提供多重保障 。举个直观的例子:
我们可以把语义检索系统抽象为文档解析、语义向量抽取、向量存储、召回、排序5个基础组件,在此基础上,只需串接1个答案定位模型组件即可构成阅读理解式问答系统。若更进一步,在问答流水线的起点和终点分别加入ASR(语音转换文本)和TTS(文本转换语音)2个模型组件甚至可以构成智能语音客服系统,如下图所示。

而Pipelines就实现了上图一样轻松灵活的开发模式,可将AI模型的上线周期缩短百倍以上

需要注意的是,在Pipelines背后,不仅有PaddleNLP提供的强大模型生态(包括刷新中文小模型SOTA的文心ERNIE 3.0轻量级模型),而且该框架兼容了飞桨生态下的任意模型、AI开放平台算子、其它开源项目如Elasticsearch等,从而实现任意复杂系统的灵活定制开发。
可以说, Pipelines在灵活易用的基础理念下,又给用户预留了足够的定制化空间,使得用户在面对奇奇怪怪的业务场景疑难问题时,不至于被平台功能给限制
因此,在Pipelines的生产力赋能下,快速开发一个高精度的金融智能客服FAQ智能问答系统就非常容易了。

同样的方式,我们可以面向金融行业快速开发一个信息抽取模型,来快速落地文首提到的“上市公司公告风险事件提取”、“合同关键信息抽取”等金融业务场景。在信息抽取方面,Pipelines则内置了百度的UIE通用信息抽取技术,其通过多任务统一建模大幅降低了模型开发成本和部署的机器成本,并具备突出的小样本学习能力。例如, 在金融领域的事件抽取任务上,仅仅标注5条样本,F1值就提升了25个点
也就是说,基于Pipelines开发强大的业务模型并不需要用户有非常丰厚的AI优化经验, Pipelines已经为各大技术场景预置了先进的模型和开发范式,做到了“上手即SOTA”的开发体验,并提供强大的二次开发能力
总之,PaddleNLP Pipelines不仅大幅提升了行业AI模型的开发和上线效率,大大降低了AI的落地门槛,且内置了当下前沿的NLP技术和模型,兼具易用性、灵活性和专业性,无论是专业的AI从业人员还是行业开发人员,均能快速驾驭,可以称之为NLP技术落地传统行业的开发神器。


相关地址

  • PaddleNLP 项目地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines/examples/FAQ

  • RocketQA 项目地址:

https://github.com/PaddlePaddle/rocketqa

  • TrustAI 项目地址:

https://github.com/PaddlePaddle/TrustAI




关注【飞桨PaddlePaddle】公众号

获取更多技术内容~