文章整理自百度杰出研发架构师孙宇的主题演讲——文心大模型ERNIE的技术、工具与平台。
2022年上半年,我们对文心ERNIE 3.0模型又做了进一步升级,提出了任务相关知识增强的千亿大模型文心ERNIE 3.0 Zeus。这个模型除了进行无标注数据和知识图谱的学习外,还通过持续学习算法对百余种不同形式的任务进行学习,以实现任务知识的增强。
文心ERNIE 3.0 Zeus采用了层次化、Prompt的方法进行训练:
此外,文心ERNIE 3.0 Zeus建模过程也采用了多任务的统一范式,通过自回归方法学习数据中不同层次的信息。
文心ERNIE 3.0 Zeus相对于业界其他大模型来说,在各类任务场景和零样本、小样本学习中都取得了非常显著的提升。与业界领先的其他模型相比,在处理各类任务中,它的效果平均绝对提升达到了20%,其中不仅包含了公开的、权威的数据集,还包含了在真实场景、真实业务中应用的自然语言理解和自然语言生成的数据集合。在这些真实的场景应用中,我们仅使用了5条样本进行测试,就取得了非常大的效果提升。
文心ERNIE 3.0 Zeus也可以使用统一的方式去处理各类应用任务,下图列举了使用文心ERNIE 3.0 Zeus做开放问答、信息抽取、情感分析、语义匹配、Text2SQL、同义改写、文本摘要、小说续写、作文创作、文案创作等一系列应用示例解析。我们也将这个能力集成到了文心大模型的API中。
在跨模态领域,我们做了一项新探索,提出了跨语言音素知识增强的语音-语言大模型文心ERNIE–SAT。文心ERNIE-SAT是可以同时处理中英文跨语言的语音-语言跨模态大模型。在预训练过程中,我们将中英双语对应的音素作为输入,让模型学习不同语言间音素的映射,以及语言和语音的对齐关系,同时,我们也采用了语言和语音做联合的掩码学习,使模型效果得到了进一步提升。
文心ERNIE-SAT在语音编辑、个性化语音合成以及跨语言语音合成等任务中都取得了领先效果,这个技术也在文心ERNIEKit中实现了开源。
在跨模态领域,我们还做了另一项工作,就是地理-语言的跨模态大模型文心ERNIE-GeoL。这个模型主要聚焦于学习并建立地理和语言之间的关联,有了ERNIE-GeoL,我们就能将“北京西”“火车站”这类并不规范的文本表述关联到与其对应的POI“北京西站”真实的地理坐标上。
为了建立这种关联,ERNIE-GeoL也在预训练数据构建、模型结构以及预训练目标中进行了针对性地设计和创新,对于地理-语言的关联知识进行了充分的融合学习。ERNIE-GeoL也已经在百度地图的POI检索、地理解析等业务中广泛地应用,并大幅提升了任务效果。
下面介绍一下可以使用到文心ERNIE大模型的四类产品。
-
文心大模型套件ERNIEKit
:提供了全流程的大模型开发与部署工具集,能够端到端全方位地发挥大模型的效能。
-
开发平台
:分成两类,主要面向缺少算力的企业和开发者。BML文本平台是面向有一定算法基础的开发者,在这个平台上,可以进行功能全面的开发管理,灵活支持各种模型的精调功能。EasyDL-文本平台可以让业务专家通过业务数据,零代码地开发和定制模型。
-
大模型API
:为开发者提供大模型能力探索和体验服务。
-
场景化平台
:依托文心大模型,推出了各种场景化平台,比如智能文档分析平台、智能创作平台、智能对话平台等。
为了降低大模型的应用门槛,使开发者能够完成从数据处理、预训练大模型微调、高性能部署的全链路流程,我们推出了文心大模型套件ERNIEKit。目前ERNIEKit已覆盖20多种数据处理工具、30多个预训练大模型、10多个精调工具、10多种大模型部署方案,预置了40多种NLP任务。开发者在使用ERNIEKit时,只需要简单地编写配置文件,就可以使用包括ERNIE 3.0的系列模型,可以提供学习工具、模型压缩等先进模型和技术,大大降低了NLP技术的落地门槛。
为了能够更好地推动大模型研究和产业应用发展,我们也推出了ERNIEKit的开源版本,为更多学者、开发者、企业提供业界领先的开源ERNIE大模型工具。本次开源的ERNIE 3.0轻量化模型版本包含了Medium、Base以及XBase。在中文公开数据集合上,我们对比了开源最好的中文模型RoBERTa,在各个尺寸上,ERNIE模型比开源最好的中文模型RoBERTa提升了1%-2%。欢迎大家访问GitHub链接使用相关模型代码。
EasyDL-文本平台进一步降低了文心大模型的使用门槛,用户可以通过界面化操作完成模型的训练、部署和发布。EasyDL不仅提供了云端的算力,同时还提供数据管理、模型管理等功能,让大模型能真正走进千千万万的企业中。在NLP任务预置上,它集成了九大常见的、经典的NLP任务,同时也集成了最领先的文心ERNIE 3.0模型。
在本次峰会上,EasyDL-文本平台已完成了全新升级,基于文心跨模态大模型ERNIE 2.0我们上线了图文匹配功能,用来计算图片和文本的相似度,为跨模态检索等任务提供了能力组件。在EasyDL-文本领域也由文心ERNIE 2.0模型升级到文心ERNIE 3.0模型,相应指标得到0.81%-7.32%的不同程度提升。
为了给开发者提供大模型探索与体验功能,我们已陆续开放一系列大模型API,它也是业界首个千亿级中文大模型API,并且我们提供了预置技能。用户可以体验预置技能,也可以通过自定义Prompt的方式体验大模型的能力。
文心ERNI-ViLG API提供了图片创作能力,开发者可以选择不同的图片风格来实现生成定制图像的任务。
这些API都放在了文心大模型API中,欢迎大家到文心大模型官网体验使用。
简单来说,Prompt就是给模型的输入包含任务描述、示例样本和目标问题。如下图,我们只需要在API中输入任务描述,例如第一个是情感分析任务,第二个是产品广告词续写任务,然后输入示例样本,最后再输入想要解决的目标问题,模型就能够根据你的Prompt自动计算出问题的答案。
立即体验文心ERNIE-ViLG 2.0文生图服务
https://wenxin.baidu.com/ernie-vilg
目前,文心大模型ERNIE已在百度百余个产品中应用,其中包括:百度搜索中问题分类、网页排序;Feed流中的新闻推荐、新闻去重;好看视频中的视频推荐;百度地图里的POI检索以及小度智能屏中的意图理解等,都使用到了文心大模型ERNIE。
文心大模型ERNIE已通过飞桨平台与百度智能语音赋能工业、能源、金融、通信、媒体、教育等千行百业的各种场景中,比如:应用到保险条款分析场景中,以提升文本的处理效率;应用到金融信贷风控场景中,以提升信贷风控判单的准确率;应用到医学自动化抽取场景中,以提升病历的抽取效率等。
最后,我通过一个实际案例,为大家分享文心大模型ERNIE的应用效果。
在多种领域合规的审查场景中,其实存在着大量文档内容比对的需求,例如,比对纸质文档和电子合同的内容。在这个场景下,人工比对成本很高且耗时很长。基于文档的预训练大模型文心ERNIE-Layout,我们研发了一个合同比对服务,通过跨模态布局分析及OCR降噪技术方案,使它可以支持各种复杂版式的合同比对,通过多粒度对比不同内容形式的差异,实现了风险点的高精度准召,且审查效率也得到了很大提升。
本文根据2022年5月WAVE SUMMIT深度学习开发者峰会「AI大模型 智领未来」论坛嘉宾分享整理。最新一期WAVE SUMMIT+2022将于11月30日在深圳举办,欢迎大家扫码提前进入官方社群了解详情。
【2022WAVE SUMMIT+报名入口】
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~