继文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登顶DocVQA榜单,并成为榜单首个突破90分大关技术方案[1]。同时,基于文心ERNIE-Layout的开放文档抽取问答模型DocPrompt, 首次以文档智能模型登顶网页问答榜单WebSRC[2]。
文心ERNIE-Layout多语言跨模态布局增强文档智能大模型
文心ERNIE-Layout依托文心ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF文件、扫描件等)进行深度理解与分析,为各类上层应用提供SOTA模型底座。
前往GitHub获取详情:
欢迎使用文心ERNIE-Layout,STAR收藏跟踪最新开源工作。
DocPrompt开放文档抽取问答模型(基于文心ERNIE-Layout)
文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。基于前沿的文档智能技术,PaddleNLP将持续开源一系列产业实践范例,解决开发者们实际应用难题。
from paddlenlp import Taskflow
docprompt = Taskflow( "document_intelligence", model= 'docprompt')
docprompt({ "doc": "./invoice.jpg", "prompts": [ "发票金额", "左侧抬头日期是什么?"]})
针对网页、表格和试卷等复杂布局文档,DocPrompt也能结合上下文及表头信息,给出精准答案。
核心技术方案
文心ERNIE-Layout以文心ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型[3]提供的OCR结果,在各数据集上效果取得大幅度提升,相关工作已被EMNLP 2022 Findings 会议收录[4]。
文档智能技术体系
与应用平台
直播课预告
10月30日,文心ERNIE-Layout论文作者,百度高工将带来直播讲解,介绍文档智能的前沿技术,深度解读多语言跨模态布局增强文档智能大模型文心ERNIE-Layout与开放文档抽取问答模型DocPrompt,并带来基于PaddleNLP的实践范例。欢迎扫码入群,获取直播课程链接。入群还有更多福利:
开源地址
参考链接
[1]DocVQA榜单
[2]网页问答榜单WebSRC
[3]VIMER-StrucTexT
[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding
[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
[7]百度AI开放平台——智能文档分析平台
[8]文心ERNIE-ViLG
继文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登顶DocVQA榜单,并成为榜单首个突破90分大关技术方案[1]。同时,基于文心ERNIE-Layout的开放文档抽取问答模型DocPrompt, 首次以文档智能模型登顶网页问答榜单WebSRC[2]。
文心ERNIE-Layout多语言跨模态布局增强文档智能大模型
文心ERNIE-Layout依托文心ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF文件、扫描件等)进行深度理解与分析,为各类上层应用提供SOTA模型底座。
前往GitHub获取详情:
欢迎使用文心ERNIE-Layout,STAR收藏跟踪最新开源工作。
DocPrompt开放文档抽取问答模型(基于文心ERNIE-Layout)
文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。基于前沿的文档智能技术,PaddleNLP将持续开源一系列产业实践范例,解决开发者们实际应用难题。
from paddlenlp import Taskflow
docprompt = Taskflow( "document_intelligence", model= 'docprompt')
docprompt({ "doc": "./invoice.jpg", "prompts": [ "发票金额", "左侧抬头日期是什么?"]})
针对网页、表格和试卷等复杂布局文档,DocPrompt也能结合上下文及表头信息,给出精准答案。
核心技术方案
文心ERNIE-Layout以文心ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型[3]提供的OCR结果,在各数据集上效果取得大幅度提升,相关工作已被EMNLP 2022 Findings 会议收录[4]。
文档智能技术体系
与应用平台
直播课预告
10月30日,文心ERNIE-Layout论文作者,百度高工将带来直播讲解,介绍文档智能的前沿技术,深度解读多语言跨模态布局增强文档智能大模型文心ERNIE-Layout与开放文档抽取问答模型DocPrompt,并带来基于PaddleNLP的实践范例。欢迎扫码入群,获取直播课程链接。入群还有更多福利:
开源地址
参考链接
[1]DocVQA榜单
[2]网页问答榜单WebSRC
[3]VIMER-StrucTexT
[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding
[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
[7]百度AI开放平台——智能文档分析平台
[8]文心ERNIE-ViLG