信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此,中国科学院软件研究所、百度公司与千言开源数据集项目(www.luge.ai)联合发起业界首个通用的信息抽取评测——“CCKS-千言通用信息抽取竞赛”。本赛事是千言多形态信息抽取的全新升级,不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。
竞赛于4月11日开启报名
,并将在8月25日于2022年全国知识图谱与语义计算大会(CCKS-2022)召开评测研讨会并进行颁奖。百度将为参赛选手提供全面的技术资源、平台支持和丰厚奖池。
https://aistudio.baidu.com/aistudio/competition/detail/161/0/introduction
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,主要由抽取类别(人物名称、企业上市事件)及目标结构(实体、关系、事件等)组成。
本评测的数据及抽取框架主要来自于百度通用信息抽取的应用案例。本次评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务,以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
<冠军> 于 <夺冠时间> 在 <夺冠赛事>获得冠军。
A: 不过,这部剧的主演,我觉得蒂姆罗宾斯的演技不算那么出众。
最终测试分为
已知抽取框架(Seen Schema)和未知抽取框架(Unseen Schema)
两部分:
7. CCKS会议(评测报告及颁奖):8月25日—28日
学习交流机会:在赛事群中与参赛者、组织者深入交流;
前沿技术实践:在竞赛平台展开前沿的多任务建模实践;
精美礼品&参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。
添加千言助手微信,发送关键词“CCKS”即可加入交流群。
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~