\u200E
千言开源数据集 | 千言万语系列技术分享之自然语言生成中的文本规划
发布日期:2022-09-22T03:09:04.000+0000 浏览量:1113次

自然语言生成任务是指对于给定输入的自然语言文本,由机器自动生成一系列的输出文本。被广泛应用于机器翻译、对话生成(如智能客服机器人)、摘要生成(对于给定的文档自动生成一段摘要)、表格到文本的生成(如根据一个商品数据表格自动生成对应的商品描述)等等。

现有的自然语言生成模型在生成流畅的文本方面已有显著的进展,但在生成内容的连贯性可控性等方面仍存在不足。在复杂的生成任务或长文本生成任务上,这些问题更为突出。例如:

  • 问题一在目标导向的对话生成中,机器需要根据给定的目标话题 (如电影、歌曲、美食等) 主动地引导与用户的对话过程,通过多轮聊天实现连贯的话题切换与过渡,以完成目标话题的推荐。

  • 问题二 现有的对话生成模型由于没有目标导向的长期规划,在生成对话语句时缺少整体话题的连贯性,进而导致对话语句之间的过渡不够自然,并且往往难以较好地主动实现目标话题 (实体词) 的生成。
而文本规划技术可以更好地指导现有的生成模型,以生成更加合理更加可控的内容。
为了解决这些问题,许多研究者将自然语言生成分解为 文本规划 (text planning) 和 语言化 (verbalization) 两个过程。其中,文本规划主要指对待生成的文本进行关键内容 (例如,关键词、知识实体、对话动作与话题等) 的控制与规划,进而可以引导和约束语言化这一过程,以最终生成上下文更加连贯、语义更加恰当的内容。目前关于文本规划的研究主要集中于故事生成、表格到文本生成、目标导向的对话生成、自动文章写作等领域,相关的方法主要包括显式的内容规划和隐式的文本规划。
『千言万语』是千言中文开源数据集开设的月度技术分享栏目,在这里,你可以听到前沿的NLP研究进展、优质的评测技术方案分享以及一切你想听到的中文开源数据集相关的知识。
本次『千言万语』栏目邀请王健博士,为我们带来自然语言生成中的文本规划课题分享,他将从 显式的内容规划 隐式的文本规划 两方面来介绍目前在文本规划领域的典型研究工作。
王健博士来自香港理工大学电子计算学系自然语言处理组,目前主要专注于对话系统与对话生成领域的研究,曾在AAAI、COLING、CIKM等会议上发表相关论文,其硕士和本科均毕业于华南理工大学计算机科学与工程学院。

看直播,参与抽奖,赢精美礼品哦

活动详情如下,欢迎扫码报名观看


关注【飞桨PaddlePaddle】公众号

获取更多技术内容~