AI作画：文心一格赋能艺术与设计创作

发布日期：2023-02-02 09:03浏览量：3665次

本系列根据WAVE SUMMIT+ 2022深度学习开发者峰会「AI大模型智领未来」论坛嘉宾分享整理。文章整理自百度杰出研发架构师肖欣延的主题分享——AI作画：文心一格赋能艺术与设计创作。

针对视觉内容创作门槛高、耗时长等行业痛点问题，百度推出了基于文心大模型的AI艺术创作产品文心一格。通过文心一格核心系统的技术创新，让AI作画普惠大众，提升创作效率。目前，文心一格产品已经对外发布使用，大众用户均可使用。

视觉内容创作门槛高、耗时长

众所周知，画画、制图、设计等都属于视觉内容创作，但一般情况下，视觉内容创作门槛高、耗时长。比如对于普通大众来说，他们在日常生活中很难进行自主创作，更多时候通过搜索引擎检索使用网上图片，而对于专业内容创作者来说，视觉内容创作的制作流程复杂，往往需要花费大量时间。

如下图右侧的几张插图，创作者需要花费数年时间才能完成，由此可见通过AI技术提升图像创作效率将对视觉内容创作产生巨大价值。

对此，百度推出了基于文心大模型的AI艺术创作产品——文心一格。用户在体验该产品时只需要输入一句话，AI就能够自动生成创意画作。因此，创作者不再需要设计整个复杂过程和图像制作，而只需要输入语言，这使整个创作效率实现了大幅提升。

通过文心一格，我们能够让AI作画普惠大众，提升创作效率。对于大众用户来说，实现了零门槛的艺术创作体验，同时能够生成大量个性化作品，并且直接使用在日常生活中。下图左侧展示了部分文心一格用户的AI画作作品。

而对于专业内容创作者来说，他们也可以使用文心一格提升创作效率，通过人机共创的方式激发灵感。比如一些用户使用文心一格在数天内完成了数千张AI画作，并且进一步激发灵感，完成最终的图像制作。

为了实现AI作画应用实际落地，我们主要面临三方面的挑战：

创作需求理解，即如何准确地理解用户需求，降低用户输入描述的难度。
图像原创生成，即如何支持用户艺术、写实等多样化的画作生成需求。
创作需求满足，即如何对生成结果优化，高质量满足用户创作需求。

文心一格核心系统的技术创新

为此，百度飞桨文心一格研发了一个核心文生图系统，这个系统是基于语言与知识驱动的原创生成与二次创作。整个系统是基于文心大模型实现的，包括文本、视觉和跨模态三个方面。

对应落地应用面临的三方面挑战，整个系统也进行了三大技术创新。

基于知识的Prompt学习。对用户输入的文字，通过自动创意规划，能够大幅提升易用性。
文本跨模深度融合的文生图。在图像生成中，通过文本和跨模态的深度融合，模型兼具整体复杂构图和局部细节刻画能力。
文本驱动的图像编辑。通过文本驱动的图像编辑，允许用户进行多轮交互，提升画作质量。

具体技术创新如下：

Prompt自动学习

文心一格基于知识的理解与扩充，大幅提升易用性。首先，当用户输入一个文本Query，文心一格通过面向Prompt工程的Query理解，能够进行多角度识别，进而根据识别结果进行扩充，把整个描述丰富化，包括风格、构图、视觉要素等。同时，这两个过程也可以通过端到端生成实现，这里，两种方式都是基于知识图谱得以实现。最后，文心一格通过Prompt排序获得比较好的Prompt，再输入给文生图环节，最终生成精美的AI画作图片。

统一图像生成

文心一格提出文本语义驱动和跨模态匹配联合引导的模型，兼具意象和具象的生成。在文生图上通常存在两方面的问题，一个是整体的复杂构图，另一个是细节的刻画。整体上，这两方面分别对应着两个流派重点关注的问题，一个是类似Stable Diffusion这类文本引导的模型；另一个是基于跨模态匹配模型，类似与DiscoDiffusion，也即由跨模态模型进行在线引导和迭代优化模型。这两个模型分别擅长细节刻画和整体艺术生成。因此，文心一格提出了一个联合模型UPainting，该模型同时使用文本先验引导与跨模态引导，同时兼具两类模型的优势效果。

统一图像编辑

在图像生成后，有时生成结果可能不尽人意，用户会希望对图片进行一定修改。对此，文心一格也支持文本驱动的图到图生成。下图左侧是模型效果，通过引入对输入文本的注意力机制，就能够让扩散生成模型更加关注用户希望修改的部分，实现图像的二次生成和创作。文心一格具有三种编辑能力：一是元素修改，即对一幅图像的局部进行修改；二是实现风格转化与迁移；三是进行相似图的二次生成。