文心ERNIE-ViLG 2.0在文本生成图像公开权威评测集MS-COCO和人工盲评上均超越了Stable Diffusion、DALL-E 2等模型,取得了当前该领域的世界最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。
论文链接:
https://arxiv.org/pdf/2210.15257.pdf
体验链接:
https://wenxin.baidu.com/ernie-vilg
令人震撼的科幻插图杰作,神秘宇宙星辰背景中出现一只巨大的星球, 大场景,无比详细,明暗对比,32k
文心ERNIE-ViLG 2.0创作的图像示例:
文心ERNIE-ViLG 2.0助力视觉内容AI大生产
基于语言和图像知识的知识增强算法
混合降噪专家网络
针对模型建模能力不足,导致图像质量不够好的问题,百度研究者发现,扩散模型的降噪过程中不同阶段对降噪网络的能力要求不同,初始阶段模型需要从纯随机噪声中生成图像轮廓,结尾阶段对模型的要求变为对图像细节补全,传统方法使用同一网络建模整个降噪过程,模型需要同时满足不同阶段的建模需求。
为此,百度研究者提出了针对不同阶段选择不同网络(降噪专家)进行建模的框架,有效地解决了不同阶段对模型能力要求不一致的问题,减少降噪任务的互相干扰,提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成,实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。
文心ERNIE-ViLG 2.0与DALL-E 2
开发者和科技爱好者可以通过文心ERNIE-ViLG 2.0的API调用入口直接体验该模型的技术效果,并灵活方便地集成到产品中。同时,基于文心ERNIE-ViLG 2.0大模型,百度也推出了AI作画产品——AI艺术与创意辅助平台:文心一格(yige.baidu.com),以满足更广泛人群在AI作画方面的需求。
立即体验文心ERNIE-ViLG 2.0文生图服务
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
文心ERNIE-ViLG 2.0在文本生成图像公开权威评测集MS-COCO和人工盲评上均超越了Stable Diffusion、DALL-E 2等模型,取得了当前该领域的世界最好效果,在语义可控性、图像清晰度、中国文化理解等方面均展现出了显著优势。
论文链接:
https://arxiv.org/pdf/2210.15257.pdf
体验链接:
https://wenxin.baidu.com/ernie-vilg
令人震撼的科幻插图杰作,神秘宇宙星辰背景中出现一只巨大的星球, 大场景,无比详细,明暗对比,32k
文心ERNIE-ViLG 2.0创作的图像示例:
文心ERNIE-ViLG 2.0助力视觉内容AI大生产
基于语言和图像知识的知识增强算法
混合降噪专家网络
针对模型建模能力不足,导致图像质量不够好的问题,百度研究者发现,扩散模型的降噪过程中不同阶段对降噪网络的能力要求不同,初始阶段模型需要从纯随机噪声中生成图像轮廓,结尾阶段对模型的要求变为对图像细节补全,传统方法使用同一网络建模整个降噪过程,模型需要同时满足不同阶段的建模需求。
为此,百度研究者提出了针对不同阶段选择不同网络(降噪专家)进行建模的框架,有效地解决了不同阶段对模型能力要求不一致的问题,减少降噪任务的互相干扰,提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成,实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。
文心ERNIE-ViLG 2.0与DALL-E 2
开发者和科技爱好者可以通过文心ERNIE-ViLG 2.0的API调用入口直接体验该模型的技术效果,并灵活方便地集成到产品中。同时,基于文心ERNIE-ViLG 2.0大模型,百度也推出了AI作画产品——AI艺术与创意辅助平台:文心一格(yige.baidu.com),以满足更广泛人群在AI作画方面的需求。
立即体验文心ERNIE-ViLG 2.0文生图服务
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~