谷歌的文本到图像生成器 Imagen 生成具有“前所未有的真实感”的图片

谷歌推出了一款名为“ Imagen ”的新产品,这是一种通过个人提供的描述生成文本到图像的生成器。该公司声称它超越了另一款 AI 图像生成器 DALL-E 2 的性能。它展示了一些样本,无可否认地展示了精致的细节,但 Imagen 目前无法向公众开放。

新的文本到图像扩散模型被描述为“具有前所未有的真实感和深度的语言理解”。它通过大型 Transformer 语言模型来理解文本,据说依靠扩散模型来执行高保真图像生成。

Screenshot-179

Google 提供了 Imagen 作品的图像和样本,其风格从素描到油画和 CGI​​ 不等。它们伴随着用于生成它们的单词和短语。例如,一个样本上写着“在雪地里戴着空手道腰带的火龙果”,而另一个样本上的描述是“撒哈拉沙漠中戴着草帽和霓虹太阳镜的小仙人掌”。

生成的图像看起来非常真实,就好像它们是由真人创建的一样。然而,谷歌表示,它是通过扩散技术通过利用纯噪声图像并以最佳方式对其进行优化来完成的。通过理解所提供的文本描述,Imagen 将生成一个 64 x 64 像素的图像,执行两个增强功能,并将图像转换为更大的 1024 x 1024 像素块。

Google Research,Brain Team 表示,Imagen 在COCO(一个大规模的对象检测、分割和字幕数据集)上表现出色,尽管它没有接受过培训。该团队报告说,它获得了 7.27 的最新 FID 分数。

谷歌还通过使用“DrawBench”评估 Imagen 与其他文本到图像模型的性能进行比较。它作为文本到图像模型的基准,谷歌在其中使用 VQ-GAN+CLIP、潜在扩散模型和 DALL-E 2 等其他方法测试了 Imagen。在测试了它们的组合性、基数、空间关系、长格式之后文本、稀有词和具有挑战性的提示,该团队表示,“在图像-文本对齐和图像保真度方面,人类评分者强烈偏爱 Imagen,而不是其他方法。”

尽管研究团队提供了这些令人印象深刻的报告,但由于公众无法访问 Imagen,因此无法自行测试 Imagen。谷歌这样做是有原因的,例如道德挑战、潜在的误用风险、社会偏见、大型语言模型的局限性以及编码有害的刻板印象和表示的风险。该团队总结说,面对所有这些挑战,Imagen 在生成与人相关的图像方面仍然不完美。 

“Imagen 在生成描绘人物的图像时表现出严重的局限性,”该团队在一篇博文中解释道。“我们的人工评估发现,在对不描绘人物的图像进行评估时,Imagen 获得了显着更高的偏好率,这表明图像保真度有所下降。初步评估还表明,Imagen 编码了几种社会偏见和刻板印象,包括对生成肤色较浅的人的图像的总体偏见,以及描绘不同职业的图像与西方性别刻板印象保持一致的趋势。最后,即使我们将几代人的注意力放在远离人的地方,我们的初步分析表明,Imagen 在生成活动、事件和对象的图像时编码了一系列社会和文化偏见。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun167110.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2022年5月25日
下一篇 2022年5月25日

相关推荐