Visual ChatGPT:GPT-4 推出前的临时解决方案

ChatGPT 不久前推出,开启了生成人工智能行业的新纪元。随着聊天机器人的成名和成功,更多的人工智能工具应运而生。微软已采取重要步骤来改进生成式 AI 工具,尤其是在过去几年中。不幸的是,  ChatGPT是一种基于文本的语言模型,它不具备与 DALL-E 2 或Wombo Dream相同的能力。但是,随着 Visual ChatGPT 的推出,它发生了变化。

什么是 Visual ChatGPT?

ChatGPT 是一个纯文本聊天机器人,不具备生成图像或视频的能力,预计 GPT-4 会改变这一点。 但是,Visual ChatGPT 可帮助您生成、修改或裁剪图像。它结合了ChatGPT和其他 VFM的功能,例如Stable Diffusion,连接 ChatGPT 和一系列 Visual Foundation Models 以在聊天期间发送和接收图像。

换句话说,Visual ChatGPT 帮助用户从文本提示中生成图像。它缺少 Stable Diffusion 等其他 AI 工具所具有的功能,而现在,在某种程度上,它是完整的。

“我们没有从头开始训练新的多模式 ChatGPT,而是直接基于ChatGPT构建 Visual ChatGPT ,并结合了各种 VFM,”微软表示。

microsoft-visual-chatgpt-scaled-1
信用:微软

GPU内存使用情况?

研究人员还在官方 GitHub 页面上提供了 GPU 内存使用统计数据。它需要很高的 GPU 和计算能力。您将在下面找到每个视觉基础模型的 GPU 内存使用情况:

基础模型 内存使用 (MB)
图片编辑 6667
图片说明 1755
T2I 6677
canny2image 5540
line2image 6679
hed2image 6679
scribble2image 6679
姿态图像 6681
BLIPVQA 2709
seg2image 5540
深度2图像 6677
正常2图像 3974
指导像素2像素 2795

能力

如前所述,ChatGPT 经过培训可以为用户提供基于文本的答案,但缺乏图像或视频创建。Visual ChatGPT 的能力如下:

  • 发送和接收的不仅是语言,还有图像。
  • 提供复杂的视觉问题或视觉编辑指令,需要多个 AI 模型多步骤协作。
  • 提供反馈并要求更正结果。

GPT-4 发布日期

上周,微软德国 CTO 宣布 GPT-4 将在“下周”发布。他在 3 月 9 日发表声明,这意味着新型号可能会在未来几天推出。如果不启动,OpenAI 至少会向社区介绍它。

GPT-4 将是一个多模式 LLM,能够在 GPT-3.5 的文本提示功能之上从文本提示创建图像和视频。关于Visual ChatGPT的更多信息,可以查看 官方Github页面

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun219581.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年3月14日 上午8:21
下一篇 2023年3月14日 上午8:24

相关推荐