GPT-4 是多模态的,我们可以合理地预测 GPT-4 能够做什么

*如果* GPT-4 是多模态的,我们可以合理地预测 GPT-4 *可能*能够做什么,鉴于微软之前的工作 Kosmos-1:

– 视觉智商测试:是的,人类参加的测试!
– 无 OCR 阅读理解:输入屏幕截图、扫描文档、路牌或任何包含文本的像素。直接对内容进行推理,无需显式 OCR。这对于解锁多媒体网页上的 AI 驱动的应用程序或来自现实世界摄像头的“野外文本”非常有用。
– 多模式聊天:就图片进行对话。您甚至可以在中间提供“后续”图像。
– 广泛的视觉理解能力,如字幕、视觉问答、物体检测、场景布局、常识推理等。
– 音频和语音识别(??):在 Kosmos-1 论文中没有提到,但 Whisper 已经是一个 OpenAI API,应该很容易集成。Fq4AeOHWwBEKFjK

注意:这些预测是基于据称微软德国首席技术官安德烈亚斯布劳恩所说的话。它们可能准确也可能不准确(这就是我称之为“预测”的原因)。但 Kosmos-1 非常真实且坚如磐石。它提供了 GPT-4 或微软接下来将提供的任何人工智能服务的一瞥。我很难相信 Kosmos-1 会留在实验室而不成为产品。

无论如何,请为多模式 API 做好准备——它们迟早会出现!

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun219130.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年3月11日 下午5:50
下一篇 2023年3月11日 下午9:00

相关推荐