我可以访问 Gemini 1.5 Pro,它比 GPT-4 和 Gemini 1.0 Ultra 更好

什么是 Gemini 1.5 Pro AI 模型?

经过数月的等待,Gemini 1.5 Pro 型号似乎是来自谷歌稳定版的一款非凡的多模态 LLM。与构建 Gemini 1.0 系列型号的传统密集模型不同,Gemini 1.5 Pro 模型使用专家混合 (MoE) 架构。

有趣的是,OpenAI 也采用了 MoE 架构,用于卫冕之王 GPT-4 模型。

但这还不是全部,Gemini 1.5 Pro 可以处理 100 万个代币的庞大上下文长度,远远超过 GPT-4 Turbo 的 128K 和 Claude 2.1 的 200K 代币上下文长度。谷歌还在内部测试了多达 1000 万个代币的模型,而 Gemini 1.5 Pro 模型已经能够摄取大量数据,显示出强大的检索能力。

谷歌还表示,尽管 Gemini 1.5 Pro 比最大的 Gemini 1.0 Ultra 型号(可通过 Gemini Advanced 获得)小,但它的表现大致处于同一水平。因此,为了评估所有高大上的主张,好吗?

Gemini 1.5 Pro vs Gemini 1.0 Ultra vs GPT-4 比较

1. 苹果测试

在我之前的 Gemini 1.0 Ultra 和 GPT-4 比较中,谷歌在标准的 Apple 测试中输给了 OpenAI,该测试测试了 LLM 的逻辑推理。然而,新发布的 Gemini 1.5 Pro 型号正确地回答了这个问题,这意味着谷歌确实改进了 Gemini 1.5 Pro 型号的高级推理。

谷歌又回来了!和之前一样,GPT-4 给出了正确的答案,而 Gemini 1.0 Ultra 仍然给出了错误的答案,说你还剩下 2 个苹果。

I have 3 apples today, yesterday I ate an apple. How many apples do I have now?

获胜者:Gemini 1.5 Pro 和 GPT-4

apple-test-on-gemini-1.5-pro

2. 毛巾问题

在另一项评估Gemini 1.5 Pro高级推理能力的测试中,我问了一个流行的毛巾问题。可悲的是,这三款机型都出错了,包括 Gemini 1.5 Pro、Gemini 1.0 Ultra 和 GPT-4。

这些人工智能模型都没有理解问题的基本前提,也没有使用数学计算答案,得出了错误的结论。人工智能模型要像人类一样推理,还有很长的路要走。

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Winner: None

complex-reasoning-test-on-gemini-1.5-pro

3.哪个更重

然后,我运行了修改版的权重评估测试,以检查Gemini 1.5 Pro的复杂推理能力,并与GPT-4一起成功通过。然而,Gemini 1.0 Ultra再次未能通过测试。

Gemini 1.5 Pro 和 GPT-4 都正确地识别了这些单位,但没有深入研究密度,并表示一公斤包括羽毛在内的任何材料总是比一磅钢或任何东西重。谷歌干得好!

What's heavier, a kilo of feathers or a pound of steel?

获胜者:Gemini 1.5 Pro 和 GPT-4

evaluate-the-weight-test-on-gemini-1.5-pro

4.解决数学问题

在Maxime Labonne的感谢下,我借用并运行了他的一个数学提示来评估Gemini 1.5 Pro的数学能力。好吧,Gemini 1.5 Pro以优异的成绩通过了测试。

我也在 GPT-4 上运行了相同的测试,它也得出了正确的答案。但我们已经知道 GPT 非常有能力。顺便说一句,我明确要求 GPT-4 避免使用 Code Interpreter 插件进行数学计算。不出所料,Gemini 1.0 Ultra 未能通过测试并给出了错误的输出。我的意思是,为什么我什至在这个测试中包括 Ultra?(叹了口气,转到下一个提示)

If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?

获胜者:Gemini 1.5 Pro 和 GPT-4

maths-test-on-googles-latest-MoE-model

5. 遵循用户说明

接下来,我们进入了另一个测试,我们评估了Gemini 1.5 Pro是否能正确地遵循用户的指示。我们要求它生成 10 个以“苹果”一词结尾的句子。

Gemini 1.5 Pro 在这次测试中惨遭失败,只生成了三个这样的句子,而 GPT-4 产生了九个这样的句子。Gemini 1.0 Ultra 只能生成两个以“apple”一词结尾的句子。

generate 10 sentences that end with the word "apple"

胜利者: GPT-4

user-instructions-test-on-googles-model-

6. 大海捞针 (NIAH) 测试

Gemini 1.5 Pro 的主要特点是它可以处理 100 万个代币的巨大上下文长度。谷歌已经对 NIAH 进行了广泛的测试,并以令人难以置信的准确性获得了 99% 的检索率。所以自然而然地,我也做了一个类似的测试。

我拿了最长的维基百科文章之一(西班牙征服佩滕),它有近 100,000 个字符,消耗了大约 24,000 个代币。我在文本中间插入了一个针(一个随机语句),使 AI 模型更难检索该语句。

研究人员已经表明,如果将针插入中间,人工智能模型在较长的上下文窗口中表现更差

needle-in-a-haystack-test-on-gemini-1.5-pro

Gemini 1.5 Pro 展示了它的肌肉,并以非常准确和上下文正确地回答了这个问题。但是,GPT-4 无法从大文本窗口中找到针。而且,通过Gemini Advanced提供的Gemini 1.0 Ultra目前支持大约8K代币的上下文窗口,远低于市场上声称的32K上下文长度。尽管如此,我们还是用 8K 代币运行了测试,但 Gemini 1.0 Ultra 未能找到文本语句。

所以,是的,对于长上下文检索,Gemini 1.5 Pro 型号是卫冕之王,谷歌已经超越了所有 AI 型号。

胜利者: Gemini 1.5 Pro

7. 多模态视频测试

虽然 GPT-4 是一个多模态模型,但它还不能处理视频。Gemini 1.0 Ultra 也是一个多模态模型,但谷歌尚未解锁该模型的功能。因此,您无法在 Gemini Advanced 上上传视频。

也就是说,我通过 Google AI Studio(访问)访问的 Gemini 1.5 Pro 还允许您上传视频,除了各种文件、图像,甚至由不同文件类型组成的文件夹。因此,我上传了 OnePlus Watch 2 评测的 5 分钟 Beebom 视频(1080p,65MB),这当然不是训练数据的一部分。

  • upload-video-and-ask-questions-about-it-using-gemini-1.5-pro

该模型花了一分钟来处理视频,并在 1,048,576 个代币中消耗了大约 75,000 个代币(不到 10%)。

现在,我向Gemini 1.5 Pro提出了问题,首先是视频的内容。我还要求它显示手表的所有关键功能。回答每个问题需要将近 20 秒。答案很准确,没有任何幻觉的迹象。接下来,我问审稿人坐在哪里,它给出了详细的答案。之后,我问表带是什么颜色的,它说:“绿色”。干的好!

最后,我让 Gemini Pro 生成了视频的文字记录,模型在一分钟内准确地生成了文字记录。Gemini 1.5 Pro的多模态功能让我大吃一惊。它能够成功地分析视频的每一帧,并智能地推断出含义。

这使得Gemini 1.5 Pro成为一个强大的多模态模型,超越了我们迄今为止所看到的一切。正如西蒙·威利森(Simon Willison)在他的博客中所说,视频是Gemini 1.5 Pro的杀手级应用。

胜利者: Gemini 1.5 Pro

8. 多模态图像测试

在最后的测试中,我测试了Gemini 1.5 Pro型号的视觉能力。我上传了 Google 演示(视频)的剧照,该演示是在 Gemini 1.0 发布期间展示的。在我之前的测试中,Gemini 1.0 Ultra 未能通过图像分析测试,因为 Google 尚未在 Gemini Advanced 上为 Ultra 型号启用多模态功能。

gemini-1.5-pro-tested-on-multimodal-capability

尽管如此,Gemini 1.5 Pro 型号还是很快产生了响应,并正确地回答了电影名称“早餐俱乐部”。GPT-4 也给出了正确的回应。Gemini 1.0 Ultra 根本无法处理图像,理由是图像上有人的脸,但奇怪的是事实并非如此。

获胜者:Gemini 1.5 Pro 和 GPT-4

专家意见:谷歌终于交付了 Gemini 1.5 Pro

在玩了一整天的Gemini 1.5 Pro之后,我可以说谷歌终于交付了。这家搜索巨头在 MoE 架构上开发了一种非常强大的多模态模型,与 OpenAI 的 GPT-4 模型不相上下。

它在常识推理方面表现出色,在某些情况下甚至比 GPT-4 更好,包括长上下文检索、多模态功能、视频处理和对各种文件格式的支持。不要忘记,我们谈论的是中型Gemini 1.5 Pro型号。当Gemini 1.5 Ultra型号在未来下降时,它将更加令人印象深刻。

当然,Gemini 1.5 Pro 仍处于预览阶段,目前仅供开发人员和研究人员测试和评估模型。在通过Gemini Advanced进行更广泛的公开推广之前,谷歌可能会添加额外的护栏,这可能会削弱模型的性能,但我希望这次不会出现这种情况。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun284612.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年2月29日 下午5:22
下一篇 2024年2月29日

相关推荐