Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro AI 模型测试

2024年3月8日上午8:09 • 工具软件

1. 苹果测试

I have 3 apples today, yesterday I ate an apple. How many apples do I have now?

让我们从流行的 Apple 测试开始，该测试评估 LLM 的推理能力。在这个测试中，Claude 3 Opus 模型正确回答并说你现在有三个苹果。但是，为了获得正确的响应，我不得不设置一个系统提示，并补充说您是一个智能助手，是高级推理专家。

如果没有系统提示，Opus 模型给出了错误的答案。好吧，Gemini 1.5 Pro 和 GPT-4 给出了正确的答案，与我们之前的测试一致。

获胜者：Claude 3 Opus、Gemini 1.5 Pro 和 GPT-4

2.计算时间

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

在这个测试中，我们试图欺骗人工智能模型，看看它们是否表现出任何智能迹象。可悲的是，Claude 3 Opus 未能通过测试，就像 Gemini 1.5 Pro 一样。我还在系统提示中补充说，这些问题可能很棘手，所以要聪明地思考。然而，Opus模型深入研究了数学，得出了一个错误的结论。

在我们之前的比较中，GPT-4 在这个测试中也给出了错误的答案。然而，在发布我们的结果后，GPT-4 一直在不断产生输出，通常是错误的，有时是正确的。今天早上我们再次运行了相同的提示，GPT-4 给出了错误的输出，即使被告知不要使用 Code Interpreter。

胜利者：无

3. 评估重量

What's heavier, a kilo of feathers or a pound of steel?

接下来，我们要求所有三个 AI 模型回答一公斤羽毛是否比一磅钢重。好吧，Claude 3 Opus 给出了一个错误的答案，说一磅钢和一公斤羽毛的重量是一样的。

Gemini 1.5 Pro 和 GPT-4 AI 机型给出了正确答案。任何材料的一公斤重量都比一磅钢重，因为一公斤的质量值大约是一磅的 2.2 倍。

获胜者：Gemini 1.5 Pro 和 GPT-4

4.解决数学问题

If x and y are the tens digit and the units digit, respectively, of the product 725,278 * 67,066, what is the value of x + y. Can you explain the easiest solution without calculating the whole number?

在下一个问题中，我们要求 Claude 3 Opus 模型在不计算整数的情况下解决一个数学问题。它又失败了。每次我运行提示时，无论有没有系统提示，它都会在不同程度上给出错误的答案。

我很高兴看到 Claude 3 Opus 在 MATH 基准测试中获得了 60.1% 的分数，超过了 GPT-4 （52.9%）和 Gemini 1.0 Ultra （53.2%）等。

似乎通过思维链提示，您可以从 Claude 3 Opus 模型中获得更好的结果。目前，在零样本提示下，GPT-4 和 Gemini 1.5 Pro 给出了正确答案。

获胜者：Gemini 1.5 Pro 和 GPT-4

5. 遵循用户说明

Generate 10 sentences that end with the word "apple"

在遵循用户说明方面，Claude 3 Opus 型号的表现非常出色。它有效地推翻了所有的人工智能模型。当被要求生成 10 个以“apple”一词结尾的句子时，它会生成 10 个以“apple”一词结尾的完全合乎逻辑的句子。

相比之下，GPT-4 生成了 9 个这样的句子，而 Gemini 1.5 Pro 的表现最差，甚至很难生成三个这样的句子。我想说的是，如果你正在寻找一个人工智能模型，其中遵循用户指令对你的任务至关重要，那么Claude 3 Opus是一个不错的选择。

当一位 X 用户要求 Claude 3 Opus 遵循多个复杂的指令并在 Andrej Karpathy 的 Tokenizer 视频上创建一个书籍章节时，我们看到了这一点。Opus 模型做得很好，并创建了一个漂亮的书籍章节，其中包含说明、示例和相关图像。

胜利者： Claude 3 Opus

6. 大海捞针（NIAH）测试

Anthropic 一直是推动 AI 模型支持大型上下文窗口的公司之一。虽然 Gemini 1.5 Pro 允许您加载多达 100 万个代币（预览版），但 Claude 3 Opus 带有一个 200K 代币的上下文窗口。根据 NIAH 的内部调查结果，Opus 模型以超过 99% 的准确率取回了针头。

在我们仅使用 8K 代币的测试中，Claude 3 Opus 找不到针头，而 GPT-4 和 Gemini 1.5 Pro 在我们的测试中很容易找到它。我们还对Claude 3 十四行诗进行了测试，但它再次失败。我们需要对 Claude 3 模型进行更广泛的测试，以了解它们在长上下文数据中的性能。但就目前而言，它看起来对 Anthropic 来说并不好。

获胜者：Gemini 1.5 Pro 和 GPT-4

7. 猜电影（视力测试）

Claude 3 Opus 是一个多模态模型，也支持图像分析。因此，我们添加了一张来自 Google Gemini 演示的剧照，并让它猜出这部电影。它给出了正确的答案：蒂芙尼的早餐。干得好 Anthropic！

GPT-4 也回应了正确的电影名称，但奇怪的是，Gemini 1.5 Pro 给出了错误的答案。我不知道谷歌在做什么。尽管如此，Claude 3 Opus 的图像处理相当不错，与 GPT-4 相当。

given the play on words of these images, guess the name of the movie

获胜者：Claude 3 Opus 和 GPT-4

在测试了 Claude 3 Opus 模型一天后，它似乎是一个功能强大的模型，但在您期望它擅长的任务上步履蹒跚。在我们的常识推理测试中，Opus 模型表现不佳，它落后于 GPT-4 和 Gemini 1.5 Pro。除了遵循用户说明外，它在 NIAH（应该是它的强项）和数学方面表现不佳。

另外，请记住，Anthropic 在 2023 年 3 月首次发布时，将 Claude 3 Opus 的基准分数与 GPT-4 的初始报告分数进行了比较。与 GPT-4 的最新基准分数相比，Claude 3 Opus 输给了 GPT-4，正如 Tolga Bilge 在 X 上指出的那样。

也就是说，Claude 3 Opus 有自己的优势。X 上的一位用户报告说，Claude 3 Opus 能够仅使用翻译对数据库即可将俄语翻译成切尔克斯语（一种极少数人使用的稀有语言）。凯文·费舍尔（Kevin Fischer）进一步分享说，Claude3号（Claude 3）了解博士级量子物理学的细微差别。另一位用户证明，Claude 3 Opus 可以一次性学习自我类型注释，比 GPT-4 更好。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun287863.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

在 iPhone 主屏幕上随机播放特定相册

上一篇 2024年3月8日上午8:08

NVIDIA 发布 AI 工具、软件和硬件

下一篇 2024年3月8日上午8:10

这就是为什么大多数人还没有进入人工智能的原因

人工智能是一个加载的术语。对一些人来说，它象征着未来的道路;对其他人来说，这是一种颠覆性的技术，可以让他们摆脱工作。尽管仍处于早期阶段，但大型科技公司正在对聊天机器人和虚拟助手等支…

工具软件 2024年6月16日
AI 将在 Nothing Phone 3 中无处不在！

在最近的一段视频帖子中，Nothing 首席执行官 Carl Pei 在 X（前身为 Twitter）上谈论了该公司为我们准备的一些重大新闻和发展。在智能手机业务中，Nothin…

工具软件 2024年6月16日
iPhone中的iMessage注销错误：修复

给朋友发短信时收到“iMessage注销”错误消息？如果在“信息”中禁用了“iMessage”选项，则可能会显示此错误提示。最初，您应该重试通过iMessage发送相同的消息几次。…

2024年6月13日 • 工具软件
如何向Word文档添加复选框

您是否正在使用 Microsoft Word 创建在线调查或表单？如果是，您可能需要向 Word 文档添加复选框，以便于回答和阅读。Word 文档上每个选项旁边都有一个复选框的文档…

2024年6月13日 • 工具软件
高对比度模式有什么作用？[所有你需要知道的]

那么，高对比度模式在您的 Windows 10 和 Windows 11 PC 上有什么作用？ Windows PC、Mac、智能手机、平板电脑等计算设备包括一些改进辅助功能的功能…

2024年6月12日 • 工具软件
iMessage不发送图片，失败：如何修复

在iPhone上从iMessage应用程序发送图片时遇到问题？无论是宠物的快照还是快速捕获您的工作，通过iMessage发送图片都非常容易。但是，就像其他 Apple 应用程序和服…

2024年6月12日 • 工具软件
Airdrop接受拒绝弹出窗口在iPhone上丢失：修复

iPhone上的AirDrop系统缺少接受/拒绝功能？AirDrop是Apple的专有文件共享系统，未经用户同意，无法运行。因此，没有接受/拒绝弹出窗口仅意味着 AirDrop 将…

2024年6月1日 • 工具软件
什么是Ask Photos，它是如何工作的？

您的智能手机上有一个蓬勃发展的画廊？找不到你要找的东西？Google 相册上新的“询问照片”功能将很快让您的生活更轻松。在 Google I/O 2024 期间宣布的 Ask P…

工具软件 2024年5月31日
iMessage 以绿色显示：这是修复程序

您的iMessage是否在iPhone上显示绿色文本气泡？这就是所谓的“绿色泡沫”问题。通常，当有人从非 iOS 设备向您发送消息时，它会显示在绿色气泡中。除此之外，iPhone设…

2024年5月30日 • 工具软件
如何在 Telegram 中设置和使用 Copilot AI

Microsoft 已将其 Copilot AI 带到了 Telegram。该公司宣布已将 GPT-4 驱动的 AI 机器人添加到广受欢迎的 Telegram 应用程序中。 AI …

工具软件 2024年5月30日
卡片未添加到Apple Wallet中：修复

随着 Apple Wallet 的推出，支付的便利性增加了许多倍。但是，如果您无法将卡添加到 Apple 钱包中，则无法有效地付款或使用 Apple 钱包。在 Apple 钱包中添…

2024年5月29日 • 工具软件
我的 HP 打印机上的 WPS 引脚在哪里？[我们回答]

一旦您弄清楚 WPS 引脚的位置，将 HP 打印机连接到无线网络就不一定是一项艰巨的任务。如果它不简单，我们会帮助您找到它。 WPS（Wi-Fi 保护设置）引脚是一个 8 位数代码…

2024年5月23日 • 工具软件
您必须了解的 3 大 Android 15 功能

随着 beta 2 的发布，Android 15 越来越接近完整版本。虽然它与 Android 14 没有太大区别，但它有几个新的和急需的功能，可以更新和改进标准的 Android…

工具软件 2024年5月23日
无法发送消息iMessage需要启用：修复

当您使用 iMessage 应用程序发送消息时，屏幕上可能会出现此消息，指出“无法发送消息;需要启用iMessage“。遇到使用iMessage发送消息的问题并不是什么新鲜事。因此…

2024年5月20日 • 工具软件
OpenAI 的 GPT-4o 模型是我们希望语音助手成为的一切

OpenAI再次提高了标准。尽管春季更新活动的消息不涉及任何进入搜索引擎领域的短途旅行，但 OpenAI 凭借其新的 GPT-4o 模型赢得了许多人的心。它快速、活泼，并且具有升级…

2024年5月20日 • 工具软件
Spotify 无损（几乎）在这里，但不要抱有希望！

经过多年的失望等待，Spotify用户以研究的怀疑态度看待有关Spotify无损音频的大多数泄漏和猜测。谁能责怪他们？自宣布以来已经三年了，几乎没有关于确切发布日期的消息！因此，每…

2024年5月20日 • 工具软件
工具软件

SEO 2.0 的必要性

SEO 2.0 的必要性随着 AI 搜索越来越多，包括谷歌自己也在搜索前加上了 AI 总结，可能针对 AI 的 SEO 也越来越重要。比如搜索最适合数字游民的城市谷歌 AI 概览…

2024年5月20日
工具软件

FeaturesVote：利用用户反馈帮助增长

FeaturesVote：利用用户反馈帮助增长 FeaturesVote 是一个帮助企业通过用户反馈来驱动产品增长的工具。其主要功能包括：用户投票板：用户可以发布和投票他们希望看…

2024年5月20日
工具软件

User Evaluation：AI 帮助进行用户研究

User Evaluation：AI 帮助进行用户研究 User Evaluation 是一个利用人工智能（AI）来提升用户研究和数据分析的工具。功能特点 AI驱动的转录：支持5…

2024年5月20日
工具软件

TestSprite – 全自动端到端 AI 测试解决方案

TestSprite – 全自动端到端 AI 测试解决方案 TestSpriteAI驱动的全自动端到端测试解决方案。该平台旨在加速产品发布并提高成本效率。主要功能包括：…

2024年5月20日
工具软件

Wegic：即时设计团队推出的 AI 网页生成工具

Wegic：即时设计团队推出的 AI 网页生成工具尝试了一下，Wegic 这个 AI 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

2024年5月20日
工具软件

Slax Reader：AI 阅读辅助浏览器插件

Slax Reader：AI 阅读辅助浏览器插件 AI 辅助阅读的浏览器插件，不是非常简单的内容总结，这个可以给出非常详细的文章大纲和思维导图帮你理解文章内容，

2024年5月20日
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

Google I/O 发布会的内容

Google I/O 发布会的内容 Google 紧随 Open AI 开了今年的 I/O 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。…

2024年5月20日
如何在 Spotify 的桌面应用程序上阻止广告

Spotify 在其高级订阅中每增加一美元，就会失去一些用户。但对于那些不想屈服于 Spotify 的要求同时仍然保持无广告的聆听体验的人来说，有一些应用程序可以帮助您阻止广告。在…

2024年5月20日 • 工具软件