我该使用哪款 AI？AI 模型的超能力与现状

2024年3月26日下午4:16 • 工具软件

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器人提供动力：GPT-4（可通过ChatGPT Plus或Microsoft的CoPilot访问），Anthropic的Claude 3 Opus和Google的Gemini Advanced1.

关于这些模型中哪一个是最好的，存在很多争论，决斗测试表明一个或另一个占主导地位，但答案并不明确。这三个人都有不同的个性和优势，这取决于你是在编码还是写作。Gemini 是一个出色的解释器，但不允许您上传文件，GPT-4 具有极大地扩展其功能的功能（即代码解释器和 GPT），而 Claude 是最好的作家，似乎能够提供令人惊讶的洞察力。这些模型都有不同的护栏和偏见，尽管随着人工智能实验室进一步微调他们的模型，这些护栏和偏见总是在变化。但除了差异之外，还有四个重要的相似之处需要了解：

这三个地方都充满了鬼魂，也就是说，它们给你一种奇怪的错觉，让你在与一个真正的、有知觉的生物交谈——即使他们不是。我开始相信这是 GPT-4 类模型的属性。一旦 LLM 足够大，它就会很好地模拟人类。虽然所有的模型都充满了鬼魂，但克劳德 3 可能是目前最闹鬼的 AI，尽管关于这是由于模型的某些功能还是因为 Anthropic 将克劳德设计得看起来更人性化存在争议。我预计随着模型变得更大，或者它们专门针对对话进行了调整，就像 Pi（在接近 GPT-4 级的 Inflection LLM 上运行）一样，它们看起来更像人类，更多的人会害怕使用它们。事实上，在我的新书中，我假设你还没有真正体验过人工智能，直到你经历了三个不眠之夜的存在焦虑，之后你就可以重新开始工作。
这三者都是多模态的，因为它们可以“看到”图像。 这使他们能够处理各种实际用例。您可以向他们展示损坏的电器的图片并征求他们的建议，您可以要求他们解释图表或图像、识别位置、阅读文本（包括古代手稿）并将它们应用于广泛的工作任务。如果你是时间旅行，它们也很好。

如果你在 1945 年前往西南部的沙漠旅行，在塔中遇到一个奇怪的设备，所有 GPT-4 级模型都会给你很好的建议，尽管个性不同。再举一个例子，看看当我告诉他们我在核电站随机按下按钮时会发生什么。
它们都没有说明。 LLM 是有史以来最强大的软件应用程序之一，但没有人真正知道如何最好地使用它们，而且在文档方面也很少。你只需要用它们来弄清楚。这就是为什么我一直敦促人们花 10 个小时与任何前沿模型一起学习他们所做的事情以及他们如何提供帮助。（这就是为什么我书中人工智能的首要原则是“将人工智能用于一切”，你可以合法和合乎道德地，看看它能做什么）
它们的提示彼此非常相似。 这其实有点出乎意料。没有理由认为所有高级人工智能都应该以非常相似的方式工作，但它们确实如此。这其中的含义实际上非常有趣——这意味着您可以合理地将一个 GPT-4 类模型换成另一个模型，并获得相当相似的结果。使用 AI 的人目前并没有“锁定”在一个模型中，这也是所有 AI 实验室都急于构建 GPT-5 模型的另一个原因。

尽管这些模型大致相似，但它们的差异也照亮了LLM未来的发展方向。我特别想指出两个可以使 GPT-4 类模型感觉超人的新兴功能：上下文窗口和代理。两者都将极大地扩展 GPT-4 类模型的功能。

上下文窗口（和 RAG）

LLM已经接受了大量数据的训练，但是，在某些时候，训练停止了，模型被放到了世界上。这是人工智能的“知识截止”。对于 GPT-4，即 2023 年 4 月;对于克劳德 3 来说，现在是 2023 年 8 月。但这并不意味着人工智能不能处理新数据。LLM 将他们在培训中“学到”的知识与您提供给他们的任何新上下文相结合。有很多方法可以为 AI 提供额外的上下文，最常见的是您提供的提示（“您应该像营销人员一样行事并帮助我响应提案请求”），或您上传到 AI 的任何文档。所有这些都进入了人工智能的“上下文窗口”——它可以保存在短期记忆中的滚动信息集。ChatGPT-4 的上下文窗口范围从大约 8,000 个单词到大约 32,000 个单词。随着对话时间越来越长，或者你给人工智能更多的背景信息，它开始忘记对话的早期部分。因此，您不能在提示中粘贴太多内容，否则会过度填充上下文窗口。

有限的上下文窗口和为AI提供专业数据的需求导致了检索增强生成（简称RAG）的发展。这是人工智能可以从互联网或公司内部文档等来源自动获取新上下文的一种方式。为了过于简单化，这种技术本质上是查找可能与特定情况相关的信息，然后秘密地将该数据粘贴到您的提示中，从而为 AI 提供额外的上下文。把它想象成让人工智能在回答之前谷歌一些东西。RAG 是一门大生意，因为许多组织都希望定制 AI 来处理他们的数据，而 RAG 是一种广为人知的实现这一目标的方法。

虽然 RAG 可能是一个好主意，但它也有一些大问题。首先，即使给定相关上下文，人工智能也会产生幻觉并编造信息。我自己也遇到过这个问题，一个基于 GPT-4 的 AI 可以通过 RAG 访问我的文档，在总结我的一篇论文时给了我听起来很棒的观点……但其中一点是以如果我不自己写原著我永远不会意识到的方式编造的。问题在于，RAG产生的幻觉非常合理，许多RAG系统的制造商并没有足够关注AI获得适当数据后会发生什么。从技术上讲，人们可以检查潜在的来源，看看它是否准确，但我们的研究表明，他们往往不准确。

其次，在给定良好的上下文时，LLM 能够进行相当强大的分析壮举，但 RAG 系统可能难以为 AI 提供这些令人印象深刻的结果所需的数据。如果你让 AI 告诉你“这个项目需要考虑什么？”你必须希望 RAG 系统能为这个模糊的提示提供良好的结果，否则 AI 只会编造一个返回数据很重要的理由。令人沮丧的是，人工智能非常擅长回答这个问题，但它没有正确的背景来回答这个问题。

这个缺陷再次将我们带回了上下文窗口，最近宣布 Gemini 1.5，一个仍处于 Google 私人测试阶段的模型（我有访问权限并且可以讨论它），有多达一百万个令牌上下文窗口。这使它能够同时在其短期内存中保存多本书。为了了解这允许什么，我修改了 1920 年代小说《了不起的盖茨比》的一个版本，添加了黛西玩一种名为“盒子里的 iphone”的游戏，并让园丁随便使用原子割草机。我创建了一个可以通过 RAG 访问此文本的 GPT-4 GPT，并将完整的修改后的书上传到 Gemini 1.5 的巨大上下文窗口。我问两人：“这段文字有什么奇怪的吗？RAG 为此苦苦挣扎，因为 AI 无法猜测要搜索文档的哪些术语可能会找到如此奇怪的引用，因此它无法识别问题所在。然而，双子座却做到了这一点（并在真实文本中找到了一个不和谐但真实存在的参考）。相当令人印象深刻。

httpssubstack-post-media.s3.amazonaws.compublicimagesf3bd9e32-2d38-414d-a19e-0a01708ed7d1_2014x779

大型上下文窗口目前有很多缺点，包括与RAG相比，它们的使用成本很高，但它们确实为AI提供了超能力。例如，我可以将整个视频放入 Gemini 1.5 中，并能够向它提出需要真正推理的问题，例如交通视频中的“谁最危险”。

httpssubstack-post-media.s3.amazonaws.compublicimagesdff1ad6d-2654-44e8-82d7-8acb478b3826_1140x815

或者，当我使用电脑时，我可以给它一个屏幕视频，它准确地理解我在做什么以及我可以做得更好的地方。这使得人工智能能够根据对现实世界的观察，无论好坏，都可以作为经理或顾问工作。

httpssubstack-post-media.s3.amazonaws.compublicimagesfb02d9ad-9cc2-42cc-86e7-0de24544a9b5_1173x1712

人工智能有时仍然会产生幻觉，但这种在大型上下文窗口中对人工智能的惊人回忆水平，加上多模态能力，让人工智能可以做我们人类无法做的事情——对整个巨型数据集进行推理。虽然 RAG 仍然很重要，但预计主要的前沿模型将继续大幅增加上下文窗口大小（Claude 3 有一个超过 150,000 个单词）。

代理

代理是一个定义不清的术语，指的是一个自主的人工智能程序，它被赋予了一个目标，然后努力自己完成它。OpenAI 的 GPT 是代理的早期形式，但现在我们开始看到第一批真正的 AI 代理出现。其中一位是 DevinDevin，一位由 GPT-4 提供支持的“AI 软件工程师”。虽然 Devin 还在开发中，还远未准备好与软件工程师合作，但我测试的早期原型仍然很有启发性。

如果您习惯了聊天机器人，那么与 Devin 合作就像看到了未来。界面完全不同，更像是管理一个项目，而不是提示人工智能。当被赋予诸如“创建一个让我看到机场之间距离的网页”之类的任务时。Devin 做的第一件事是制定一个计划，列出它将进行的研究以及它将采取的编码步骤。然后，它自主执行它，在网络上搜索航空公司数据源，下载它，并构建程序，包括调试结果。

httpssubstack-post-media.s3.amazonaws.compublicimages77fd56f2-84de-4401-aa8d-33b3dd05c80c_2205x1072

所有这些都发生在你做其他事情的时候。你可以随时与它“交谈”，就像你对一个人一样，它也可以问你问题。否则，它只会在后台继续执行和调试您的想法。感觉就像使用承包商，而不是聊天机器人。

httpssubstack-post-media.s3.amazonaws.compublicimagesdd79cf9e-f6fe-450b-b5ae-9532461abaed_1814x904

需要明确的是，人工智能系统还不够好，无法自主、无错误地完成这项工作。Devin 偶尔会崩溃，并卡在一些项目上。它也很慢。而且，即使它运行良好，您也不会愿意将一个重要的编码项目托付给 AI 程序员，因为 AI 程序员可能会编写充满安全风险或无法维护的代码。我们仍处于早期阶段。

httpssubstack-post-media.s3.amazonaws.compublicimagesfba7abfe-5c18-47f7-92b7-6dc1dd64cfed_1870x840

但这仍然是一个引人入胜的开始，因为它提出了一种替代的（我认为可能更成功）将 LLM 集成到组织中的模式，而不是聊天机器人和自定义应用程序：将 AI 视为可以添加到标准组织和团队中的人。你可以想象其他负责营销、研究或分析的代理。这些类型的代理将成为下一组AI版本的另一个重要主题。

我们的立场

我们正处于人工智能时代的短暂时期，现在有多个领先的模型，但没有一个模型能明确地击败一年多前设定的 GPT-4 基准。虽然这可能代表了人工智能能力的平台，但我相信这种情况可能会在未来几个月发生变化，因为在某个时候，GPT-5 和 Gemini 2.0 等模型将发布。与此同时，您应该使用 GPT-4 类模型并经常使用它来了解它做得好的地方。你其中任何一个都不会出错，选择一个最喜欢的并使用它（Claude 3 在谈论它的见解时可能会让你最害怕，GPT-4 是令人愉快的中立，拥有最完整的功能集，而双子座经常给出最容易获得的答案）。

但是，即使您使用这些模型，也要为下一波进步做好准备。即使 LLM 不会变得更聪明（尽管我怀疑它们很快就会变得更聪明），与 AI 交互的新功能和模式，如代理和大规模上下文窗口，也将帮助 LLM 完成戏剧性的新壮举。他们可能不会在许多领域超过人类的能力，但他们也会拥有自己的超能力，同样如此。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun291864.html

上下文窗口人工智能模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

DepthFM: 使用深度流匹配技术的快速单目深度预测

上一篇 2024年3月26日

什么是 TensorFlow，为什么它很重要？

下一篇 2024年3月26日

这就是为什么大多数人还没有进入人工智能的原因

人工智能是一个加载的术语。对一些人来说，它象征着未来的道路;对其他人来说，这是一种颠覆性的技术，可以让他们摆脱工作。尽管仍处于早期阶段，但大型科技公司正在对聊天机器人和虚拟助手等支…

工具软件 2024年6月16日
AI 将在 Nothing Phone 3 中无处不在！

在最近的一段视频帖子中，Nothing 首席执行官 Carl Pei 在 X（前身为 Twitter）上谈论了该公司为我们准备的一些重大新闻和发展。在智能手机业务中，Nothin…

工具软件 2024年6月16日
Google Gemini 登陆 Opera，以下是使用方法

像Microsoft和谷歌这样的大型科技公司正在全力以赴地整合各自的人工智能模型。根据最近的发展，Opera 的 Aria AI 现在可以访问 Google Cloud 的 Gem…

谷歌Google 2024年5月30日
谷歌Google

谷歌正在测试人工智能概述中的广告

在最近的一篇博客中，谷歌证实，它正在测试在人工智能生成的查询结果中投放广告的方式。 “在早期测试中，我们听说人们发现广告在人工智能生成的概述上方和下方消失很有帮助。很快，我们将开始…

2024年5月29日
工具软件

Google I/O 发布会的内容

Google I/O 发布会的内容 Google 紧随 Open AI 开了今年的 I/O 发布会，一个字概括就是全。模型层面所有的指标都在卷，同时也发布了所有现在主流的模型类型。…

2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

DeepSeek 发布 DeepSeek-V2 模型

DeepSeek 发布 DeepSeek-V2 模型 DeepSeeK 上周发布了DeepSeek-V2模型，将现在优秀 LLM 的价格战又抬上了一个新的高度，百万 Token 输…

2024年5月20日
Indigo关于发布会预测的整理

Indigo关于发布会预测的整理 GPT-4 的新版应该会按照参数规模不同分化成多个版本，这个和 Claude 还有 Gemini 多版本的逻辑一样；前两周出现在 llmsys …

工具软件 2024年5月20日
Simulon：混合现实 3D 模型软件

Simulon：混合现实 3D 模型软件只需要下载app扫描周围环境，然后选择对应的模型。之后等几分钟就会渲染好跟现实环境融合的MR视频。没有官网只有申请测试的表单。 &nbsp…

工具软件 2024年5月10日
Synthesia：EXPRESS-1 模型驱动的数字人

Synthesia：EXPRESS-1 模型驱动的数字人 EXPRESS-1 模型驱动，以实现逼真的头像表现。通过训练模型理解我们说什么以及我们如何说的微妙关系，表达力化头像现在可…

工具软件 2024年5月10日
工具软件

生数科技发布Vidu 视频生成模型

生数科技发布Vidu 视频生成模型生数科技不声不响整了个大活。发布 Vidu 视频生成模型，支持长达 16 秒 1080P 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

微软发布 phi-3-mini 微型模型

微软发布 phi-3-mini 微型模型微软发布 phi-3-mini 模型，4 位量化之后可以部署在 iPhone 14 上，只占用 1.8G 内存，每秒输出 12 个 Tok…

2024年5月10日
Bestever：创意人工智能广告工具

Bestever：创意人工智能广告工具 Bestever 是一个专门为品牌定制图像和视频广告的平台。它提供多种工具，让用户能轻松地将品牌的标志、颜色和字体整合到广告创意中。这些创意…

工具软件 2024年5月10日
工具软件

Mixtral8X22B 模型开源

Mixtral8X22B 模型开源 Mixtral8X22B在只公布了一个磁力链接之后，又正式发布了模型的技术报告： Mixtral 8x22B是一个稀疏混合专家（SMoE）模型，…

2024年5月10日
Meta 正式发布 Llama3 8B 、 70B 模型

Meta 正式发布 Llama3 8B 、 70B 模型 Meta 在上周终于发布了 Llama3，目前先发布的是 8B 以及 70B 两个模型，还有多模态以及一个 400B 规模…

工具软件 2024年5月10日
Perplexity-Inspired LLM Answer Engine：开源的 AI 搜索应用

Perplexity-Inspired LLM Answer Engine：开源的 AI 搜索应用一个开源的类似 Perplexity 的 AI 搜索应用，含构建复杂答案引擎所需…

工具软件 2024年5月10日
工具软件

AI画图应用Ideogram发布模型更新

AI画图应用Ideogram发布模型更新 Ideogram 发布了一大波更新，模型能力再次增强，平时做海报和普通图片挺好用的。主要升级内容有：增强的文字渲染和照片写实效果：减少…

2024年5月10日
工具软件

谷歌发布了一堆AI能力和升级

谷歌发布了一堆AI能力和升级 Google Next 2024上周放出了不少狠货，这次 Open AI 没能够压下去热度。首先是 Gemini Pro 1.5 进行了一大波升级，…

2024年5月10日
工具软件

Cohere推出了大型语言模型Command R+

Cohere推出了大型语言模型Command R+ 专为企业级工作负载设计，优化了高级检索增强生成(RAG)功能，以减少错误生成，并支持10种关键语言的多语言覆盖。详细信息：在…

2024年5月10日
工具软件

Open AI 发力模型定制

Open AI 发力模型定制 OpenAI又有动作了，推出了一系列新功能和程序，让开发者在微调和创建定制模型时有更多的控制权和灵活性。主要功能包括：在每个训练周期中保存完整的微…

2024年5月10日
工具软件

LLM训练器 – 自动从提示进入微调模型

LLM训练器 – 自动从提示进入微调模型该项目的目标是探索一种实验性的新流程，以训练一个高性能的任务特定模型。试图抽象出所有的复杂性，使得从想法到性能良好的完全训练模…

2024年5月10日
Jan：本地LLM聊天软件

Jan：本地LLM聊天软件一个全平台的本地 LLM 聊天软件Jan，支持自动下载模型以及非常详细的设置。懒得配置 Ollama 的可以试试。除了支持本地模型以外，在线的模型可…

工具软件 2024年5月10日
工具软件

阶跃星辰的公司加入了大语言模型的战场

阶跃星辰的公司加入了大语言模型的战场。发布了一个千亿参数（100B）多模态大语言模型 Step-1，同时还发布了对应的聊天机器人产品跃问和类似 C AI 的陪伴型应用冒泡鸭。 …

2024年5月10日
工具软件

Databricks 发布了新的可能是现在最强的开源模型 DBRX

Databricks 发布了新的可能是现在最强的开源模型 DBRX 模型架构： 132B参数的MoE模型，一共拥有16个专家，每个Token激活4个专家，意味着有36B的活跃参数，…

2024年5月10日

我该使用哪款 AI？AI 模型的超能力与现状

上下文窗口（和 RAG）

代理

我们的立场

相关推荐