ChatGPT 代码解释器：GPT4.5？

2023年7月22日下午10:53 • 工具软件

Windows 3.0跃升至95，以传达他们（现在是标志性的）重新设计。Microsoft Excel从5到7，以便与MS Office的其余部分同步，MacOS和Windows都跳过了版本9以吸引X世代。 React从0.14跃升至v15，而Kubernetes和Go则展示了系统开发人员对破坏任何东西/计数到2的承诺/无法。

那么我们应该如何对基础模型进行版本控制呢？ 对于研究人员来说，这是一个有点陌生的概念，他们会随便训练400个无名的LLM来证明一个观点，但随着人工智能工程师在其上构建产品和业务，这一点变得越来越重要。

在迄今为止生成式AI的简史中，我们已经有一些值得注意的案例研究。虽然 GPT1→2→3 的进展每次都是向前迈出的明显一步，而 Midjourney 4→5 预示着巴黎世家教皇，但Stable Diffusion 1→2 等其他发展更具争议性。次要版本升级应该是没有争议的 – 它可能意味着从相同的检查点开始并添加更多培训 – 如SD v1.3→1.4→1.5…

…这给我们带来了今天的主题半点 GPT 版本作为成帧设备

您可能还记得，GPT3.5 是与 ChatGPT 一起宣布的，追溯包括在其text-davinci-003 并职权范围内。这完成了两件事：code-davinci-002

提高人们对 GPT3.5 型号明显优于 GPT3（2020 年份）型号的认识，因为 1）添加代码，2）指令调整，3） RLHF/PPO
表明新的聊天范式是通用AI的前进方向
3

我对代码解释器模型的评论的中心框架主题将围绕：

提高对 GPT4 此更新重要性的认识
4
暗示这种新范式是通用人工智能的前进方向

这两种品质使我得出结论，代码解释器应该被视为事实上的GPT 4.5，如果有一天有一个API，我愿意打赌它也将被追溯到法律上的名称。

但我们超越了自己。

是时候回顾一下了，就像我们为ChatGPT，GPT4和Auto-GPT所做的那样！

代码解释器执行摘要

代码解释器是“一个实验性的ChatGPT模型：

“，可以将 Python 写入 Jupyter Notebook 并在沙箱中执行它沙箱，该

与其他用户和互联网隔绝
7
支持高达 100MB 的上传/下载（包括 .csv、.xls、.png、.jpeg、.mov、.mp3、、个文件。.epub.pdf、.zip 整个 Git 存储库的
8

)
预装了（和），（），（），Pymovie（330多个库，如Pandas（数据分析），Matplotlib，Seaborn，Folium图表 and 地图pytesseractOCR枕头图像处理（ffmpeg），Scikit-Learn和PyTorch and 和TensorflowML)
9
.由于（2），您还可以上传额外的依赖项，例如 GGML。.

它于 23 月 2 日作为 ChatGPT 插件更新的一部分宣布，其中包括月获得了访问权限推出的著名演示安德鲁·梅恩和格雷格·布罗克曼。Alpha 测试人员在 <>、<> 月和 <> 月。最后，它作为选择加入测试版功能向所有~<>m

ChatGPT Plus 用户 6 月 8 日至 <> 日的

由于这些功能可以在代码中灵活且无限地组合，因此很难枚举所有功能，但通过示例（例如p5.js学习游戏创建 Discord 上的，绘制模因，创建交互式仪表板，数据预处理，包括季节性，编写复杂的AST操作代码，大规模人脸检测是有用的，请参阅 #code解释器输出通道）并浏览库列表

httpssubstack-post-media.s3.amazonaws.compublicimages55543b86-b8ec-45db-84ec-649fe0237097_3208x2000 — 样本由 Ethan Mollick 制作的，他不了解 Python，但对从代码解释器中获取内容了解很多。Ethan 还将他的经验提炼为一个很长的系统提示符，以获得良好的代码解释器默认值。看到others其他人和其他人。

需要注意的是，代码解释器实际上引入了两个新东西，而不是一个 – 沙盒和模型：

七月份之前的大多数 alpha 测试都强调了 Python 沙箱以及你可以在其中做什么，顺便提到了自主编码能力。
但是GA发布后的重点是 – 这是轶事模型的质量 通过代码解释器提供的
13

似乎比今天的 GPT-4 更好（编写代码，自主完成多个步骤，决定何时不继续并要求用户在一组选项之间进行选择）。

模型的自主性必须被看到才能被相信。这是零人工输入的编码和调试：

httpssubstack-post-media.s3.amazonaws.compublicimagesb4a83c63-7ee7-420e-af20-a08154a0c0de_719x974

模型的进步是为什么开源尝试在三月份的演示之后克隆代码解释器的原因，就像这样，这大多失败了。就像之前的 ChatGPT 一样，代码解释器感觉像是一种进步，因为它将模型与模态捆绑在一起。

限制 – 超出硬件系统规格

环境经常重置代码执行状态，丢失已上载的文件，并且其从故障中恢复的能力受到限制。
它可以做的OCR甚至不接近GPT-4 Vision。
15

.
它会拒绝做它能做的事情，你必须坚持它无论如何都能做到 anyway。
它无法在代码中调用 GPT3/4，因为它无法访问 Web，因此无法执行数据增强等任务，因为它试图编写代码来解决问题。

但总的来说，印象非常强烈：

“Code Interpreter Beta非常强大。它是您的个人数据分析师：可以读取上传的文件，执行代码，生成图表，统计分析等等。我预计社区需要一些时间来充分挖掘其潜力。 Karpathy

“如果这不是一个改变世界、GDP变化的产品，我不确定究竟会是什么。每个有剧本的人每月 20 美元“——roon

16

“我开始搞砸代码解释器，它在接下来的两年里完成了我路线图上的所有事情” – Simon Willison，在今天的播客中

推理：下一个大前沿

之后，随之而来的顶级辩论之一是在我们的George Hotz谈话关于如果GPT-4真的“只是8 x 220B专家”，OpenAI是否“没有想法”。just 8 x 220B experts撇开路由语言模型和开关转换器的工作是像这样的万亿参数类模型的真正PanGu进步，Code Interpreter表明，只要你不将你的进步定义限制在纯粹的LLM推理上，并且OpenAI已经处于领先地位，那么仍然有进步的空间。

2017年，诺姆·布朗（Noam Brown）建立了Libratus，这是一款人工智能，在120万手无限制德州扑克中击败了四名顶级专业人士。主要见解之一？

“神经网络通常会在大约 100 毫秒左右给你一个响应……我们发现，如果你做一点搜索，这，只需一点点相当于让你预先计算的策略大1000倍搜索。它只是吹走了我们一直在进行的所有研究。（摘自带时间戳的视频)

结果是追溯显而易见的（最好的一种显而易见！

在现实生活中，当面临比更容易的问题更难的问题时，人类需要更长的时间来思考。但是 GPT3 需要 ~相同的时间来回答“球是圆的吗？”作为“P = NP 吗？” 如果我们让它花一年时间呢？
我们已经看过小岛等人臭名昭著的《让我们一步一步思考》
17

通过允许其在上下文中将其思维过程外部化，但也需要更多的推理时间，从而大大提高LLM的性能but also take more inference time。光束和思想树类型搜索可以更有效地利用推理时间。
人工智能的每一个伟大飞跃都来自于解锁某种规模。 转换器解锁并行预训练计算。掩蔽语言建模让我们可以放松大量未标记的数据。缩放定律为我们提供了分解模型大小的地图，时间。很明显推理计算/“实时搜索”是下一个前沿领域，允许我们“投入时间”。
18
.

诺姆后来在 2019 年利用这一见解与 Pluribus 解决了 6 方扑克，然后在 2022 年再次与西塞罗合作解决外交问题（感谢来自的搜索算法AlphaGo 和 AlphaZero）。上个月他还在想：

httpssubstack-post-media.s3.amazonaws.compublicimagesf2117c76-7391-46b4-a086-dac2b9c4e880_525x650

2周后，他加入了OpenAI。

Codegen、Sandboxing & the Agent Cloud

一段时间以来，我一直在喋喋不休地谈论LLM编码能力的特殊地位a while。这是人工智能工程师崛起的重要推动力。这不是一个“哦，可爱，这是Copilot，这对开发人员有好处，但别无他法”的故事 – LLMs-that-code通常即使对于不编码的人也很有用，因为LLM是代码之上的完美抽象。

我所知道的最早的“Code Core”实验来自Riley Goodside，他去年的“你是GPT-3，你不能做数学”。

httpssubstack-post-media.s3.amazonaws.compublicimages9ba267fe-a59d-4acc-b86a-46a1c7946c25_540x523 — 这启发了Replit的Amjad Masad和（**节目的朋友**！ Sharif Shameem Lexica的。

这是修补LLM缺陷（做数学，与外部环境交互，可解释性，速度/成本）的最佳方法是利用其编写代码的能力来做LLM之外的事情的第一个迹象。

英伟达的Voyager创建了路线图，以得出合乎逻辑的结论“：

httpssubstack-post-media.s3.amazonaws.compublicimages2f748569-4f3f-440a-b033-36f7896baa0d_4096x1721 — 可能是 2023 年 AI 代理中最重要的图表。源

不过，从Voyager进行概括有一个明显的问题：现实世界比Minecraft更加随机，记录更少，反馈循环更长。从 Minion AI 和的当前代理实现 Multion 到 AutoGPT也都在您的实时浏览器/桌面上运行，使潜在的幻觉和错误成为灾难性的，并创造出相当于始终必须将手放在方向盘上的自动驾驶汽车。

如果你是“代码核心”，你知道这是怎么回事。自从Ada Lovelace开始为Babbage Difference Engine编写代码以来，开发人员一直在现实的分支上进行测试运行。 before it existed为它

.您可以使用语义层改进代码生成，如（节目的朋友！Seek AI 的 Sarah Nagy 已经做到了，但最终知道代码是否会运行并做你期望的事情的唯一方法是创建一个沙箱，比如（节目的朋友！） Shreya Rajpal 的 Guardrails，并生成测试，比如（节目的朋友！Codium AI的Itamar Friedman已经做到了。

大多数代码生成/沙盒可以而且应该在本地完成，但随着 Localhost 的终结越来越近，越来越多的代理构建者和用户意识到需要云基础设施来构建和运行 LLM 推理过程的这些代码段，人们可以非常合乎逻辑地预测代理云的兴起 Agent Clouds 以满足这一需求。这实际上是一种新型的无服务器基础设施需求 – 它不仅是短暂的和以编程方式提供的，而且将具有向非人类操作员提供必要的反馈的特殊功能。不出所料，新生的代理云子行业有大量候选人：

来自Replit的Amjad已经在大声思考
来自E2B的瓦塞克
20

有一个开源的鞭炮微型虚拟机实现
的Ives 来自Codesandbox 也有一个
来自Fly的Kurt在 Fly Machines 五月推出了

你会注意到，他们都使用Firecracker，这是2018年开源的QEMU替代microVM技术亚马逊在（对于一家通常不以OSS领导而闻名的公司来说，这是一个不错的胜利）。然而，一个对比的方法可能来自Deno（在in JavaScriptJavaScript-land中）和Modal（在PythonPython-land中），它们的自我配置运行时在代理开发人员和基础设施提供商之间提供了一个更轻量级的合同，但代价是熟悉度要低得多。

当然，OpenAI必须构建自己的代理云，以便在一个周末为2万客户提供托管和扩展代码解释器。他们多年来一直在工作中使用它，而我们其他人刚刚意识到它的重要性。

通往 GPT-5 之路：代码增强推理

综上所述，我们可以将代码解释器与先前的方法进行对比：

httpssubstack-post-media.s3.amazonaws.compublicimages5fbde6a1-b5e9-4cdb-a4c3-6625ea0cb88c_1434x902

您可以考虑保证主要版本和次要版本碰撞的进步，考虑代码解释器“继续存在”的可能性，因为它解锁了功能，并查看我对代码解释器“GPT 4.5”的看法。

在我们的播客对话中（我最终会插入，但稍后会做显示笔记），我们还将注意到 GPT4 顽固分子的轶事经验，他们坚持认为基线 GPT4 质量已经恶化（Logan 断言服务模型没有变化）也是那些报告代码解释器的输出的人，而不是编写代码。，与原始 GPT4 在被“神经化”之前一样好。假设这是真的（如果没有明确的代码解释器 API 来通过 lm-eval-harness 运行，很难伪造），很可能为代码解释器编写代码所做的额外微调也提高了整体输出质量（我们从研究和 Replit 以及 GPT3.5 自己的代码达芬奇-002 中起源的结果）……使代码解释器的基本模型，没有沙盒，仅在模型质量上就有效地“GPT 4.5”。

杂项笔记不适合任何地方

开放人工智能领导力。Sundar Pichai 在六月份宣布了 Google Bard 的“隐式代码执行”，它执行了简单的无依赖 Python 功能，如数字加法和字符串反转。有趣的事实 – 一个月后，当我重新运行谷歌宣传的相同提示时，它完全失败了！与此同时，OpenAI正在推出一种全新的LLM编码范式。OpenAI遥遥领先。
OpenAI 作为云发行版。由于非常熟悉多个“第二层云”（又名 Cloud Distros），我不禁注意到OpenAI现在是Cloud Distro形状的。它多久才能开始对计算时间、存储容量、引入 IAM 策略以及填写云服务的其余组件收费？它要多久才能删除名称中的“开放”并成为AI云？

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun244308.html

nbsp 代码解释器模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

AI 自动识别图片生成表情包

上一篇 2023年7月22日下午10:49

什么是QcomWlanSrvx64.exe它有什么作用？

下一篇 2023年7月23日上午8:15

如何在Windows本地运行Microsoft Phi-3 AI

Microsoft 的 Phi-3 系列语言模型终于来了。就它们的尺寸而言，它们绝对是一个级别的差异，并且已经证明在许多方面比其他最近发布的型号（如 Llama 3 和 Mistr…

2024年4月29日 • Win 11
微软Microsoft

Microsoft 引入了新的 Windows 11 24H2 更新 CPU 要求

Microsoft 最近增强了即将推出的 Windows 11 版本 24H2 的系统要求，表明有意阻止非常旧的处理器运行最新的操作系统。随着上个月向 Canary 频道发布 Wi…

2024年4月25日
Win 11

被黑客利用的Windows DOS到NT路径转换过程

SafeBreach 安全研究员 Or Yair 最近公布了 Windows DOS 到 NT 路径转换过程中的一系列漏洞，这些漏洞可能允许攻击者在不需要管理权限的情况下获得类似 …

2024年4月25日
微软Microsoft

Microsoft 由于错误警报而暂时撤回 Outlook 安全更新

Microsoft 最近撤回了 Outlook 的安全更新，因为发现它在用户打开 ICS 日历文件时会导致不正确的安全警报。该问题是在 12 月针对 Outlook 桌面应用程序的…

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
此连接不是iPhone中Safari上的私人错误：修复

在iPhone上通过Safari浏览网站时，您可能会遇到此错误提示“此连接不是私人的”消息。有很多可能的原因可以归咎于此。如果您按照以下步骤对 Safari 中的问题进行故障排除，…

2024年4月16日 • 苹果Apple
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
远程桌面无法验证远程计算机的身份：修复

远程桌面连接或 RDC 并非完全防错。有很多设置可能会影响远程桌面连接。连接到远程桌面系统时，可能会出现此错误消息“远程桌面无法验证远程计算机的身份”。通常，主机和远程设备之间的时…

2024年4月1日 • 工具软件
Excel Visual Basic中的运行时错误13类型不匹配：修复

在 Excel 电子表格中执行 Visual Basic 代码时，您可能会遇到以下“运行时错误 13.类型不匹配“提示。Visual Basic 应用程序模块可帮助您增强工作表。但…

2024年3月29日 • 工具软件
工具软件

Array.prototype.map（）期望从箭头函数：Fix 返回值

Javascript 中可能会弹出错误提示“Array.prototype.map（） expects a return value from Arrow Function”（Ar…

2024年3月28日
工具软件

20 种专为内容创作者设计的 AI 工具

20 种专为内容创作者设计的 AI 工具在快节奏的内容创作世界中，人工智能（AI）改变了游戏规则。它提供了大量的工具来简化创作过程，使您能够以更高的效率制作引人入胜的高质量内…

2024年3月28日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
CcmSetup 失败，错误代码为 0x80004005 [已解决]

CcmSetup 失败，出现错误代码0x80004005尝试将更新推送到域中的客户端电脑时经常出现。它是由配置错误、缺少关键服务、防火墙阻止更新或无法访问 MP（管理点）或 DP（…

2024年3月20日 • 工具软件
什么是默认的 Windows 11 密码以及如何在没有密码的情况下登录

默认密码通常是设置或购买新设备时附带的通用预定义密码。Windows 11 没有默认密码，但如果您被锁定，有一些解决方法可以重新获得访问权限。如何在没有默认密码的情况下登录 Wi…

2024年3月20日 • Win 11
Win 11

如何在Windows中使用和配置Sudo

随着 Windows 11 Insider Preview Build 26052 的发布，Sudo 被引入 Windows 11，拥有此版本及更高版本的用户可以使用它来以管理员身…

2024年3月20日
修复：ERR_PROXY_CONNECTION_FAILED错误

许多用户报告说没有互联网连接。代理服务器有问题，或者地址不正确，并在尝试在其计算机上使用浏览器时出现ERR_PROXY_CONNECTION_FAILED错误。要修复此连接错误，您…

2024年3月20日 • 工具软件
找不到 BCryptHash：修复它的 7 种方法

我们最近遇到了McUICnt.exe 找不到入口点，在动态链接库中找不到过程入口点 BCryptHash bcrypt.dll在多个设备上出现错误，有些设备运行 Windows 7…

2024年3月20日 • Win 11