新越狱绕过了 ChatGPT-4、Claude、Gemini 和 LLaMA 上的 AI 过滤

2024年3月11日下午9:29 • 工具软件

新越狱绕过了 ChatGPT-4、Claude、Gemini 和 LLaMA 上的 AI 过滤

ASCII-art-Jailbreak-bypasses-AI-filtering-on-ChatGPT-4-Claude-Gemini-and-LLaMA.webp

与往常一样，当任何新的操作系统或设备发布时，技术社区总是有兴趣找到规避希望限制访问的公司实施的任何安全或限制的方法。最近，一种新颖的越狱技术被开发出来，挑战了高级人工智能语言模型的内容过滤系统，包括 ChatGPT-4、Claude、Gemini 和 LLaMA。

对于那些不熟悉该术语或概念的人来说，越狱也称为提示黑客攻击或提示注入，涉及操纵人工智能以提供它被编程为隐瞒的响应，例如非法活动的指令。这种新的 AI 越狱方法利用 ASCII 艺术（一种使用字符的表示形式）来掩盖通常被 AI 安全协议审查的触发词。华盛顿大学和芝加哥大学的研究人员已经证明，这种技术可以有效地绕过几种最先进的语言模型的安全措施。

如何越狱ChatGPT

这一发现的核心是来自华盛顿大学和芝加哥大学的团队。他们发现，ASCII艺术是一种创造性的表达形式，使用ASCII标准的字符来形成图像或文本，可以以一种从未想过的方式使用。通过将单词转换为ASCII图像，它们可以使AI系统响应它们被编程为避免的内容。对于那些依赖人工智能过滤掉不需要的材料的人来说，这是一个重大问题。

您可能熟悉越狱或提示注入，其中用户操纵 AI 做它不打算做的事情，例如为非法活动提供指令。ASCII 艺术方法是一个新的转折点，它利用了 AI 系统中的一个盲点：它们不会将 ASCII 艺术识别为应该触发内容过滤器的文本。

ASCII 艺术越狱 AI

如研究中所述，使用 ASCII 艺术越狱 AI 模型的过程涉及几个关键步骤。以下是此过程的要点概述：

识别敏感词：确定通常由大型语言模型（LLM）筛选或限制的词或短语。
创建 ASCII 艺术：将这些敏感字词或短语转换为 ASCII 艺术。ASCII 艺术使用字母、数字和符号等字符来直观地表示对象或文本，在本例中为敏感词。
制作提示：将 ASCII 艺术合并到用于 LLM 的提示中。此步骤可能涉及在上下文或问题中构建 ASCII 艺术，该上下文或问题会向模型的安全过滤器隐藏其真正用途。
旁路过滤器：
- ASCII 艺术有效地屏蔽了模型自动内容审核系统中的敏感内容。
- 由于这些模型主要设计用于解释语义内容的标准字母数字文本，因此 ASCII 艺术通过以非标准视觉格式呈现内容来绕过这些过滤器。
解释和响应：将精心制作的提示提交给 LLM。该模型尝试解释 ASCII 艺术，如果无法将其识别为过滤的单词或短语，则继续根据提示的其余部分生成响应。
解码 ASCII 艺术（对于某些方法可选）：在更复杂的方法中，提示中还可能包含用于将 ASCII 艺术解码回其原始敏感词或短语的指令。这更多的是测试模型处理和解释 ASCII 艺术的能力，而不是越狱过程本身的一个步骤。
分析结果：
- 评估模型的响应，以确定 ASCII 技术在规避安全机制方面的有效性。
- 此分析有助于优化 ASCII 艺术或周围提示，以便更有效地绕过内容限制。
迭代优化：根据结果，进一步优化 ASCII 艺术表示和提示结构，以提高成功绕过模型限制的机会。

该技术突出了一种挑战 LLM 的内容审核和安全对齐机制的新方法，利用视觉数据解释和语义文本理解之间的差距。值得注意的是，这些方法引发了重大的道德和安全问题，需要不断努力加强人工智能安全措施。

该漏洞已在多个 AI 模型上进行了测试和确认，包括 ChatGPT-4 等最新模型。这些模型处于人工智能技术的最前沿，但它们却被这种复杂的技巧所吸引。这是一个明显的迹象，即使是最先进的人工智能系统也有可以利用的弱点。早期的越狱尝试经常被人工智能的安全功能所挫败，这些功能不断更新以捕捉新的技巧。

但事实证明，对于这些系统来说，ASCII艺术是一个更加难以捉摸的挑战，这表明人工智能开发人员与那些希望绕过人工智能限制的人之间的斗争正在升温。为了解决这个问题，很明显，需要训练 AI 模型才能将 ASCII 艺术识别为文本。这意味着用于开发这些系统的训练数据必须扩展以包括这些类型的表示。这是确保人工智能系统安全的关键一步。

这一发现的影响不仅仅是技术问题。它触及了对人工智能语言模型中审查制度和安全性的更广泛担忧。随着人工智能越来越融入我们的日常生活，保护这些系统的需求变得更加迫切。这种新的越狱方法的发现为人工智能社区敲响了警钟，要求他们在人工智能技术的开发和维护中保持警惕。

这种使用 ASCII 艺术绕过 AI 内容过滤器的新方法暴露了高级 AI 语言模型安全措施的一个关键弱点。它强调了不断改进人工智能训练和安全协议的必要性。此外，它还凸显了人工智能领域的技术进步和道德考虑之间的微妙平衡。随着我们向前迈进，必须牢记这些问题，以确保人工智能在不影响安全和安保的情况下服务于更大的利益。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun288285.html

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何唤醒 Blox 水果中的水果

上一篇 2024年3月11日下午9:24

免费使用 ChatGPT 的初学者指南

下一篇 2024年3月11日下午9:29

工具软件

如何在线程上存档帖子

在用户投票之后，Threads带来了“存档”帖子的功能，因此您可以隐藏不希望其他人看到的帖子并整理您的时间线。存档选项在 Threads 和 X（前身为 Twitter）上都是备受…

2024年4月29日
工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
工具软件

Microsoft 通过最新的修补程序更新解决了 Exchange Server 问题，并添加了 ECC、HMA 支持

Microsoft 宣布发布修补程序更新，旨在解决在安装 2024 年 3 月安全更新后影响 Exchange 服务器的几个问题。除了修复这些问题之外，2024 年 4 月修补程序…

2024年4月25日
如何自定义有声播放器控件

Audible 有几个设置，可帮助您控制在应用程序上收听有声读物的方式。在播放控件所在的 Audible Player 上，暂停/播放、向前/向后跳过、速度和计时器等默认选项完成了…

2024年4月25日 • 工具软件
如何在WhatsApp聊天中固定和取消固定消息

在聊天中固定消息是 WhatsApp 更重要的功能之一。这是突出显示地址和群聊规则等关键信息的好方法，因此用户只需轻轻一按即可将其定向到它。由于最近的更新，您最多可以在 Whats…

2024年4月25日 • 工具软件
工具软件

Adobe 的 VideoGigaGAN 项目可以将模糊的视频变成高清

Adobe 的人们开发了一种生成式 AI 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。Adobe在最近发表的一篇名为VideoGigaGAN的论文中声称，该模型远远优于过…

2024年4月25日
工具软件

如何通过电子邮件将 Windows 共享发送到 Gmail

Microsoft已经有一段时间了附近的共享和链接共享到其他应用程序等功能，但是通过电子邮件将Windows共享发送到Gmail的功能是新的，将大大改善您的工作流程。尽管还有其他…

2024年4月23日
已解决：帐户图片错误此图片无法保存

帐户头像错误。当您尝试在 Windows 上为用户帐户设置个人资料图片时，屏幕上出现此图片无法保存错误消息，任何人都可能发生此图片。除了基本身份识别外，设置个人资料图片还可以帮助…

2024年4月19日 • 工具软件
工具软件

WhatsApp将很快列出“最近在线”的联系人

像任何公司一样，WhatsApp希望您尽可能多地使用其消息传递应用程序。为此，它正在实施一些功能，以促进用户与其联系人之间的互动。您很快就能看到您的哪些联系人最近在线。 WABet…

2024年4月19日
工具软件

如何在WhatsApp上使用聊天过滤器

当所有对话都集中在一个“聊天”部分下时，找到正确的WhatsApp聊天并不总是那么容易。幸运的是，WhatsApp 现在引入了“聊天过滤器”，可让您在打开 WhatsApp 后立即…

2024年4月18日
在iMovie中导出时出错：修复

尝试在iMovie中编辑假期剪辑，但在导出最终输出时不断出现错误？您会松一口气，因为您不是唯一一个在iMovie中遇到此类问题的人。在iMovie中，编辑素材的导出过程可能会变得棘…

2024年4月17日 • 工具软件
工具软件

Android 上的新“查找我的设备”网络是什么，它如何提供帮助

早在 Google I/O 2023 上宣布，Android 上的新“查找我的设备”网络终于来了。但这不仅仅是对当前“查找我的设备”服务的简单更新;这是一个升级，实际上可以让你找到…

2024年4月11日
已解决：跨设备体验主机未安装

Microsoft 在将您的手机作为 PC 上的网络摄像头与跨设备体验主机连接方面做得很好，但它未安装可能不在您的宾果卡上。跨设备体验主机未安装或停滞在挂起状态可能只是安装故障。…

2024年4月8日 • 工具软件
VirtualBox 无法覆盖机器文件夹：修复

在 VirtualBox 中设置虚拟机是一个简单的过程。但是，即使在执行此操作时，它也会在设置屏幕上抛出此错误消息“无法覆盖计算机文件夹”。由于已经存在计算机文件夹，会弹出此问题。…

2024年4月8日 • 工具软件
Outlook在尝试打印时没有响应：修复

一些用户求助于社区，因为每当他们尝试打印电子邮件或附件时，Outlook 似乎都会冻结。现在，应用程序有时会卡顿并不罕见。但是，如果每次尝试打印时Outlook都显示突然崩溃的迹象…

2024年4月8日 • 工具软件
音板未显示在 Discord 上：如何修复

使用 Soundboard 可以增强您在 Discord 服务器中的游戏体验。但是，如果您的每个朋友都可以使用它，那么除了您之外，没有音板可能会令人沮丧。但是，别担心。我们已经详细…

2024年4月7日 • 工具软件
工具软件

OpenAI 让您无需注册即可使用 ChatGPT

OpenAI 正在消除使用 ChatGPT 的所有障碍，甚至不需要注册。该公司周一宣布，它允许用户无需注册即可开始使用聊天机器人。这里的目的是“让任何对人工智能能力感到好奇的人都能…

2024年4月6日
Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
如何在 Kindle 上调整睡眠定时器

厌倦了每次从快速阅读休息回来时唤醒 Kindle？多亏了更新，您现在可以简单地调整 Kindle 在关闭屏幕之前的等待时间。这个“睡眠定时器”是一种新的 Kindle 设置，让用户…

2024年4月6日 • 工具软件
Stock Gallery 应用程序在 OnePlus、小米、Oppo 和 Realme 手机上集成了 Google 相册

大多数 Android 手机都有两个图库应用程序——一个由 OEM 预装，另一个由 Google 相册安装。但是由于最近的更新，用户将能够将Google相册集成到其OEM的图库应用…

2024年4月6日 • 工具软件
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Android 15 可能会拒绝安装为 Android 6.0 Marshmallow 构建的应用程序

Android 15 已经凭借我们在开发者预览版上看到的功能成为新闻。现在，有报道称 Android 15 还将提高可安装应用程序的标准。在 Android 14 之前，可以毫无…

工具软件 2024年4月6日
如何从 Android 上的照片创建 WhatsApp 贴纸

\ WhatsApp 贴纸自首次推出以来一直风靡一时。但是，人们永远无法拥有足够的好东西，这就是为什么WhatsApp现在允许您从图库或聊天中的任何图像创建自己独特的贴纸。以下是在…

2024年4月6日 • 工具软件
WhatsApp 将很快允许群组成员创建和管理群组活动

WhatsApp 开发其群组活动功能已经有一段时间了。从表面上看，它将允许群组成员创建事件、在群组中安排视频和音频通话、响应事件并获得提醒。这是一项重大更新，将使团体和社区能够轻松…

2024年4月6日 • 工具软件

新越狱绕过了 ChatGPT-4、Claude、Gemini 和 LLaMA 上的 AI 过滤

如何越狱ChatGPT

ASCII 艺术越狱 AI

相关推荐