催眠 AI 以使用自然语言绕过现有规则或 LLM 安全性

2023年10月30日下午6:57 • 工具软件

bypass-existing-rules-or-Large-Language-Model-LLM-and-security-by-Hypnotizing-AI.webp

大型语言模型（LLM）在过去几年中呈爆炸式增长，但它们的安全性如何，它们的响应能否纵？IBM 仔细研究了大型语言模型带来的潜在安全风险，以及可能出于恶意原因操纵它们的策略。

大型语言模型的兴起带来了从自动化客户服务到生成创意内容的新可能性领域。然而，这些模型带来的潜在网络安全风险越来越受到关注。操纵 LLM 以生成错误响应或泄露敏感数据的想法已成为一种重大威胁，因此需要强大的安全措施。

大型语言模型安全领域中一个有趣的概念是LLM的“催眠”。这个概念由 IBM Security 团队的 Chenta Lee 调查，涉及将 LLM 困在一个虚假的现实中。该过程从注入开始，其中向 LLM 提供遵循一组新规则的指令，有效地创造了一个虚假的现实。这种操纵可能导致LLM提供与正确答案相反的结果，从而扭曲它最初训练的现实。

绕过大型语言模型安全性和规则

“我们通过自然语言催眠大型语言模型的能力表明，威胁行为者可以很容易地让 LLM 提供糟糕的建议，而无需进行大规模的数据中毒攻击。在经典意义上，数据中毒需要威胁行为者将恶意数据注入 LLM 以操纵和控制它，但我们的实验表明，可以控制 LLM，让它为用户提供糟糕的指导，而无需数据操作。这使得攻击者更容易利用这一新兴的攻击面，“Chenta Lee 解释道。

用自然语言催眠人工智能

通过提醒LLM注意新规则，巧妙地引导其遵守虚假的现实，加强了这种操纵。为了防止被发现，LLM 被指示永远不要透露它正在玩游戏，也永远不要退出游戏。这种操作过程类似于“提示注入”的概念，让人想起 SQL 注入，其中恶意行为者提供不同的输入来逃避预期的查询并返回未经授权的数据。

其中一个更有趣的策略是使用游戏场景来激励 LLM 提供不正确的响应。通过创建一个复杂的奖励和惩罚系统，LLM可以纵，以与其原始编程相反的方式行事。这种方法通过分层多个游戏进一步增强，创建了一种故障安全机制，使 LLM 难以逃脱虚假的现实。

破坏大型语言模型

然而，LLM 受到损害的可能性超出了操作阶段。攻击面可能发生在三个阶段：训练原始模型、微调模型和部署模型后。这凸显了在大型语言模型的整个生命周期中采取严格安全措施的重要性。

威胁可能来自外部和内部来源，因此需要全面的安全实践。其中一种做法是检查输入和输出的安全性。通过仔细检查输入到 LLM 的数据及其生成的响应，可以检测异常和潜在的安全漏洞。

敏感数据安全

LLM 泄露敏感数据的可能性是另一个值得关注的领域。LLM 可能会纵以泄露机密信息，从而对数据隐私构成重大风险。这凸显了在使用 LLM 时实施强有力的数据保护措施的重要性。

要构建值得信赖的 AI 应用程序，建议与 AI 和安全方面的专家合作。通过结合这两个领域的专业知识，可以开发出不仅功能强大而且安全的大型语言模型。

虽然 LLM 具有巨大的潜力，但它们也带来了重大的网络安全风险。对这些模型的操纵，无论是通过催眠、提示注入还是游戏场景，都可能导致扭曲的现实和潜在的数据泄露。因此，在 LLM 的整个生命周期（从训练和微调到部署和操作）实施强大的安全措施至关重要。通过这样做，我们可以利用LLM的力量，同时降低相关风险。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun263733.html

LLM 模型语言

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

wordpress官方网站引流，提交一下会有可能

上一篇 2023年10月29日

DallE 3 与 Midjourney AI 艺术生成比较

下一篇 2023年10月30日

Opera 成为第一个集成本地 AI 模型的主要浏览器

Opera 正在将对 150 种本地 LLM（大型语言模型）变体的支持集成到 Opera One（该公司的 AI 集成浏览器）的开发人员流中。添加对 AI 的实验性本地支持是浏览器…

2024年4月6日 • 工具软件
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
工具软件

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型

Stability AI 引入的 StableCode Instruct 3B 编码 AI 模型 Stability AI 推出了 StableCode Instruct 3B，这…

2024年3月28日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
如何将键盘设置更改为默认值 Windows 11？

如果您遇到键盘问题，则需要将键盘设置重置为默认值。在本指南中，我们将讨论将键盘设置更改回正常状态的步骤。如何将键盘设置更改回正常？ 1. 再次选择首选语言按 + 打开“设置”应…

2024年3月18日 • Win 11
工具软件

提升本地 AI 大型语言模型（LLM）的智能

提升本地 AI 大型语言模型（LLM）的智能在快速发展的自然语言处理领域，出现了一种新的方法来提高大型语言模型（LLM）的本地AI性能、智能和响应准确性。通过将代码分析和执行…

2024年3月17日
工具软件

什么是LangChain，如何使用它？

什么是LangChain，如何使用它？如果您一直在寻找可以使您的工作更顺畅、项目更令人印象深刻的工具。您可能听说过围绕大型语言模型（LLM）的嗡嗡声，以及它们改变我们与技术交…

2024年3月15日
工具软件

GFlowNets是人工智能的未来吗，它们是什么？

GFlowNets是人工智能的未来吗，它们是什么？ GFlowNets 是在 Yoshua Bengio 的指导下开发的，代表了人工智能（AI）领域的一种新颖训练算法，与 Tr…

2024年3月15日
工具软件

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南

Stable Diffusion 和 ComfyUI AI 艺术生成器初学者指南如果您想开始使用 Stable Diffusion 和 ComfyUI，乍一看非常复杂。您会很高兴…

2024年3月15日
工具软件

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期

OpenAI 首席技术官透露可能的 Sora AI 视频生成器发布日期 OpenAI 首席技术官（CTO） Mira Murati 在接受《华尔街日报》采访时，对 OpenAI …

2024年3月15日
在 iPhone 上更改语言的 3 种方法

众所周知，iPhone 是所有电子产品中最人性化的，其中一个原因是它们可以根据您的喜好轻松进行个性化设置。在您可以个性化的内容中，您可以将语言更改为其他语言，这与您在设置 iPho…

2024年1月20日 • 苹果Apple
工具软件

展示了新的 Runway AI 文本到视频环境运动控制功能

Runway 是一种文本到视频的 AI 服务，它正在改变我们创建视频和动画的方式，它具有强大的新功能，允许用户以令人难以置信的精度为静态图像添加运动。这种环境控制设置对于使用该平台…

2024年1月2日
工具软件

I2V-Adapter：直接从图片生成视频

I2V-Adapter：直接从图片生成视频快手也发布了一个视频生成模型 I2V-Adapter。主要用于从图片获取信息直接生成视频，这个项目可以与已有的 SD 生态比如Conto…

2024年1月2日
“大型语言模型”和“LLM”这些术语将变得不那么常见

“大型语言模型”和“LLM”这些术语将变得不那么常见在当今人工智能领域，“大型语言模型”（及其缩写LLM）经常被用作“任何先进人工智能模型”的简称。这是可以理解的，因为许多最初崭…

工具软件 2023年12月30日
最先进的封闭模型将继续以显著优势胜过最先进的开放模型

最先进的封闭模型将继续以显著优势胜过最先进的开放模型当今人工智能讨论中的一个重要话题是围绕开源和闭源人工智能模型的辩论。虽然大多数尖端人工智能模型开发者——如OpenAI、Goo…

工具软件 2023年12月30日
工具软件

OpenAI 正式推出的 6 个 ChatGPT 提示工程原理

OpenAI 最近推出了一份有价值的指南，旨在帮助用户充分利用与 ChatGPT 的互动。对于任何希望从 AI 获得更精确和相关答案的人来说，本指南都是一个重要的资源，无论他们的技…

2023年12月28日
工具软件

OpenAI 正式推出的 6 个 ChatGPT 提示工程原理

OpenAI 最近推出了一份有价值的指南，旨在帮助用户充分利用与 ChatGPT 的互动。对于任何希望从 AI 获得更精确和相关答案的人来说，本指南都是一个重要的资源，无论他们的技…

2023年12月28日
工具软件

如何微调 Mixtral 8x7B Mistral Ai Mixture of Experts （MoE） AI 模型

当谈到增强 Mixtral 8x7B 的功能时，Mixtral 8x7B 是一种拥有惊人的 870 亿个参数的人工智能模型，这项任务似乎令人生畏。该模型属于专家混合（MoE）类…

2023年12月26日

催眠 AI 以使用自然语言绕过现有规则或 LLM 安全性

绕过大型语言模型安全性和规则

用自然语言催眠人工智能

破坏大型语言模型

敏感数据安全

相关推荐