如何使用StreamingLLM提高LLM的速度

2023年10月14日下午8:59 • 工具软件

如果您注意到本地安装的LLM在尝试包含更大的提示时速度变慢。您可能对一种新的解决方案感兴趣，该解决方案可以提高大型语言模型的速度和性能，以StreamingLLM的形式帮助提高LLM的速度和性能。将 Llama 2 和 Falcon 扩展到 4 万个代币，并提供比标准 LLM 快 22 倍的推理速度。

查看下面由AI Jason创建的视频，他解释了有关StreamingLLM的更多信息以及如何使用它来提高本地安装的AI模型的性能。探索这些挑战并探索潜在的解决方案，专注于一个新的研究项目，旨在提高LLM的数据输入能力和效率。

在流应用程序中部署LLM的主要挑战之一是解码阶段的大量内存消耗。这是由于缓存了以前令牌的键和值状态（KV）。流行的LLM，如Llama-2，MPT，Falcon和Pythia，不能推广到比训练序列长度更长的文本，这一事实进一步加剧了这个问题。此限制主要是由于 GPU 内存限制以及这些模型中使用的复杂转换器架构所需的计算时间。

管理大型数据输入的常见解决方案是使用窗口注意力。此方法涉及仅缓存最新的 KV，从而有效地限制需要存储的数据量。但是，此方法有一个明显的缺点：它丢失了有关已删除令牌的上下文。当文本长度超过缓存大小时，窗口注意力的性能会下降，从而导致上下文丢失和生成内容质量下降。

这个问题导致研究人员观察到一种有趣的现象，称为注意力下沉。他们发现，该模型比后来的代币更关注初始代币，即使初始代币在语义上并不重要。他们发现，可以利用这种现象在很大程度上恢复窗口注意力的性能。

基于这一分析，研究人员引入了StreamingLLM，这是一个有效的框架，使使用有限长度注意力窗口训练的LLM能够推广到无限序列长度，而无需任何微调。此方法使用具有注意力接收器的前几个令牌和最新令牌的滚动缓存的组合。这允许LLM维护有关之前讨论的内容以及最近的对话的上下文，从而有效地扩展了有效的上下文窗口。

StreamingLLM方法已经显示出有希望的结果，使LLM能够使用多达4万个代币或更多来执行稳定高效的语言建模。在流式处理设置中，它的性能比滑动窗口重新计算基线高出 22.2 倍。这使得它对于长篇内容生成和具有长期记忆的聊天机器人等应用程序特别有用。

但是，重要的是要注意StreamingLLM并非没有局限性。虽然它确实保留了有关对话开始和结束的上下文，但它仍然在中间丢失了详细的上下文。这意味着它可能不适用于汇总大量数据，例如研究论文。

StreamingLLM的引入和注意力汇的概念代表了克服向LLM提供无限数据的挑战的重大进步。但是，它们只是上下文限制问题的一种解决方案。随着人工智能领域的不断发展，可能会出现更多创造性的概念，以进一步提高LLM的能力和效率。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun260459.html

上下文代币解决方案

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

20 DallE 3 与Midjourney提示比较

上一篇 2023年10月14日下午8:58

Adobe 在 Adobe Max 2023 上宣布新的 AI 功能

下一篇 2023年10月14日下午8:59

工具软件

如何解决 Google Bard 的常见技术问题

在复杂的技术挑战迷宫中感到不知所措和迷失方向？这是完全正常的，因为即使是最有经验的技术爱好者也会面临相当多的令人困惑的故障和意想不到的打嗝。但是，没有必要担心。隆重推出 Googl…

2024年1月2日
最新资讯

Microsoft 和 TomTom 合作开发车载生成式 AI

TomTom宣布与Microsoft建立新的合作伙伴关系，将生成式AI引入车辆，TomTom开发了基于Microsoft Azure OpenAI服务的高级AI语音助手。该公司表…

2023年12月21日
Claude 2.1 小说作家的写作提示和技巧

Claude 2.1 的发布在作者中引起了一些最初的担忧，特别是由于难以使用以前版本 Claude 2.0 中的既定技术。用户报告说，Claude 2.1 似乎没有那么有创意，而且…

2023年12月12日 • 工具软件
Anthropic发布Claude 2.1

Anthropic发布Claude 2.1 在与 Open AI 的合并邀请中Anthropic非常稳健的发布了Claude 2.1模型，Claude 2.1升级主要包括下面几个方…

工具软件 2023年11月27日
工具软件

Microsoft“仍然需要解决一些问题”，以便为Bing实现GPT-4 Turbo

Copilot 是目前最好的 AI 伴侣吗？通过回答几个快速问题来帮助我们找出答案！ Bing 用户正在等待 GPT-4 Turbo 的实现，这是 OpenAI 生成式预训练转换器…

2023年11月27日
工具软件

Claude 2.1 的新功能：最新的 AI 功能揭晓

Anthropic 最近推出了 Claude 2.1，它为 AI 聊天机器人带来了一些很棒的新功能。由 Anthropic 开发的 Claude 2.1 不仅仅是另一个聊天机器人;…

2023年11月26日
谷歌Google

释放 Google Bard 的强大功能：创建自定义提示的指南

Google Bard 是由 Google AI 开发的大型语言模型，已成为生成文本、翻译语言、编写不同类型的创意内容以及以信息丰富的方式回答问题的强大工具。它的多功能性和适应各种…

2023年11月26日
工具软件

OpenAI 宣布支持 4K 代币等的 GPT-128 Turbo 模型

在 OpenAI DevDay 上，OpenAI 首席执行官 Sam Altman 今天宣布了新的 GPT-4 Turbo 模型，该模型具有多项关键改进和显着便宜的价格。首先，G…

2023年11月7日
工具软件

NVIDIA 和思科合作为混合工作空间提供动力

结合物理和数字元素以促进工作的混合工作空间或环境。它们旨在适应日益普遍的灵活工作安排，例如远程工作、面对面工作以及两者的结合（混合工作）。在混合工作空间中，员工可以从物理办公地点或…

2023年10月26日
工具软件

关于如何充分利用 ChatGPT 响应的 14 个专家提示

在快节奏、不断变化的人工智能和机器学习世界中，ChatGPT 成为对话代理可以完成的杰出例子。它的曲目种类繁多，从制作复杂的诗歌和回答多方面的问题，到执行一系列任务，包括但不限于生…

2023年10月25日
将 LLM 当做操作系统

将 LLM 当做操作系统大型语言模型（LLM）在扩展对话和文档分析等任务中存在上下文窗口有限的局限性。为了解决这个问题，作者提出了虚拟上下文管理，这是一种受传统操作系统的分层存储…

工具软件 2023年10月23日
工具软件

17+ ChatGPT 高级头脑风暴提示和概念

能够快速有效地捕捉您的想法和想法，让您和您的团队能够理解是一项了不起的技能。捕捉您脑海中出现或团队讨论的想法的自由交流，可以解锁新的解决方案，并深入了解可能需要解决的问题或问题。提…

2023年10月23日
Ring Attention – 一种内存高效的方法

Ring Attention – 一种内存高效的方法利用自注意力的分块计算将长序列分布到多个设备上，以克服 Transformer 架构固有的内存限制，从而能够在训练…

工具软件 2023年10月16日
工具软件

改善 ChatGPT 响应的 5 大技巧

对话式人工智能的出现彻底改变了我们与技术互动的方式。像ChatGPT这样的聊天机器人已经变得越来越复杂，为用户提供了更像人类的交互体验。但是，总有改进的余地。在本文中，我们将深入探…

2023年10月12日
最新资讯

华硕正式接手英特尔 NUC 迷你电脑产品线

华硕正式完成与英特尔公司的签约仪式，标志着科技界的一个重要里程碑。此次活动标志着英特尔的下一代计算单元（NUC）产品线移交给华硕，此举将重塑边缘计算和AIoT解决方案的格局。华硕…

2023年10月3日
工具软件

如何在 RunPod、AWS 或 Azure 上运行 Llama 2 32k

任何对能够创建和运行私有AI大型语言模型感兴趣的人都可能对这个快速指南感兴趣，该指南提供了有关在较小上下文中运行Llama 2的更多信息，并实现了需要GPU租赁的完整32,000个…

2023年9月12日
工具软件

如何训练 AI 识别图像并进行分类 – AI 图像识别

人工智能（AI）和机器学习（ML）已成为图像处理领域的基础技术。传统上，人工智能图像识别涉及用于增强、过滤和转换图像的算法技术。这些方法主要是基于规则的，通常需要对特定任务进行手动…

2023年9月6日
微软Microsoft

无法登录Microsoft帐户？试试这个简单的 3 步解决方案

您无法登录Microsoft帐户的原因有多种。虽然它很少发生，但当它发生时，它可能会令人沮丧。例如，在 Windows 11 中，发生这种情况的原因之一是由于 Microsoft …

2023年9月2日
Microsoft申请了新的人工智能智能背包专利。它可以听到你的声音，看到你所看到的

我们都见过智能设备：智能手机、智能冰箱，甚至智能家居。不过这一次，Microsoft似乎正在研究…全新AI支持的Microsoft智能背包。什么？这家总部位于雷德蒙德…

2023年8月31日 • 最新资讯
工具软件

ChatGPT 与 ChatGPT Enterprise 有什么区别？

OpenAI最近宣布推出其新的ChatGPT Enterprise服务，提供其GPT人工智能的定制AI版本，专为企业设计。但这两种产品的区别是什么？本 ChatGPT 与 Chat…

2023年8月30日
工具软件

OpenAI 为 GPT-3.5 Turbo 模型带来了自定义微调

OpenAI终于为其流行的GPT-3.5 Turbo模型引入了微调。该公告旨在让企业和开发人员创建擅长特定任务的受监督产品。根据OpenAI的说法，GPT-3.5 Turbo模型的…

2023年8月23日
Poe 更新：文件上传、URL 检索、Claude 2 等等！

大家好，今天我们在 Poe 上推出了新的、更强大的模型，增加了上下文窗口，包括刚刚发布的 Claude 2 及其 100k 代币窗口长度，以及一组新工具来帮助每个人利用它们。这些…

最新资讯 2023年7月14日
ChatGPT-16k和GPT-4-32k现在也可在 Poe 上使用

大家好，今天我们在 Poe 上推出了新的、更强大的模型，增加了上下文窗口，包括刚刚发布的 Claude 2 及其 100k 代币窗口长度，以及一组新工具来帮助每个人利用它们。这些…

工具软件 2023年7月14日
在iPhone上找不到个人热点选项[已修复]

当我们周围没有Wi-Fi信号时，我们想到的是iPhone上的个人热点，对吗？最近，许多iPhone用户评论说，他们无法在iPhone上找到个人热点选项，因此，这对他们所有人都造成了…

2023年7月6日 • 苹果Apple
工具软件

扩展LLMs的上下文窗口

扩展LLMs的上下文窗口本文介绍了一种称为位置插值（PI）的方法，可以将基于RoPE的预训练LLM的上下文窗口大小扩展到32768个位置，并在各种任务上展示了强大的实证结果。该方…

2023年7月5日

如何使用StreamingLLM提高LLM的速度

相关推荐