Ring Attention – 一种内存高效的方法

Ring Attention – 一种内存高效的方法

利用自注意力的分块计算将长序列分布到多个设备上,以克服 Transformer 架构固有的内存限制,从而能够在训练和推理过程中处理较长的序列;能够在保持性能的同时根据设备数量缩放上下文长度,在没有注意力近似的情况下超过 1 亿上下文长度。

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/Yun260678.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2023年10月16日 下午10:20
下一篇 2023年10月16日

相关推荐