DuoAttention是一种创新性的框架,由MIT韩松团队开发,旨在增强大型语言模型(LLMs)在处理长上下文时的推理效率。该框架通过引入“检索头”和“流式头”两种注意力机制,优化了模型的内存使用和计算速度。“检索头”负责捕捉长距离依赖关系,需完整保存键值(KV)缓存;而“流式头”则专注于最近的token及其注意力汇聚点,仅需固定长度的KV缓存。这种设计不仅降低了内存消耗,还加快了解码和预填充的速度。结合量化技术,DuoAttention能够在一个GPU上支持高达330万token的上下文推理,成为处理长文本信息的高效解决方案。
发表评论 取消回复