Jamba概述
Jamba是AI21 Labs发布的首款基于Mamba架构的生产级别大语言模型。相较于大多数现有的大模型(如GPT、Gemini和Llama),这些模型通常采用Transformer架构,Jamba结合了Mamba结构化状态空间模型(SSM)与传统Transformer架构,旨在提供高质量的输出、高吞吐量和低内存占用。这种混合架构的模型拥有256K的上下文窗口,显著提升了处理长文本时的效率。
目前,Jamba以开放权重的形式发布,并遵循Apache 2.0开源许可。该模型主要面向研究用途,未来计划推出经过微调的安全版本。
Jamba的特性
Jamba具备以下主要特性:
- 采用了SSM-Transformer混合架构,旨在提升模型的性能和效率。
- 拥有256K的上下文窗口,适用于处理更长的文本序列。
- 在处理长上下文时,相比同等规模的模型,吞吐量提升三倍。
- 可在单个GPU上处理高达140K的上下文,提高了模型的可访问性和部署的灵活性。
- 以Apache 2.0许可发布,为研究者和开发者提供了自由使用、修改和优化模型的权利。
- 集成了NVIDIA API,便于企业开发者利用NVIDIA AI Enterprise平台部署模型。
- 使用优化的MoE层,推理时仅激活部分参数,提高了运行效率。
Jamba的技术架构
Jamba采用块和层的方法,成功集成了Mamba SSM和Transformer两种架构。每个Jamba块包括一个注意力层或Mamba层,随后是一个多层感知器(MLP)。为了最大化单个80GB GPU上的模型质量和吞吐量,AI21 Labs优化了MoE层和专家数量,确保了足够的可用内存。
Jamba的性能表现
根据AI21 Labs的数据,Jamba模型在多种基准测试(如HellaSwag、ArcChallenge、MLLU等)中表现出色,其在语言理解和科学推理等广泛任务中的表现与同类最先进模型相当甚至更好(如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B)。
发表评论 取消回复