Qwen系列大模型,AILLM技术如何实现?

摘要:1 Qwen 系列模型解读 Qwen 系列模型在架构、性能、多语言支持等方面不断演进,不同版本特性差异明显,且不同参数规模的模型对硬件需求也有所不同。以下是 Qwen1.x、2.x、2.5、3 系列模型的特性及差异,以及其硬件需求的相关介绍
1 Qwen 系列模型解读 Qwen 系列模型在架构、性能、多语言支持等方面不断演进,不同版本特性差异明显,且不同参数规模的模型对硬件需求也有所不同。以下是 Qwen1.x、2.x、2.5、3 系列模型的特性及差异,以及其硬件需求的相关介绍: 模型清单 通义千问 (Qwen):语言模型 Qwen: 1.8B、7B、14B 及 72B 模型 Qwen1.5: 0.5B、1.8B、4B、14BA2.7B、7B、14B、32B、72B 及 110B 模型 Qwen2.0: 0.5B、1.5B、7B、57A14B 及 72B 模型 Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B 及 72B 模型 Qwen3 : 0.6b / 1.7b / 4b / 8b / 14b / 30b / 32b / 235b 通义千问 VL (Qwen-VL): 视觉语言模型 Qwen-VL: 基于 7B 的模型 Qwen-VL: 基于 2B、7B 和 72B 的模型 通义千问 Audio: 音频语言模型 Qwen-Audio: 基于 7B 的模型 Qwen2-Audio: 基于 7B 的模型 Code通义千问 / 通义千问Coder: 代码语言模型 CodeQwen1.5: 7B 模型 Qwen2.5-Coder: 7B 模型 通义千问 Math: 数学语言模型 Qwen2-Math: 1.5B、7B 及 72B 模型 Qwen2.5-Math: 1.5B、7B 及 72B 模型 特性/差异 Qwen1.x 系列:采用经典 Transformer 解码器架构,使用旋转位置编码 RoPE 和分组查询注意力 GQA,如 Qwen1.5-110B 模型使用 GQA 优化了推理速度。该系列涵盖多种参数规模,如 Qwen-7B 有 32 层 Transformer、每层隐藏尺寸 4096,Qwen-14B 使用 40 层、隐藏尺寸 5120。Qwen1.5 全系列模型支持最长 32768 个 token 的上下文,Qwen-Long 可将上下文扩展到百万级别。 2023年8月,阿里首次开源通义千问第一代模型Qwen-7B,这是一个有70亿参数的通用语言模型。在此基础上,Qwen扩展了更多的参数版本,比如0.5B、14B、32B、72B等。与此同时, Qwen也在不断扩展能力,可以支持更多的模态输入,比如先后开源了Qwen-VL视觉语言模型和Qwen-Audio音频语言模型。 Qwen2.x 系列:包含 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 等模型,所有尺寸模型都使用了 GQA 机制。在中英文之外,增加了 27 种语言相关的高质量数据,提升了多语言能力。Qwen2-72B-Instruct 能够完美处理 128k 上下文长度内的信息抽取任务。 2024年9⽉发布了 Qwen2.5系列,涵盖了多种尺⼨的⼤语⾔模型、多模态模型、数学模型以及代码模型,能够为不同领域的应⽤提供强有⼒的⽀持。不论是在⾃然语⾔处理任务中的⽂本⽣成与问答,还是在编程领域的代码⽣成与辅助,或是数学问题的求解,Qwen2.5 都能展现出⾊的表现。每种尺⼨的模型均包含基础版本、以及量化版本的指令微调模型,充分满⾜了⽤⼾在各类应⽤场景中的多样化需求。具体版本内容如下: • Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B; • Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B; • Qwen2.5-Math: 1.5B, 7B, 以及72B • Qwen2.5-VL: 3B, 7B, 以及72B。 Qwen2.5 系列:全系列涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型,在 18 万亿 tokens 数据上进行预训练,整体性能比 Qwen2 提升了 18% 以上。其在知识能力、数学能力方面都有显著改进,指令跟随与结构化数据处理能力也增强,支持高达 128k 的上下文长度,可生成最多 8k 内容,并且支持 29 种以上语言。 Qwen2.5系列是基于Transformer架构的语言模型,包括密集模型和MoE模型。 密集模型采用了Grouped Query Attention(GQA)、SwiGLU激活函数、Rotary Positional Embeddings(RoPE)以及QKV bias等技术来提高模型性能。 MoE模型则使用了专门的MoE层替换标准的feed-forward网络层,并通过细粒度专家分割和共享专家路由等策略提高了模型能力。
阅读全文