GPT OSS —— 来自 OpenAI 的全新开放模型家族,这究竟是什么神奇的存在呢?

摘要:欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族! GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的 gpt‑oss‑120b
欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族! GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的 gpt‑oss‑120b 和拥有 21B 参数的 gpt‑oss‑20b。二者皆采用 Mixture‑of‑Experts(MoE)架构,并在 MoE 权重上使用 4‑bit 量化方案 MXFP4。由于 active 参数更少,它们在保持资源占用低的同时实现了快速推理:120B 版本可部署于单张 H100 GPU,20B 版本则能在 16 GB 显存内运行,适合消费级硬件和端侧应用。 为了让社区受益更大,模型采用 Apache 2.0 许可证,并附带精简使用政策: 我们希望工具能被安全、负责且民主地使用,同时最大化您对使用方式的控制权。使用 gpt‑oss 即表示您同意遵守所有适用法律。 OpenAI 表示,这一发布是其长期承诺开源生态、实现“让人工智能惠及全人类”使命的重要一步。许多场景需要私有或本地部署,Hugging Face 对 OpenAI 的加入深感振奋,并相信 GPT OSS 将成为长期且富有启发性的旗舰模型。 目录 简介 能力与架构概览 通过推理提供商调用 API 本地推理 使用 transformers Flash Attention 3 其他优化 AMD ROCm 支持 优化总结 llama.cpp vLLM transformers serve 微调 模型评测 聊天与模板 System 与 Developer 消息 在 transformers 中使用工具 能力与架构概览 共计 21B 与 117B 参数,对应 3.6B 与 5.1B 活跃参数。 4‑bit MXFP4 量化仅应用于 MoE 权重:120B 版可容纳于单张 80 GB GPU,20B 版可容纳于单张 16 GB GPU。 纯文本推理模型,内置链式思维(Chain‑of‑Thought)并可调节推理强度。 支持指令跟随与工具调用,适配生成式 AI 和 AI 智能体工作流。 提供基于 transformers、vLLM、llama.cpp、ollama 的多种推理实现。 建议使用 Responses API 进行推理。 许可证:Apache 2.0,并附带简易使用政策。 架构细节 Token‑choice MoE,激活函数采用 SwiGLU。 在选出 Top‑k 专家后对其权重执行 softmax(softmax‑after‑topk)。 注意力层使用 RoPE,相对位置编码最长支持 128K Token。 注意力层交替采用“全局上下文”与“滑动 128 Token 窗口”机制。 每个注意力头引入 learned attention sink:在 softmax 分母中加入可学习偏置,增强长上下文稳定性。 与 GPT‑4o 等 OpenAI API 模型共用分词器,并新增 Token 以兼容 Responses API。 通过推理提供商调用 API GPT OSS 已接入 Hugging Face 的 Inference Providers 服务。您可使用统一的 JavaScript 或 Python SDK,通过多家推理提供商(如 AWS、Cerebras 等)快速调用模型。这正是官方演示站点 gpt‑oss.com 的底层基础设施,亦可直接复用于个人或企业项目。 下面以 Python + Cerebras 为例: from openai import OpenAI client = OpenAI( inference_provider="cerebras", api_key="YOUR_HF_API_KEY" ) response = client.chat.completions.create( model="openai/gpt-oss-120b", messages=[{"role": "user", "content": "用中文解释 MXFP4 量化是什么?"}], ) print(response.choices[0].message.content) 更多代码示例和性能对比,参见模型卡中的 Inference Providers 小节 以及我们专门撰写的指南。 下面示例展示了使用 Python 调用超高速 Cerebras 提供商。如需更多代码片段,请查阅模型卡中的 Inference Providers 部分 以及我们专门撰写的指南。
阅读全文