GPT OSS —— 来自 OpenAI 的全新开放模型家族,这究竟是什么神奇的存在呢?
摘要:欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族! GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的 gpt‑oss‑120b
欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族!
GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的 gpt‑oss‑120b 和拥有 21B 参数的 gpt‑oss‑20b。二者皆采用 Mixture‑of‑Experts(MoE)架构,并在 MoE 权重上使用 4‑bit 量化方案 MXFP4。由于 active 参数更少,它们在保持资源占用低的同时实现了快速推理:120B 版本可部署于单张 H100 GPU,20B 版本则能在 16 GB 显存内运行,适合消费级硬件和端侧应用。
为了让社区受益更大,模型采用 Apache 2.0 许可证,并附带精简使用政策:
我们希望工具能被安全、负责且民主地使用,同时最大化您对使用方式的控制权。使用 gpt‑oss 即表示您同意遵守所有适用法律。
OpenAI 表示,这一发布是其长期承诺开源生态、实现“让人工智能惠及全人类”使命的重要一步。许多场景需要私有或本地部署,Hugging Face 对 OpenAI 的加入深感振奋,并相信 GPT OSS 将成为长期且富有启发性的旗舰模型。
目录
简介
能力与架构概览
通过推理提供商调用 API
本地推理
使用 transformers
Flash Attention 3
其他优化
AMD ROCm 支持
优化总结
llama.cpp
vLLM
transformers serve
微调
模型评测
聊天与模板
System 与 Developer 消息
在 transformers 中使用工具
能力与架构概览
共计 21B 与 117B 参数,对应 3.6B 与 5.1B 活跃参数。
4‑bit MXFP4 量化仅应用于 MoE 权重:120B 版可容纳于单张 80 GB GPU,20B 版可容纳于单张 16 GB GPU。
纯文本推理模型,内置链式思维(Chain‑of‑Thought)并可调节推理强度。
支持指令跟随与工具调用,适配生成式 AI 和 AI 智能体工作流。
提供基于 transformers、vLLM、llama.cpp、ollama 的多种推理实现。
建议使用 Responses API 进行推理。
许可证:Apache 2.0,并附带简易使用政策。
架构细节
Token‑choice MoE,激活函数采用 SwiGLU。
在选出 Top‑k 专家后对其权重执行 softmax(softmax‑after‑topk)。
注意力层使用 RoPE,相对位置编码最长支持 128K Token。
注意力层交替采用“全局上下文”与“滑动 128 Token 窗口”机制。
每个注意力头引入 learned attention sink:在 softmax 分母中加入可学习偏置,增强长上下文稳定性。
与 GPT‑4o 等 OpenAI API 模型共用分词器,并新增 Token 以兼容 Responses API。
通过推理提供商调用 API
GPT OSS 已接入 Hugging Face 的 Inference Providers 服务。您可使用统一的 JavaScript 或 Python SDK,通过多家推理提供商(如 AWS、Cerebras 等)快速调用模型。这正是官方演示站点 gpt‑oss.com 的底层基础设施,亦可直接复用于个人或企业项目。
下面以 Python + Cerebras 为例:
from openai import OpenAI
client = OpenAI(
inference_provider="cerebras",
api_key="YOUR_HF_API_KEY"
)
response = client.chat.completions.create(
model="openai/gpt-oss-120b",
messages=[{"role": "user", "content": "用中文解释 MXFP4 量化是什么?"}],
)
print(response.choices[0].message.content)
更多代码示例和性能对比,参见模型卡中的 Inference Providers 小节 以及我们专门撰写的指南。
下面示例展示了使用 Python 调用超高速 Cerebras 提供商。如需更多代码片段,请查阅模型卡中的 Inference Providers 部分 以及我们专门撰写的指南。
