GPT OSS —— 来自 OpenAI 的全新开放模型家族，这究竟是什么神奇的存在呢？

摘要：欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族！ GPT OSS 是 OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型：拥有 117B 参数的 gpt‑oss‑120b

欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族！ GPT OSS 是 OpenAI 推出的重量级开放模型，面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型：拥有 117B 参数的 gpt‑oss‑120b 和拥有 21B 参数的 gpt‑oss‑20b。二者皆采用 Mixture‑of‑Experts（MoE）架构，并在 MoE 权重上使用 4‑bit 量化方案 MXFP4。由于 active 参数更少，它们在保持资源占用低的同时实现了快速推理：120B 版本可部署于单张 H100 GPU，20B 版本则能在 16 GB 显存内运行，适合消费级硬件和端侧应用。为了让社区受益更大，模型采用 Apache 2.0 许可证，并附带精简使用政策：我们希望工具能被安全、负责且民主地使用，同时最大化您对使用方式的控制权。使用 gpt‑oss 即表示您同意遵守所有适用法律。 OpenAI 表示，这一发布是其长期承诺开源生态、实现“让人工智能惠及全人类”使命的重要一步。许多场景需要私有或本地部署，Hugging Face 对 OpenAI 的加入深感振奋，并相信 GPT OSS 将成为长期且富有启发性的旗舰模型。目录简介能力与架构概览通过推理提供商调用 API 本地推理使用 transformers Flash Attention 3 其他优化 AMD ROCm 支持优化总结 llama.cpp vLLM transformers serve 微调模型评测聊天与模板 System 与 Developer 消息在 transformers 中使用工具能力与架构概览共计 21B 与 117B 参数，对应 3.6B 与 5.1B 活跃参数。 4‑bit MXFP4 量化仅应用于 MoE 权重：120B 版可容纳于单张 80 GB GPU，20B 版可容纳于单张 16 GB GPU。纯文本推理模型，内置链式思维（Chain‑of‑Thought）并可调节推理强度。支持指令跟随与工具调用，适配生成式 AI 和 AI 智能体工作流。提供基于 transformers、vLLM、llama.cpp、ollama 的多种推理实现。建议使用 Responses API 进行推理。许可证：Apache 2.0，并附带简易使用政策。架构细节 Token‑choice MoE，激活函数采用 SwiGLU。在选出 Top‑k 专家后对其权重执行 softmax（softmax‑after‑topk）。注意力层使用 RoPE，相对位置编码最长支持 128K Token。注意力层交替采用“全局上下文”与“滑动 128 Token 窗口”机制。每个注意力头引入 learned attention sink：在 softmax 分母中加入可学习偏置，增强长上下文稳定性。与 GPT‑4o 等 OpenAI API 模型共用分词器，并新增 Token 以兼容 Responses API。通过推理提供商调用 API GPT OSS 已接入 Hugging Face 的 Inference Providers 服务。您可使用统一的 JavaScript 或 Python SDK，通过多家推理提供商（如 AWS、Cerebras 等）快速调用模型。这正是官方演示站点 gpt‑oss.com 的底层基础设施，亦可直接复用于个人或企业项目。下面以 Python + Cerebras 为例： from openai import OpenAI client = OpenAI( inference_provider="cerebras", api_key="YOUR_HF_API_KEY" ) response = client.chat.completions.create( model="openai/gpt-oss-120b", messages=[{"role": "user", "content": "用中文解释 MXFP4 量化是什么？"}], ) print(response.choices[0].message.content) 更多代码示例和性能对比，参见模型卡中的 Inference Providers 小节以及我们专门撰写的指南。下面示例展示了使用 Python 调用超高速 Cerebras 提供商。如需更多代码片段，请查阅模型卡中的 Inference Providers 部分以及我们专门撰写的指南。

GPT OSS —— 来自 OpenAI 的全新开放模型家族，这究竟是什么神奇的存在呢？

相关推荐