如何从零开始部署Ollama大模型？

摘要：在 AI 大模型爆发的今天，我们不再需要依赖昂贵的云服务，也能在自己的电脑上部署并运行强大的大语言模型。Ollama 就是这样一款工具，它让本地部署和使用大模型变得前所未有的简单。

在 AI 大模型爆发的今天，我们不再需要依赖昂贵的云服务，也能在自己的电脑上部署并运行强大的大语言模型。Ollama 就是这样一款工具，它让本地部署和使用大模型变得前所未有的简单。核心功能特性　　- 开源免费：Ollama 核心框架为开源免费，个人与企业日常本地部署、二次开发及商业集成均无费用，且官方支持商用。　　- 跨平台：对Windows、macOS、Linux 等主流桌面与服务器系统均原生支持。　　- 配置简单且功能强大：Ollama 会自动检测你的硬件（GPU、CPU），优先放到显存，显存不够的部分，自动放到内存，推理时，GPU 层和 CPU 层接力计算，用户完全无感知，无需复杂配置，就能最大化利用本地算力。　　- 流式输出：Ollama 支持逐字实时返回模型生成内容，无需等待完整响应生成完成，实现类似 ChatGPT 的“边想边说”效果。　　- 深度思考：支持模型多步推理、逻辑拆解、复杂问题分步思考，模拟人类“先想后答”的思维过程，提升复杂任务的回答准确性。　　- 结构化输出：强制模型生成符合指定格式的结构化数据，如 JSON、XML、CSV 等，确保输出可直接被程序解析，无需额外清洗。　　- 多模态视觉理解：支持图像输入与理解，模型可识别图片内容、OCR 文字、图表、截图等，实现图文混合交互。　　- 向量化：将文本等内容转换为向量，用于语义相似度计算、检索增强生成（RAG）等场景。　　- 工具调用：模型可自动识别并调用外部工具 / 函数，如计算器、API 接口、本地脚本、数据库查询等，扩展模型能力边界。　　- 联网搜索：模型可实时联网获取最新信息，补充模型静态知识，回答时效性强、动态变化的问题。安装部署　　Ollama 支持 Windows、macOS 和 Linux 三大主流系统，安装过程非常直观。（仅介绍常用的Windows 安装，其他方式请参考官网文档） Windows 上安装 Ollama Step 01 官网下载安装程序 - https://ollama.com/download/windows Step 02 运行程序并修改配置　　Ollama 运行本地模型时，免费且没有限制，无需登录。但是Ollama 云端模型和联网搜索功能，必须登录 Ollama 账号才能使用。　　Ollama 的定价参考：https://ollama.com/pricing Step 03 下载模型并验证模型选择　　Ollama 官方库中拥有大量模型，选择合适的模型是关键。模型命名　　首先，要了解大模型的命名规则为： <品牌+版本>:<参数><方向><量化><特殊标签> 　　命名不是强制要求，部分会忽略，只显示用户最关心的参数，所以不同模型会让人感觉命名规则不标准。比如：　　- qwen3.5:9b：通义千问 3.5 系列:90 亿（9 Billion）参数规模　　- qwen3.5:397b-cloud：通义千问 3.5 系列: 3970 亿（397 Billion）参数规模 - 云端运行模型　　-qwen3-coder:30b：通义千问 3 编码系列 : 300 亿（30 Billion）参数规模　　-qwen3-vl:8b：通义千问 3 视觉 - 语言多模态系列:80 亿参数（8 Billion）参数规模按硬件配置选择硬件配置推荐模型特点 4GB 显存 / 8GB 内存 qwen3.5:2b 轻量、快速，适合简单问答 8GB 显存 / 16GB 内存 qwen3.5:9b 适合个人电脑本地部署使用 16GB+ 显存 / 32GB+ 内存 qwen3.5:35b 能力强大，适合深度推理、长文档处理、专业场景处理等按使用场景选择　　- 通用对话及写作：qwen3.5:9b 等　　- 代码开发：qwen3-coder:30b,deepseek-coder-v2:16b 等　　- 图文理解：qwen3-vl:8b 等使用方式选择　　- 本地模型：免费，没有限制，运行占用本地现显存/内存　　- 云端模型：需要登录 Ollama 账号，有额度和限制，占用 Ollama 官方服务器资源，不占用本地资源常用命令命令作用示例 ollama --version 查看 Ollama 程序的当前版本号，验证安装是否成功 ollama --version ollama list 列出本地已下载的所有模型 ollama list ollama pull <模型> 拉取（下载）指定的模型到本地 ollama pull qwen3:8b ollama push <模型> 将本地的自定义模型推送到远程仓库（需登录账号） ollama push my-custom-model:latest ollama run <模型> 运行指定模型并进入交互式对话模式；若模型未拉取，会自动先拉取再运行 ollama run qwen3:8bollama run qwen3:8b --verbose ollama show <模型> 查看模型的详细信息 ollama show qwen3:8b ollama show qwen3:8b --modelfile ollama rm <模型> 从本地删除模型 ollama rmqwen3:8b ollama ps 查看当前正在运行的模型进程及状态 ollama ps ollama create <新模型> 根据一个 Modelfile 文件，基于现有模型创建全新的自定义模型 ollama create code-assistant -f Modelfile ollama cp <源模型> <目标模型> 复制模型，常用于给模型创建别名、备份 ollama cp qwen3:8b qwen3:8b-chat ollama launch <工具名> 启动 Ollama 服务 + 自动配置并打开对应工具 ollama launch openclaw ollama launch claude 自定义模型　　Ollama 允许通过创建 Modelfile，打造一个拥有独特个性和能力的专属模型。　　Modelfile文件写法参考：https://github.com/ollama/ollama/blob/main/docs/modelfile.mdx 创建 Modelfile 　　新建一个名为devQwen 的Modelfile 的文本文件，写入以下内容：创建新模型运行新模型通过 Ollama 启动 OpenClaw 　　安装前，请先安装 Node.js 与 Git，然后运行： ollama launch openclaw 　　或 ollama launch openclaw --model kimi-k2.5:cloud 　　Ollama 将自动完成以下操作：　　-安装—— 若未安装 OpenClaw，Ollama 会提示通过 npm 进行安装　　-安全—— 首次启动时，安全须知会说明工具访问存在的相关风险　　-模型—— 从选择器中挑选本地或云端模型　　-初始化引导—— Ollama 配置服务提供商、安装网关守护进程、将所选模型设为默认主模型，并安装网页搜索与内容抓取插件（网页搜索与内容抓取会自动启用）　　-网关—— 在后台启动程序并打开 OpenClaw 终端交互界面　　运行后，可访问 OpenClaw：推荐模型　　- kimi-k2.5:cloud 　　-minimax-m2.7:cloud 　　-glm-5:cloud 　　-glm-4.7-flash 推荐上下文长度　　建议至少采用 64k 的上下文长度。停止运行OpenClaw openclaw gateway stop 通过 Ollama 启动 Claude Code 　　开源模型可通过 Ollama 兼容 Anthropic 的接口接入 Claude Code，支持 qwen3.5、glm-5:cloud、kimi-k2.5:cloud 等模型。 Windows 安装 Claude Code irm https://claude.ai/install.ps1 | iex 启动 Claude Code ollama launch claude 　　或 ollama launch claude --model kimi-k2.5:cloud 推荐模型　　- kimi-k2.5:cloud 　　-glm-5:cloud 　　-minimax-m2.7:cloud 　　-qwen3.5:cloud 　　-glm-4.7-flash 　　-qwen3.5 推荐上下文长度　　建议至少采用 64k 的上下文长度。接口　　可通过接口调用将 Ollama 集成至你的应用中，其安默认访问地址为：　　- 本地地址：http://localhost:11434/api 　　- 云端地址：https://ollama.com/api 　　在本地访问无需身份验证，云端访问则需要进行身份验证。Ollama 支持本地登录和 API Key两种身份验证方式。流式传输　　部分 API 接口默认以流式形式返回响应结果，采用换行分隔的 JSON 格式（application/x-ndjson 内容类型）进行传输，其形如： {"model":"gemma3","created_at":"2025-10-26T17:15:24.097767Z","response":"That","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.109172Z","response":"'","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.121485Z","response":"s","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.132802Z","response":" a","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.143931Z","response":" fantastic","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.155176Z","response":" question","done":false} {"model":"gemma3","created_at":"2025-10-26T17:15:24.166576Z","response":"!","done":true, "done_reason": "stop"} 　　可通过在请求体中传入{"stream": false}来关闭流式传输，响应将以application/json 内容类型返回。返回值　　返回值形如： { "model": "gemma3", "created_at": "2025-10-17T23:14:07.414671Z", "response": "Hello! How can I help you today?", "done": true, "done_reason": "stop", "total_duration": 174560334, "load_duration": 101397084, "prompt_eval_count": 11, "prompt_eval_duration": 13074791, "eval_count": 18, "eval_duration": 52479709 } 　　常见字段包括：　　- model: 模型名　　- created_at: 响应创建时间戳　　- response: 模型生成的文本回复　　- thinking：模型生成的思考输出　　- done: 生成流程是否完成　　- done_reason: 生成停止原因　　性能和模型使用情况的各项指标包括（对于返回流式响应的接口，下面字段会包含在结束标记为 true 的最后一个数据块中）：　　-total_duration：生成响应的总时长（纳秒）　　-load_duration：模型加载所耗费的时长（纳秒）　　-prompt_eval_count：处理的输入 token 数量　　-prompt_eval_duration：评估提示词所耗费的时长（纳秒）　　-eval_count：处理的输出 token 数量　　-eval_duration：生成输出 token 所耗费的时长（纳秒）接口清单接口描述对应 Ollama 命令 /api/generate 生成文本响应 ollama run <模型>（单次调用） /api/chat 生成聊天消息 ollama run <模型>（多轮对话） /api/embed 生成可表征输入文本的向量 ollama run<模型> <文本> /api/tags 获取模型列表及其详细信息 ollama list /api/ps 获取当前正在运行的模型列表 ollama ps /api/show 查看模型详细信息 ollama show <模型> /api/create 创建自定义模型 ollama create <新模型> /api/copy 复制一个模型（创建别名/副本） ollama cp <源模型> <目标模型> /api/pull 拉取模型 ollama pull <模型> /api/push 推送模型 ollama push <模型> /api/delete 删除模型 ollama rm <模型> /api/version 获取 Ollama 的版本 ollama --version 　　注：Ollama 兼容部分 OpenAI 和 Anthropic 的 API，具体内容请参考官网文档。安全问题接口的安全风险　　Ollama 只用于本地调用，不建议直接暴露到公网。Ollama 开放的 11434 端口是其 API 服务入口，历史上曾因大量用户将端口直接暴露到公网，引发过多起严重安全事件。　　API 无需身份校验和鉴权即可访问，谁能连上 11434 端口，谁就能控制你的 Ollama。软件自身的安全漏洞　　Ollama 早期版本中存在多个高危漏洞，如果未及时升级，这些历史漏洞则仍然存在，易被攻击者利用。 Modelfile 的安全风险　　- FROM可指向外部恶意模型：可能会指向恶意模型，执行恶意代码。　　- SYSTEM 提示注入：SYSTEM指令定义模型的核心行为规则，若 Modelfile 被篡改（或包含恶意提示词），模型会执行篡改后的恶意指令（如诱导泄露数据、执行高危操作）。　　- PARAMETER 被篡改：被篡改后会导致模型输出不可控（如生成违规内容、无意义文本），破坏业务逻辑。解决方案　　- 核心原则：Ollama 优先仅限本地使用（绑定 127.0.0.1），非必要不暴露至公网；若需公网访问，需做好代理 + 认证也来有效规避风险。　　- 端口防护：11434 端口禁止做公网端口映射、不开放防火墙，建议改非知名自定义端口。　　- 版本安全：始终使用 Ollama 最新稳定版，及时修复已知漏洞。　　- 模型管控：仅加载官方 / 可信来源的模型，拒绝来源不明的模型。小结　　Ollama 为我们打开了本地大模型的大门，让 AI 触手可及。希望这篇指南能帮助你快速上手，开启你的本地 AI 之旅。　　我希望您喜欢这篇文章，并一如既往地感谢您阅读并与朋友和同事分享我的文章。

如何从零开始部署Ollama大模型？

相关推荐