如何通过10个技巧让Claude节省70%的Token消耗?

摘要:关注公众号:weelinking | 访问官网:weelinking.com 📅 发布日期:202
关注公众号:weelinking | 访问官网:weelinking.com 📅 发布日期:2026年2月9日 🏷️ 标签:Claude | Token优化 | 成本控制 | AI效率 ⏱️ 阅读时长:12分钟 📄 文章摘要 使用 Claude 时感觉成本太高?本文深度解析 Claude 的 Token 计费机制,提供 10 个经过实战验证的省 Token 技巧,涵盖模型选择、提示词优化、Skill 应用、对话管理、批量处理等核心场景。通过合理运用这些技巧,可以在保证输出质量的前提下,将 Token 消耗降低 50-70%,大幅降低使用成本。文章包含详细的 Token 消耗对比数据、实战案例和最佳实践,适合所有 Claude 用户阅读。 关键词: Claude Token 优化、Claude 成本控制、Claude 省钱技巧、AI Token 节省、提示词优化、Claude Skill、模型选择、对话管理 💡 国内体验 Claude4.6: weelinking - 稳定、稳定、稳定 📑 目录导航 💰 Claude Token 计费机制详解 🎯 技巧1:选择合适的模型 ✍️ 技巧2:优化提示词结构 🔧 技巧3:使用 Skill 固化常用指令 💬 技巧4:管理对话历史 📦 技巧5:批量处理而非多次询问 🛠️ 技巧6:善用 MCP 工具 📁 技巧7:优化项目文件管理 🔄 技巧8:利用 Prompt Caching ⚡ 技巧9:避免无效对话 📊 技巧10:使用 API 精细控制 📈 综合案例:实战效果对比 💡 总结与建议 💰 Claude Token 计费机制详解 Token 是什么? Token 是 AI 模型处理文本的基本单位。简单理解: 1 个 Token ≈ 0.75 个英文单词 1 个 Token ≈ 0.5 个中文字符(中文更"贵") 示例: "Hello World" = 2 tokens "你好世界" = 4 tokens "Claude is great!" = 3 tokens "Claude 真棒!" = 5 tokens Claude 的计费方式 Claude 按照 输入 Token + 输出 Token 双向计费: 模型 输入价格 输出价格 上下文窗口 Claude 3.5 Haiku $0.80/百万 $4.00/百万 200K Claude 3.5 Sonnet $3.00/百万 $15.00/百万 200K Claude Opus 4.6 $15.00/百万 $75.00/百万 200K 重要提示: 每次对话都会加载完整的对话历史(输入 Token 累积) 输出 Token 通常是输入的 1/5 ~ 1/3 对话越长,成本越高(指数级增长) 典型使用场景成本分析 场景1:代码审查(500行代码) 不优化的情况: - 输入:完整代码(1500 tokens) + 详细指令(300 tokens) + 历史对话(2000 tokens) = 3800 tokens - 输出:详细报告 = 800 tokens - 单次成本(Sonnet):3800×$3/百万 + 800×$15/百万 = $0.0234 优化后: - 输入:精简代码(1500 tokens) + 简洁指令(50 tokens) + 清理历史(0 tokens) = 1550 tokens - 输出:结构化报告 = 600 tokens - 单次成本(Sonnet):1550×$3/百万 + 600×$15/百万 = $0.0136 节省:42% 场景2:写作助手(持续对话) 不优化的情况: - 10轮对话累积:每轮加载全部历史 - 第10轮输入:当前提示(100 tokens) + 历史对话(9000 tokens) = 9100 tokens - 总成本(Sonnet):约 $0.15 优化后: - 定期清理历史,使用 Skill 固化指令 - 第10轮输入:当前提示(100 tokens) + 关键历史(500 tokens) = 600 tokens - 总成本(Sonnet):约 $0.045 节省:70% 🎯 技巧1:选择合适的模型 三大模型对比 模型 适用场景 成本 质量 Haiku 简单任务、数据提取、格式转换 最低 中等 Sonnet 日常开发、代码审查、内容创作 中等 优秀 Opus 复杂推理、架构设计、高质量创作 最高 顶级 实战建议 ✅ 用 Haiku 的场景: - JSON 格式转换 - 数据提取和清洗 - 简单的代码注释生成 - 文本分类和标签提取 - 格式化输出 ✅ 用 Sonnet 的场景: - 代码编写和审查 - 技术文档撰写 - Bug 调试分析 - API 设计 - 日常开发问答 ✅ 用 Opus 的场景: - 复杂架构设计 - 核心算法实现 - 深度技术调研 - 高质量长文创作 - 关键决策咨询 成本对比案例 任务:将 CSV 数据转换为 JSON 格式 使用 Opus: - 输入:1000 tokens - 输出:500 tokens - 成本:1000×$15/百万 + 500×$75/百万 = $0.0525 使用 Haiku: - 输入:1000 tokens - 输出:500 tokens - 成本:1000×$0.8/百万 + 500×$4/百万 = $0.0028 节省:95% 🎉 关键结论: 简单任务用 Haiku 完全够用,没必要上 Sonnet 或 Opus! ✍️ 技巧2:优化提示词结构 冗余提示词的代价 ❌ 冗余的提示词(200 tokens): 你好,我是一名开发者,我现在正在做一个项目,这个项目使用 React 框架。 我遇到了一个问题,就是关于状态管理的问题。我想问一下,在 React 中, 如果我想要在多个组件之间共享状态,应该怎么做呢?我听说可以用 Context, 也听说可以用 Redux,但是我不太清楚它们的区别,你能帮我分析一下吗? 另外,如果我的项目不是很大,用哪个比较合适呢?谢谢! ✅ 精简的提示词(30 tokens): React 小型项目如何在组件间共享状态?Context vs Redux,如何选择? Token 节省:85% 输出质量:完全一致 ✅ 提示词优化原则 1. 删除寒暄和客套话 ❌ "你好,请问..."、"谢谢你的帮助"、"如果可以的话" ✅ 直接描述需求 2. 使用精准的术语 ❌ "那个用来管理状态的东西" ✅ "状态管理方案" 3. 结构化表达 ❌ 大段文字描述 ✅ 使用列表或表格: 需求: - 功能:多组件状态共享 - 项目规模:小型 - 技术栈:React 18 - 问题:Context vs Redux 选择 4. 避免重复信息 ❌ 每次都说"我用的是 React + TypeScript + Vite" ✅ 在对话开始时说一次,或使用 Skill 固化项目信息 实战对比 提示词类型 Token 数 输出质量 备注 冗长描述 150-300 优秀 浪费 Token 适度描述 50-100 优秀 推荐 ⭐ 过度精简 10-20 良好 可能理解偏差 🔧 技巧3:使用 Skill 固化常用指令 Skill 的 Token 节省原理 渐进式披露机制: 阶段1(始终加载): description 字段(~50 tokens) 阶段2(触发后加载): 完整 Skill 内容(~1500 tokens) 阶段3(按需加载): references 外部文件 传统方式 vs Skill 方式: ❌ 传统方式(每次都要说): 用户: "帮我审查这段代码,注意检查: 1. 命名规范(驼峰命名) 2. 错误处理(必须有 try-catch) 3. 安全问题(SQL注入、XSS) 4. 性能问题(避免不必要的循环) 5. 输出格式:总体评分 + 问题列表 + 改进建议" [这段指令每次消耗 150 tokens] ✅ Skill 方式(一次配置,永久生效): 用户: "审查这段代码" [仅消耗 10 tokens] [Skill 自动加载规则,但只在触发时消耗 Token] Token 消耗对比 场景:代码审查(10 次) 方式 单次输入 Token 10 次累计 节省 传统方式 指令(150) + 代码(500) = 650 6500 - Skill 方式 触发词(10) + 代码(500) + Skill加载(1500) 5100 22% Skill + 清理历史 触发词(10) + 代码(500) + Skill(1500) 2010 69% 如何创建省 Token 的 Skill 示例:代码审查 Skill --- name: Quick Code Reviewer description: Reviews code for bugs and issues when user asks to check code --- # 代码快速审查 ## 审查维度 1. 命名规范 2. 错误处理 3. 安全问题 4. 性能问题 ## 输出格式 - 评分: X/10 - 问题列表 - 改进建议 ## 原则 - 简洁输出,避免冗余 - 严重问题优先 - 提供代码示例 使用效果: 不用 Skill:每次输入 150 tokens 指令 使用 Skill:每次只需说"审查代码"(10 tokens) 节省 93% 指令 Token 💬 技巧4:管理对话历史 对话历史的"隐形成本" Claude 每次响应都会加载完整的对话历史,这是 Token 消耗的大头! 成本累积示例: 对话轮次 当前输入 历史累积 总输入Token 累积成本(Sonnet) 第1轮 100 0 100 $0.0003 第2轮 100 200 300 $0.0009 第3轮 100 500 600 $0.0018 第5轮 100 1200 1300 $0.0039 第10轮 100 5000 5100 $0.0153 ❌ 不清理历史:第10轮单次输入 5100 tokens ✅ 定期清理:每轮输入保持在 100-300 tokens 何时清理对话历史 清理时机: 任务切换时 刚才:讨论前端代码 现在:讨论后端架构 → 清理!前端对话已无用 对话超过 5-10 轮时 累积历史 > 3000 tokens → 考虑清理 出现重复内容时 多次讨论同一个问题 → 保留最终结论,删除过程 长文本输出后 Claude 输出了 2000 tokens 的文档 → 立即清理 如何清理对话历史 方法1:手动开始新对话 优点:完全清空,Token 归零 缺点:丢失所有上下文 方法2:明确告知 Claude "之前的对话可以忽略了,我们开始新的话题" 优点:保留当前对话窗口 缺点:历史仍然加载(但 Claude 会理解可以忽略) 方法3:总结后清理 用户: "总结一下我们讨论的要点" Claude: [输出总结] 用户: [开始新对话,只引用总结] 优点:保留关键信息,大幅减少 Token 缺点:需要手动操作 实战效果 案例:持续 20 轮的开发对话 ❌ 不清理历史: 第20轮输入 = 当前提示(100) + 历史(12000) = 12100 tokens 总成本(Sonnet):约 $0.50 ✅ 每5轮清理一次: 平均每轮输入 = 100-500 tokens 总成本(Sonnet):约 $0.15 节省:70% 🎉 📦 技巧5:批量处理而非多次询问 多次询问的成本陷阱 ❌ 低效方式(3次对话): 第1次: 用户: "帮我审查 user.js 文件" Claude: [输出审查结果 500 tokens] 第2次: 用户: "再审查 order.js 文件" [加载上次对话历史 700 tokens] Claude: [输出审查结果 500 tokens] 第3次: 用户: "再审查 product.js 文件" [加载历史 1700 tokens] Claude: [输出审查结果 500 tokens] 总输入 Token: 100 + 800 + 1800 = 2700 总输出 Token: 1500 总成本(Sonnet): 2700×$3/百万 + 1500×$15/百万 = $0.0306 ✅ 高效方式(1次对话): 用户: "批量审查以下文件: 1. user.js 2. order.js 3. product.js" Claude: [输出3个文件的审查结果 1500 tokens] 总输入 Token: 150(无历史累积) 总输出 Token: 1500 总成本(Sonnet): 150×$3/百万 + 1500×$15/百万 = $0.0230 节省:25% 批量处理的最佳实践 1. 代码审查 ❌ 逐个文件审查 ✅ "审查 src/utils/ 目录下所有文件" 2. 文档生成 ❌ 分别生成 API 文档、README、部署文档 ✅ "生成完整的项目文档(API文档 + README + 部署指南)" 3. Bug 修复 ❌ 逐个讨论每个 bug ✅ "以下是3个 bug,请提供修复方案: Bug 1: ... Bug 2: ... Bug 3: ..." 4. 代码重构 ❌ 分步讨论重构方案 ✅ "完整的重构计划: 1. 当前问题 2. 重构目标 3. 实施步骤 4. 预期效果" Token 节省计算 任务数量 分次处理成本 批量处理成本 节省比例 3个任务 $0.030 $0.023 23% 5个任务 $0.065 $0.035 46% 10个任务 $0.180 $0.060 67% 结论: 任务越多,批量处理优势越明显! 🛠️ 技巧6:善用 MCP 工具 MCP 如何节省 Token MCP (Model Context Protocol) 允许 Claude 直接调用外部工具,避免重复描述工具使用方法。 传统方式 vs MCP 方式: ❌ 传统方式: 用户: "帮我查询天气,查询方法是: 1. 访问 api.weather.com/v1/current 2. 传入参数 city=Beijing&key=xxx 3. 解析返回的 JSON 中的 temperature 字段 ...(150 tokens 的接口说明)" ✅ MCP 方式: 用户: "查询北京天气" Claude: [直接调用 weather MCP 工具] [MCP 配置已预先定义,不消耗对话 Token] 适合用 MCP 的场景 场景 传统方式 Token MCP 方式 Token 节省 文件操作 每次说明路径和操作 (100) 直接调用 (10) 90% API 调用 说明接口文档 (200) MCP 配置 (0) 100% 数据库查询 说明表结构和查询语法 (300) MCP 配置 (0) 100% Git 操作 说明命令和参数 (80) 直接调用 (10) 88% 实战案例 场景:文件系统操作 ❌ 不用 MCP: 用户: "读取项目根目录下的 package.json 文件内容, 文件路径是 /Users/xxx/project/package.json" [每次都要说明路径,50 tokens] ✅ 使用 Filesystem MCP: 用户: "读取 package.json" [MCP 自动定位文件,10 tokens] 节省:80% 推荐的 MCP 工具: Filesystem MCP - 文件读写 Git MCP - Git 操作 Database MCP - 数据库查询 Web Search MCP - 网络搜索 Custom API MCP - 自定义 API 调用 📁 技巧7:优化项目文件管理 项目上下文的 Token 陷阱 当你让 Claude 处理项目代码时,如果一次性上传大量文件,会消耗巨量 Token。 ❌ 错误做法: 上传整个项目目录(50个文件,总计 20000 tokens) 每次对话都加载全部文件 第5轮对话输入 Token:当前提示(100) + 历史(2000) + 项目文件(20000) = 22100 tokens 单轮成本(Sonnet):22100×$3/百万 = $0.066 ✅ 正确做法: 只上传当前任务相关的文件(5个文件,总计 2000 tokens) 第5轮对话输入 Token:当前提示(100) + 历史(500) + 相关文件(2000) = 2600 tokens 单轮成本(Sonnet):2600×$3/百万 = $0.0078 节省:88% 🎉 项目文件管理策略 1. 按需上传文件 ❌ 一次性上传所有代码 ✅ 只上传当前讨论的模块 示例: - 讨论登录功能 → 只传 auth/login.js - 讨论数据库 → 只传 models/ 目录 2. 使用文件摘要 对于大型文件,先让 Claude 生成摘要: 用户: "总结 user.service.js 的核心功能(不要输出代码)" Claude: "该文件提供用户管理服务,包含: - createUser: 创建用户 - updateUser: 更新用户信息 - deleteUser: 删除用户 [50 tokens 的摘要,而不是 2000 tokens 的完整代码]" 后续对话引用摘要即可。 3. 使用 .claudeignore # .claudeignore 文件(类似 .gitignore) node_modules/ dist/ build/ *.log .env package-lock.json 4. 代码片段而非完整文件 ❌ 传整个 1000 行的文件 ✅ 只传相关的函数(50 行) 用户: "审查 user.service.js 中的 createUser 函数" [只粘贴该函数代码,不传整个文件] Token 节省对比 项目规模 全量上传 Token 按需上传 Token 节省 小型项目 (20个文件) 8000 1000 88% 中型项目 (50个文件) 25000 2000 92% 大型项目 (200个文件) 120000 5000 96% 🔄 技巧8:利用 Prompt Caching Prompt Caching 是什么? Anthropic 提供的 Prompt Caching 功能,可以缓存重复使用的提示内容,后续调用时缓存部分不计费(或只收取极低的缓存读取费用)。 适用场景: 大型项目文档反复引用 固定的代码规范文档 复杂的系统提示词 长期使用的知识库 计费对比 不使用缓存: 第1次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens 第2次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens 第10次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens 10次累计输入 Token:51000 成本(Sonnet):51000×$3/百万 = $0.153 使用缓存: 第1次调用(写入缓存): - 项目文档(5000 tokens) - 正常计费 - 提示(100 tokens) - 正常计费 - 缓存写入费:5000×$3.75/百万 = $0.01875 第2-10次调用(读取缓存): - 项目文档(5000 tokens) - 从缓存读取:$0.30/百万 - 提示(100 tokens) - 正常计费 - 单次成本:5000×$0.30/百万 + 100×$3/百万 = $0.0018 10次累计成本:$0.01875 + 9×$0.0018 = $0.0349 节省:77% 🎉 如何使用 Prompt Caching API 方式(Python SDK): import anthropic client = anthropic.Anthropic(api_key="your-api-key") # 第一次调用,建立缓存 response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, system=[ { "type": "text", "text": "你是一个代码审查专家..." # 固定的系统提示 }, { "type": "text", "text": "项目代码规范:...(5000 tokens)", # 需要缓存的内容 "cache_control": {"type": "ephemeral"} # 标记为可缓存 } ], messages=[ {"role": "user", "content": "审查这段代码..."} ] ) # 后续调用会自动使用缓存 Web UI 方式: 目前 Claude Web 界面自动启用缓存 长时间对话会自动缓存对话历史 建议: 重要的项目文档放在对话开头,让 Claude 缓存 ⚡ 技巧9:避免无效对话 什么是无效对话? 无效对话的特征: 重复确认和废话 过度礼貌的寒暄 不必要的解释 冗长的感谢 Token 浪费示例: ❌ 无效对话(消耗 150 tokens): 用户: "你能帮我审查一下代码吗?如果可以的话就帮我看看" Claude: "当然可以!我很乐意帮助你审查代码。请把代码发给我, 我会仔细检查并提供详细的反馈。" 用户: "太好了!那我现在就发给你。代码如下:..." Claude: "好的,我收到了你的代码。让我仔细分析一下..." ✅ 高效对话(消耗 30 tokens): 用户: "审查以下代码:..." Claude: [直接输出审查结果] 节省:80% 避免无效对话的技巧 1. 直接发出指令 ❌ "你好,请问你能帮我..." ❌ "如果可以的话,麻烦..." ❌ "不好意思打扰一下..." ✅ 直接说需求:"审查代码"、"生成文档"、"修复bug" 2. 让 Claude 简洁回复 在对话开头设定: "请简洁回复,直接给出结果,无需解释过程" 或者在 Skill 中配置: "输出原则:简洁、直接、无废话" 3. 避免重复确认 ❌ 用户: "帮我审查代码" Claude: "好的,请提供代码" 用户: "代码如下:..." ✅ 用户: "审查以下代码:..." [一次性提供] 4. 批量提问 ❌ 分3次问: - "这段代码有bug吗?" - "性能怎么样?" - "安全性如何?" ✅ 一次问全: "分析这段代码的:1) bug 2) 性能 3) 安全性" 📊 技巧10:使用 API 精细控制 API 的成本控制优势 通过 API 使用 Claude,可以实现更精细的 Token 控制。 关键参数设置 1. max_tokens(限制输出长度) # 限制输出 Token 数 response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=500, # 最多输出 500 tokens messages=[...] ) 适用场景: 只需要简短回答时设置 max_tokens=200 代码审查设置 max_tokens=800 长文创作设置 max_tokens=2000 2. temperature(控制输出随机性) response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, temperature=0.3, # 降低随机性,输出更确定 messages=[...] ) 效果: temperature=0.0 → 输出最简洁,Token 最少 temperature=1.0 → 输出更发散,Token 更多 3. stop_sequences(提前终止) response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, stop_sequences=["\n\n---\n\n", "总结:"], # 遇到这些内容就停止 messages=[...] ) 适用场景: 只需要代码,不需要解释 → stop_sequences=["```\n\n"] 只需要核心结论 → stop_sequences=["总结:"] 流式输出控制 # 流式输出,可以提前中断 with client.messages.stream( model="claude-3-5-sonnet-20241022", max_tokens=1024, messages=[...] ) as stream: for text in stream.text_stream: print(text, end="", flush=True) # 如果满足条件,提前中断 if "关键信息" in text: stream.close() break Token 计数和预算控制 import anthropic client = anthropic.Anthropic(api_key="your-api-key") # 在调用前预估 Token token_count = client.count_tokens("这是要发送的文本...") # 设置预算限制 if token_count > 1000: print("输入太长,请精简") else: response = client.messages.create(...) # 获取实际消耗 usage = response.usage print(f"输入 Token: {usage.input_tokens}") print(f"输出 Token: {usage.output_tokens}") print(f"本次成本: ${usage.input_tokens * 3 / 1000000 + usage.output_tokens * 15 / 1000000:.4f}") 📈 综合案例:实战效果对比 场景:开发一个 Todo App 任务清单: 审查现有代码(5个文件) 设计新功能架构 编写单元测试 生成 API 文档 编写 README 方案A:不优化(常规使用) 操作流程: 1. 上传所有项目文件(30个文件,15000 tokens) 2. 逐个讨论每个任务(5轮对话) 3. 每轮加载完整历史 4. 使用 Sonnet 模型处理所有任务 5. 冗长的提示词和回复 Token 消耗统计: - 项目文件上传:15000 tokens × 5轮 = 75000 tokens - 提示词:300 tokens × 5轮 = 1500 tokens - 对话历史累积:0 + 500 + 1200 + 2300 + 4000 = 8000 tokens - 总输入:84500 tokens - 总输出:5000 tokens 成本(Sonnet): 84500×$3/百万 + 5000×$15/百万 = $0.3285 方案B:完全优化 优化措施: 1. ✅ 只上传相关文件(5个文件,3000 tokens) 2. ✅ 创建代码审查 Skill(固化指令) 3. ✅ 批量提问(1次对话完成所有任务) 4. ✅ 简单任务用 Haiku(文档生成) 5. ✅ 精简提示词 6. ✅ 使用 Prompt Caching(缓存项目配置) 7. ✅ 定期清理历史 Token 消耗统计: - 项目文件(按需):3000 tokens(使用缓存,只计费一次) - 提示词(精简):50 tokens - Skill 加载:1500 tokens(触发一次) - 批量处理(无历史累积):0 tokens - 总输入:4550 tokens - 总输出:3500 tokens(简洁输出) 成本(混合模型): - 代码审查(Sonnet):4550×$3/百万 + 2000×$15/百万 = $0.0437 - 文档生成(Haiku):500×$0.8/百万 + 1500×$4/百万 = $0.0064 - 总成本:$0.0501 节省:85% 🎉🎉🎉 对比总结 维度 方案A(不优化) 方案B(优化) 改善 输入 Token 84500 5050 ⬇ 94% 输出 Token 5000 3500 ⬇ 30% 总成本 $0.3285 $0.0501 ⬇ 85% 对话轮数 5轮 1-2轮 ⬇ 70% 处理时间 15分钟 5分钟 ⬇ 67% 💡 总结与建议 十大技巧速查表 技巧 节省比例 难度 推荐指数 1. 选择合适模型 60-95% ⭐ ⭐⭐⭐⭐⭐ 2. 优化提示词 50-85% ⭐ ⭐⭐⭐⭐⭐ 3. 使用 Skill 60-93% ⭐⭐ ⭐⭐⭐⭐⭐ 4. 清理历史 50-70% ⭐ ⭐⭐⭐⭐⭐ 5. 批量处理 25-67% ⭐ ⭐⭐⭐⭐ 6. 使用 MCP 80-100% ⭐⭐⭐ ⭐⭐⭐⭐ 7. 文件管理 85-96% ⭐⭐ ⭐⭐⭐⭐⭐ 8. Prompt Caching 60-90% ⭐⭐⭐ ⭐⭐⭐⭐ 9. 避免无效对话 30-80% ⭐ ⭐⭐⭐⭐ 10. API 精细控制 20-40% ⭐⭐⭐⭐ ⭐⭐⭐ 立即可用的优化建议 🟢 初学者(难度低,收益高): ✅ 简单任务用 Haiku,复杂任务用 Sonnet ✅ 删除提示词中的寒暄和废话 ✅ 每5轮对话清理一次历史 ✅ 批量处理多个相似任务 🟡 进阶用户(难度中,收益高): ✅ 创建 2-3 个常用 Skill ✅ 只上传当前需要的文件 ✅ 让 Claude 简洁回复(在提示词中说明) 🔴 高级用户(难度高,收益高): ✅ 配置 MCP 工具 ✅ 使用 API + Prompt Caching ✅ 精细控制 max_tokens 和 temperature 成本控制目标 使用频率 不优化月成本 优化后月成本 目标节省 轻度使用(10次/天) $20 $6 70% 中度使用(30次/天) $80 $24 70% 重度使用(100次/天) $300 $90 70% 最后的建议 80/20 原则:80% 的成本来自 20% 的低效操作 重点优化:对话历史、文件上传、模型选择 循序渐进:不要一次性优化所有,选择 3-5 个最适合你的技巧 定期检查:每周查看一次 Token 使用情况,找出浪费点 自动化:编写脚本自动清理历史、批量处理任务 💡 国内程序员一般在这里使用 Claude: weelinking 关注我,获取更多 AI 使用技巧! 本文由mdnice多平台发布