如何通过10个技巧让Claude节省70%的Token消耗?
摘要:关注公众号:weelinking | 访问官网:weelinking.com 📅 发布日期:202
关注公众号:weelinking | 访问官网:weelinking.com
📅 发布日期:2026年2月9日
🏷️ 标签:Claude | Token优化 | 成本控制 | AI效率
⏱️ 阅读时长:12分钟
📄 文章摘要
使用 Claude 时感觉成本太高?本文深度解析 Claude 的 Token 计费机制,提供 10 个经过实战验证的省 Token 技巧,涵盖模型选择、提示词优化、Skill 应用、对话管理、批量处理等核心场景。通过合理运用这些技巧,可以在保证输出质量的前提下,将 Token 消耗降低 50-70%,大幅降低使用成本。文章包含详细的 Token 消耗对比数据、实战案例和最佳实践,适合所有 Claude 用户阅读。
关键词: Claude Token 优化、Claude 成本控制、Claude 省钱技巧、AI Token 节省、提示词优化、Claude Skill、模型选择、对话管理
💡 国内体验 Claude4.6: weelinking - 稳定、稳定、稳定
📑 目录导航
💰 Claude Token 计费机制详解
🎯 技巧1:选择合适的模型
✍️ 技巧2:优化提示词结构
🔧 技巧3:使用 Skill 固化常用指令
💬 技巧4:管理对话历史
📦 技巧5:批量处理而非多次询问
🛠️ 技巧6:善用 MCP 工具
📁 技巧7:优化项目文件管理
🔄 技巧8:利用 Prompt Caching
⚡ 技巧9:避免无效对话
📊 技巧10:使用 API 精细控制
📈 综合案例:实战效果对比
💡 总结与建议
💰 Claude Token 计费机制详解
Token 是什么?
Token 是 AI 模型处理文本的基本单位。简单理解:
1 个 Token ≈ 0.75 个英文单词
1 个 Token ≈ 0.5 个中文字符(中文更"贵")
示例:
"Hello World" = 2 tokens
"你好世界" = 4 tokens
"Claude is great!" = 3 tokens
"Claude 真棒!" = 5 tokens
Claude 的计费方式
Claude 按照 输入 Token + 输出 Token 双向计费:
模型
输入价格
输出价格
上下文窗口
Claude 3.5 Haiku
$0.80/百万
$4.00/百万
200K
Claude 3.5 Sonnet
$3.00/百万
$15.00/百万
200K
Claude Opus 4.6
$15.00/百万
$75.00/百万
200K
重要提示:
每次对话都会加载完整的对话历史(输入 Token 累积)
输出 Token 通常是输入的 1/5 ~ 1/3
对话越长,成本越高(指数级增长)
典型使用场景成本分析
场景1:代码审查(500行代码)
不优化的情况:
- 输入:完整代码(1500 tokens) + 详细指令(300 tokens) + 历史对话(2000 tokens) = 3800 tokens
- 输出:详细报告 = 800 tokens
- 单次成本(Sonnet):3800×$3/百万 + 800×$15/百万 = $0.0234
优化后:
- 输入:精简代码(1500 tokens) + 简洁指令(50 tokens) + 清理历史(0 tokens) = 1550 tokens
- 输出:结构化报告 = 600 tokens
- 单次成本(Sonnet):1550×$3/百万 + 600×$15/百万 = $0.0136
节省:42%
场景2:写作助手(持续对话)
不优化的情况:
- 10轮对话累积:每轮加载全部历史
- 第10轮输入:当前提示(100 tokens) + 历史对话(9000 tokens) = 9100 tokens
- 总成本(Sonnet):约 $0.15
优化后:
- 定期清理历史,使用 Skill 固化指令
- 第10轮输入:当前提示(100 tokens) + 关键历史(500 tokens) = 600 tokens
- 总成本(Sonnet):约 $0.045
节省:70%
🎯 技巧1:选择合适的模型
三大模型对比
模型
适用场景
成本
质量
Haiku
简单任务、数据提取、格式转换
最低
中等
Sonnet
日常开发、代码审查、内容创作
中等
优秀
Opus
复杂推理、架构设计、高质量创作
最高
顶级
实战建议
✅ 用 Haiku 的场景:
- JSON 格式转换
- 数据提取和清洗
- 简单的代码注释生成
- 文本分类和标签提取
- 格式化输出
✅ 用 Sonnet 的场景:
- 代码编写和审查
- 技术文档撰写
- Bug 调试分析
- API 设计
- 日常开发问答
✅ 用 Opus 的场景:
- 复杂架构设计
- 核心算法实现
- 深度技术调研
- 高质量长文创作
- 关键决策咨询
成本对比案例
任务:将 CSV 数据转换为 JSON 格式
使用 Opus:
- 输入:1000 tokens
- 输出:500 tokens
- 成本:1000×$15/百万 + 500×$75/百万 = $0.0525
使用 Haiku:
- 输入:1000 tokens
- 输出:500 tokens
- 成本:1000×$0.8/百万 + 500×$4/百万 = $0.0028
节省:95% 🎉
关键结论: 简单任务用 Haiku 完全够用,没必要上 Sonnet 或 Opus!
✍️ 技巧2:优化提示词结构
冗余提示词的代价
❌ 冗余的提示词(200 tokens):
你好,我是一名开发者,我现在正在做一个项目,这个项目使用 React 框架。
我遇到了一个问题,就是关于状态管理的问题。我想问一下,在 React 中,
如果我想要在多个组件之间共享状态,应该怎么做呢?我听说可以用 Context,
也听说可以用 Redux,但是我不太清楚它们的区别,你能帮我分析一下吗?
另外,如果我的项目不是很大,用哪个比较合适呢?谢谢!
✅ 精简的提示词(30 tokens):
React 小型项目如何在组件间共享状态?Context vs Redux,如何选择?
Token 节省:85%
输出质量:完全一致 ✅
提示词优化原则
1. 删除寒暄和客套话
❌ "你好,请问..."、"谢谢你的帮助"、"如果可以的话"
✅ 直接描述需求
2. 使用精准的术语
❌ "那个用来管理状态的东西"
✅ "状态管理方案"
3. 结构化表达
❌ 大段文字描述
✅ 使用列表或表格:
需求:
- 功能:多组件状态共享
- 项目规模:小型
- 技术栈:React 18
- 问题:Context vs Redux 选择
4. 避免重复信息
❌ 每次都说"我用的是 React + TypeScript + Vite"
✅ 在对话开始时说一次,或使用 Skill 固化项目信息
实战对比
提示词类型
Token 数
输出质量
备注
冗长描述
150-300
优秀
浪费 Token
适度描述
50-100
优秀
推荐 ⭐
过度精简
10-20
良好
可能理解偏差
🔧 技巧3:使用 Skill 固化常用指令
Skill 的 Token 节省原理
渐进式披露机制:
阶段1(始终加载): description 字段(~50 tokens)
阶段2(触发后加载): 完整 Skill 内容(~1500 tokens)
阶段3(按需加载): references 外部文件
传统方式 vs Skill 方式:
❌ 传统方式(每次都要说):
用户: "帮我审查这段代码,注意检查:
1. 命名规范(驼峰命名)
2. 错误处理(必须有 try-catch)
3. 安全问题(SQL注入、XSS)
4. 性能问题(避免不必要的循环)
5. 输出格式:总体评分 + 问题列表 + 改进建议"
[这段指令每次消耗 150 tokens]
✅ Skill 方式(一次配置,永久生效):
用户: "审查这段代码" [仅消耗 10 tokens]
[Skill 自动加载规则,但只在触发时消耗 Token]
Token 消耗对比
场景:代码审查(10 次)
方式
单次输入 Token
10 次累计
节省
传统方式
指令(150) + 代码(500) = 650
6500
-
Skill 方式
触发词(10) + 代码(500) + Skill加载(1500)
5100
22%
Skill + 清理历史
触发词(10) + 代码(500) + Skill(1500)
2010
69%
如何创建省 Token 的 Skill
示例:代码审查 Skill
---
name: Quick Code Reviewer
description: Reviews code for bugs and issues when user asks to check code
---
# 代码快速审查
## 审查维度
1. 命名规范
2. 错误处理
3. 安全问题
4. 性能问题
## 输出格式
- 评分: X/10
- 问题列表
- 改进建议
## 原则
- 简洁输出,避免冗余
- 严重问题优先
- 提供代码示例
使用效果:
不用 Skill:每次输入 150 tokens 指令
使用 Skill:每次只需说"审查代码"(10 tokens)
节省 93% 指令 Token
💬 技巧4:管理对话历史
对话历史的"隐形成本"
Claude 每次响应都会加载完整的对话历史,这是 Token 消耗的大头!
成本累积示例:
对话轮次 当前输入 历史累积 总输入Token 累积成本(Sonnet)
第1轮 100 0 100 $0.0003
第2轮 100 200 300 $0.0009
第3轮 100 500 600 $0.0018
第5轮 100 1200 1300 $0.0039
第10轮 100 5000 5100 $0.0153
❌ 不清理历史:第10轮单次输入 5100 tokens
✅ 定期清理:每轮输入保持在 100-300 tokens
何时清理对话历史
清理时机:
任务切换时
刚才:讨论前端代码
现在:讨论后端架构
→ 清理!前端对话已无用
对话超过 5-10 轮时
累积历史 > 3000 tokens → 考虑清理
出现重复内容时
多次讨论同一个问题 → 保留最终结论,删除过程
长文本输出后
Claude 输出了 2000 tokens 的文档 → 立即清理
如何清理对话历史
方法1:手动开始新对话
优点:完全清空,Token 归零
缺点:丢失所有上下文
方法2:明确告知 Claude
"之前的对话可以忽略了,我们开始新的话题"
优点:保留当前对话窗口
缺点:历史仍然加载(但 Claude 会理解可以忽略)
方法3:总结后清理
用户: "总结一下我们讨论的要点"
Claude: [输出总结]
用户: [开始新对话,只引用总结]
优点:保留关键信息,大幅减少 Token
缺点:需要手动操作
实战效果
案例:持续 20 轮的开发对话
❌ 不清理历史:
第20轮输入 = 当前提示(100) + 历史(12000) = 12100 tokens
总成本(Sonnet):约 $0.50
✅ 每5轮清理一次:
平均每轮输入 = 100-500 tokens
总成本(Sonnet):约 $0.15
节省:70% 🎉
📦 技巧5:批量处理而非多次询问
多次询问的成本陷阱
❌ 低效方式(3次对话):
第1次:
用户: "帮我审查 user.js 文件"
Claude: [输出审查结果 500 tokens]
第2次:
用户: "再审查 order.js 文件"
[加载上次对话历史 700 tokens]
Claude: [输出审查结果 500 tokens]
第3次:
用户: "再审查 product.js 文件"
[加载历史 1700 tokens]
Claude: [输出审查结果 500 tokens]
总输入 Token: 100 + 800 + 1800 = 2700
总输出 Token: 1500
总成本(Sonnet): 2700×$3/百万 + 1500×$15/百万 = $0.0306
✅ 高效方式(1次对话):
用户: "批量审查以下文件:
1. user.js
2. order.js
3. product.js"
Claude: [输出3个文件的审查结果 1500 tokens]
总输入 Token: 150(无历史累积)
总输出 Token: 1500
总成本(Sonnet): 150×$3/百万 + 1500×$15/百万 = $0.0230
节省:25%
批量处理的最佳实践
1. 代码审查
❌ 逐个文件审查
✅ "审查 src/utils/ 目录下所有文件"
2. 文档生成
❌ 分别生成 API 文档、README、部署文档
✅ "生成完整的项目文档(API文档 + README + 部署指南)"
3. Bug 修复
❌ 逐个讨论每个 bug
✅ "以下是3个 bug,请提供修复方案:
Bug 1: ...
Bug 2: ...
Bug 3: ..."
4. 代码重构
❌ 分步讨论重构方案
✅ "完整的重构计划:
1. 当前问题
2. 重构目标
3. 实施步骤
4. 预期效果"
Token 节省计算
任务数量
分次处理成本
批量处理成本
节省比例
3个任务
$0.030
$0.023
23%
5个任务
$0.065
$0.035
46%
10个任务
$0.180
$0.060
67%
结论: 任务越多,批量处理优势越明显!
🛠️ 技巧6:善用 MCP 工具
MCP 如何节省 Token
MCP (Model Context Protocol) 允许 Claude 直接调用外部工具,避免重复描述工具使用方法。
传统方式 vs MCP 方式:
❌ 传统方式:
用户: "帮我查询天气,查询方法是:
1. 访问 api.weather.com/v1/current
2. 传入参数 city=Beijing&key=xxx
3. 解析返回的 JSON 中的 temperature 字段
...(150 tokens 的接口说明)"
✅ MCP 方式:
用户: "查询北京天气"
Claude: [直接调用 weather MCP 工具]
[MCP 配置已预先定义,不消耗对话 Token]
适合用 MCP 的场景
场景
传统方式 Token
MCP 方式 Token
节省
文件操作
每次说明路径和操作 (100)
直接调用 (10)
90%
API 调用
说明接口文档 (200)
MCP 配置 (0)
100%
数据库查询
说明表结构和查询语法 (300)
MCP 配置 (0)
100%
Git 操作
说明命令和参数 (80)
直接调用 (10)
88%
实战案例
场景:文件系统操作
❌ 不用 MCP:
用户: "读取项目根目录下的 package.json 文件内容,
文件路径是 /Users/xxx/project/package.json"
[每次都要说明路径,50 tokens]
✅ 使用 Filesystem MCP:
用户: "读取 package.json"
[MCP 自动定位文件,10 tokens]
节省:80%
推荐的 MCP 工具:
Filesystem MCP - 文件读写
Git MCP - Git 操作
Database MCP - 数据库查询
Web Search MCP - 网络搜索
Custom API MCP - 自定义 API 调用
📁 技巧7:优化项目文件管理
项目上下文的 Token 陷阱
当你让 Claude 处理项目代码时,如果一次性上传大量文件,会消耗巨量 Token。
❌ 错误做法:
上传整个项目目录(50个文件,总计 20000 tokens)
每次对话都加载全部文件
第5轮对话输入 Token:当前提示(100) + 历史(2000) + 项目文件(20000) = 22100 tokens
单轮成本(Sonnet):22100×$3/百万 = $0.066
✅ 正确做法:
只上传当前任务相关的文件(5个文件,总计 2000 tokens)
第5轮对话输入 Token:当前提示(100) + 历史(500) + 相关文件(2000) = 2600 tokens
单轮成本(Sonnet):2600×$3/百万 = $0.0078
节省:88% 🎉
项目文件管理策略
1. 按需上传文件
❌ 一次性上传所有代码
✅ 只上传当前讨论的模块
示例:
- 讨论登录功能 → 只传 auth/login.js
- 讨论数据库 → 只传 models/ 目录
2. 使用文件摘要
对于大型文件,先让 Claude 生成摘要:
用户: "总结 user.service.js 的核心功能(不要输出代码)"
Claude: "该文件提供用户管理服务,包含:
- createUser: 创建用户
- updateUser: 更新用户信息
- deleteUser: 删除用户
[50 tokens 的摘要,而不是 2000 tokens 的完整代码]"
后续对话引用摘要即可。
3. 使用 .claudeignore
# .claudeignore 文件(类似 .gitignore)
node_modules/
dist/
build/
*.log
.env
package-lock.json
4. 代码片段而非完整文件
❌ 传整个 1000 行的文件
✅ 只传相关的函数(50 行)
用户: "审查 user.service.js 中的 createUser 函数"
[只粘贴该函数代码,不传整个文件]
Token 节省对比
项目规模
全量上传 Token
按需上传 Token
节省
小型项目 (20个文件)
8000
1000
88%
中型项目 (50个文件)
25000
2000
92%
大型项目 (200个文件)
120000
5000
96%
🔄 技巧8:利用 Prompt Caching
Prompt Caching 是什么?
Anthropic 提供的 Prompt Caching 功能,可以缓存重复使用的提示内容,后续调用时缓存部分不计费(或只收取极低的缓存读取费用)。
适用场景:
大型项目文档反复引用
固定的代码规范文档
复杂的系统提示词
长期使用的知识库
计费对比
不使用缓存:
第1次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens
第2次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens
第10次调用:项目文档(5000 tokens) + 提示(100 tokens) = 5100 tokens
10次累计输入 Token:51000
成本(Sonnet):51000×$3/百万 = $0.153
使用缓存:
第1次调用(写入缓存):
- 项目文档(5000 tokens) - 正常计费
- 提示(100 tokens) - 正常计费
- 缓存写入费:5000×$3.75/百万 = $0.01875
第2-10次调用(读取缓存):
- 项目文档(5000 tokens) - 从缓存读取:$0.30/百万
- 提示(100 tokens) - 正常计费
- 单次成本:5000×$0.30/百万 + 100×$3/百万 = $0.0018
10次累计成本:$0.01875 + 9×$0.0018 = $0.0349
节省:77% 🎉
如何使用 Prompt Caching
API 方式(Python SDK):
import anthropic
client = anthropic.Anthropic(api_key="your-api-key")
# 第一次调用,建立缓存
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
system=[
{
"type": "text",
"text": "你是一个代码审查专家..." # 固定的系统提示
},
{
"type": "text",
"text": "项目代码规范:...(5000 tokens)", # 需要缓存的内容
"cache_control": {"type": "ephemeral"} # 标记为可缓存
}
],
messages=[
{"role": "user", "content": "审查这段代码..."}
]
)
# 后续调用会自动使用缓存
Web UI 方式:
目前 Claude Web 界面自动启用缓存
长时间对话会自动缓存对话历史
建议: 重要的项目文档放在对话开头,让 Claude 缓存
⚡ 技巧9:避免无效对话
什么是无效对话?
无效对话的特征:
重复确认和废话
过度礼貌的寒暄
不必要的解释
冗长的感谢
Token 浪费示例:
❌ 无效对话(消耗 150 tokens):
用户: "你能帮我审查一下代码吗?如果可以的话就帮我看看"
Claude: "当然可以!我很乐意帮助你审查代码。请把代码发给我,
我会仔细检查并提供详细的反馈。"
用户: "太好了!那我现在就发给你。代码如下:..."
Claude: "好的,我收到了你的代码。让我仔细分析一下..."
✅ 高效对话(消耗 30 tokens):
用户: "审查以下代码:..."
Claude: [直接输出审查结果]
节省:80%
避免无效对话的技巧
1. 直接发出指令
❌ "你好,请问你能帮我..."
❌ "如果可以的话,麻烦..."
❌ "不好意思打扰一下..."
✅ 直接说需求:"审查代码"、"生成文档"、"修复bug"
2. 让 Claude 简洁回复
在对话开头设定:
"请简洁回复,直接给出结果,无需解释过程"
或者在 Skill 中配置:
"输出原则:简洁、直接、无废话"
3. 避免重复确认
❌
用户: "帮我审查代码"
Claude: "好的,请提供代码"
用户: "代码如下:..."
✅
用户: "审查以下代码:..." [一次性提供]
4. 批量提问
❌ 分3次问:
- "这段代码有bug吗?"
- "性能怎么样?"
- "安全性如何?"
✅ 一次问全:
"分析这段代码的:1) bug 2) 性能 3) 安全性"
📊 技巧10:使用 API 精细控制
API 的成本控制优势
通过 API 使用 Claude,可以实现更精细的 Token 控制。
关键参数设置
1. max_tokens(限制输出长度)
# 限制输出 Token 数
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=500, # 最多输出 500 tokens
messages=[...]
)
适用场景:
只需要简短回答时设置 max_tokens=200
代码审查设置 max_tokens=800
长文创作设置 max_tokens=2000
2. temperature(控制输出随机性)
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
temperature=0.3, # 降低随机性,输出更确定
messages=[...]
)
效果:
temperature=0.0 → 输出最简洁,Token 最少
temperature=1.0 → 输出更发散,Token 更多
3. stop_sequences(提前终止)
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
stop_sequences=["\n\n---\n\n", "总结:"], # 遇到这些内容就停止
messages=[...]
)
适用场景:
只需要代码,不需要解释 → stop_sequences=["```\n\n"]
只需要核心结论 → stop_sequences=["总结:"]
流式输出控制
# 流式输出,可以提前中断
with client.messages.stream(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
messages=[...]
) as stream:
for text in stream.text_stream:
print(text, end="", flush=True)
# 如果满足条件,提前中断
if "关键信息" in text:
stream.close()
break
Token 计数和预算控制
import anthropic
client = anthropic.Anthropic(api_key="your-api-key")
# 在调用前预估 Token
token_count = client.count_tokens("这是要发送的文本...")
# 设置预算限制
if token_count > 1000:
print("输入太长,请精简")
else:
response = client.messages.create(...)
# 获取实际消耗
usage = response.usage
print(f"输入 Token: {usage.input_tokens}")
print(f"输出 Token: {usage.output_tokens}")
print(f"本次成本: ${usage.input_tokens * 3 / 1000000 + usage.output_tokens * 15 / 1000000:.4f}")
📈 综合案例:实战效果对比
场景:开发一个 Todo App
任务清单:
审查现有代码(5个文件)
设计新功能架构
编写单元测试
生成 API 文档
编写 README
方案A:不优化(常规使用)
操作流程:
1. 上传所有项目文件(30个文件,15000 tokens)
2. 逐个讨论每个任务(5轮对话)
3. 每轮加载完整历史
4. 使用 Sonnet 模型处理所有任务
5. 冗长的提示词和回复
Token 消耗统计:
- 项目文件上传:15000 tokens × 5轮 = 75000 tokens
- 提示词:300 tokens × 5轮 = 1500 tokens
- 对话历史累积:0 + 500 + 1200 + 2300 + 4000 = 8000 tokens
- 总输入:84500 tokens
- 总输出:5000 tokens
成本(Sonnet):
84500×$3/百万 + 5000×$15/百万 = $0.3285
方案B:完全优化
优化措施:
1. ✅ 只上传相关文件(5个文件,3000 tokens)
2. ✅ 创建代码审查 Skill(固化指令)
3. ✅ 批量提问(1次对话完成所有任务)
4. ✅ 简单任务用 Haiku(文档生成)
5. ✅ 精简提示词
6. ✅ 使用 Prompt Caching(缓存项目配置)
7. ✅ 定期清理历史
Token 消耗统计:
- 项目文件(按需):3000 tokens(使用缓存,只计费一次)
- 提示词(精简):50 tokens
- Skill 加载:1500 tokens(触发一次)
- 批量处理(无历史累积):0 tokens
- 总输入:4550 tokens
- 总输出:3500 tokens(简洁输出)
成本(混合模型):
- 代码审查(Sonnet):4550×$3/百万 + 2000×$15/百万 = $0.0437
- 文档生成(Haiku):500×$0.8/百万 + 1500×$4/百万 = $0.0064
- 总成本:$0.0501
节省:85% 🎉🎉🎉
对比总结
维度
方案A(不优化)
方案B(优化)
改善
输入 Token
84500
5050
⬇ 94%
输出 Token
5000
3500
⬇ 30%
总成本
$0.3285
$0.0501
⬇ 85%
对话轮数
5轮
1-2轮
⬇ 70%
处理时间
15分钟
5分钟
⬇ 67%
💡 总结与建议
十大技巧速查表
技巧
节省比例
难度
推荐指数
1. 选择合适模型
60-95%
⭐
⭐⭐⭐⭐⭐
2. 优化提示词
50-85%
⭐
⭐⭐⭐⭐⭐
3. 使用 Skill
60-93%
⭐⭐
⭐⭐⭐⭐⭐
4. 清理历史
50-70%
⭐
⭐⭐⭐⭐⭐
5. 批量处理
25-67%
⭐
⭐⭐⭐⭐
6. 使用 MCP
80-100%
⭐⭐⭐
⭐⭐⭐⭐
7. 文件管理
85-96%
⭐⭐
⭐⭐⭐⭐⭐
8. Prompt Caching
60-90%
⭐⭐⭐
⭐⭐⭐⭐
9. 避免无效对话
30-80%
⭐
⭐⭐⭐⭐
10. API 精细控制
20-40%
⭐⭐⭐⭐
⭐⭐⭐
立即可用的优化建议
🟢 初学者(难度低,收益高):
✅ 简单任务用 Haiku,复杂任务用 Sonnet
✅ 删除提示词中的寒暄和废话
✅ 每5轮对话清理一次历史
✅ 批量处理多个相似任务
🟡 进阶用户(难度中,收益高):
✅ 创建 2-3 个常用 Skill
✅ 只上传当前需要的文件
✅ 让 Claude 简洁回复(在提示词中说明)
🔴 高级用户(难度高,收益高):
✅ 配置 MCP 工具
✅ 使用 API + Prompt Caching
✅ 精细控制 max_tokens 和 temperature
成本控制目标
使用频率
不优化月成本
优化后月成本
目标节省
轻度使用(10次/天)
$20
$6
70%
中度使用(30次/天)
$80
$24
70%
重度使用(100次/天)
$300
$90
70%
最后的建议
80/20 原则:80% 的成本来自 20% 的低效操作
重点优化:对话历史、文件上传、模型选择
循序渐进:不要一次性优化所有,选择 3-5 个最适合你的技巧
定期检查:每周查看一次 Token 使用情况,找出浪费点
自动化:编写脚本自动清理历史、批量处理任务
💡 国内程序员一般在这里使用 Claude: weelinking
关注我,获取更多 AI 使用技巧!
本文由mdnice多平台发布
