这类计费被称为“按量计费”(Pay-as-you-go),即按使用量付费,没有月租。为了让你直观理解,我们可以把 Token 类比成“字数”(通常 1M Tokens 约为 75 万个英文单词或 50 万个汉字)。
以下是四个维度的详细解读:
1. 基础计费:输入与补全
这是最核心的部分,每次对话都会产生这两项费用。
- 输入价格 ($0.80 / 1M Tokens):
指的是你发送给 AI 的指令、背景资料或之前的对话历史。
- 例子: 你发送了一个 1 万 Tokens 的长文档,费用就是 $0.008。
- 补全价格 ($4.00 / 1M Tokens):
指的是 AI 回复给你的内容。由于生成内容需要消耗更多算力,所以回复的价格是输入的 5 倍。
- 例子: AI 回复了 5000 个 Tokens,费用就是 $0.02。
2. 高级功能:提示词缓存 (Prompt Caching)
这是为了降低成本、提高速度推出的功能。如果你经常发送重复的大段背景资料(如代码库、法律条文),这个功能非常省钱。
- 缓存创建价格 ($1.00 / 1M Tokens): 当你第一次把一段长文本存入缓存时,价格会比普通输入贵 25%(从 $0.8 变为 $1.0)。
- 缓存读取价格 ($0.08 / 1M Tokens):
当你第二次及以后使用这段已缓存的内容时,价格会骤降。
- 划算在哪里? 读取缓存的价格仅为普通输入的 1/10。
3. 场景模拟计算
假设你正在开发一个 AI 助手,系统内置了 2 万 Tokens 的背景知识库。
| 步骤 | 行为 | 计费类型 | 估算费用 (USD) |
|---|---|---|---|
| 第一次对话 | 发送 2 万字背景 + 100 字提问 | 缓存创建 | ~$0.02 |
| 第二次对话 | 提问 100 字(复用上述背景) | 缓存读取 + 普通输入 | ~$0.0016 + 极小额 |
| AI 回复 | AI 生成了 500 字回复 | 补全价格 | ~$0.002 |
结论: 如果没有缓存,你每次对话都要为那 2 万字付全额;有了缓存,后续对话的输入成本直接打了一折。
4. 核心特点总结
- 极高性价比: Haiku 是 Claude 3.5 系列中最快、最便宜的模型,非常适合处理高频、简单的任务。
- 读写分离: 写(生成内容)比读(理解内容)贵得多,这是行业通用的逻辑。
- 长文本优势: 缓存机制让处理超长上下文(如分析整本书)的成本大幅下降。
