这类计费被称为“按量计费”(Pay-as-you-go),即按使用量付费,没有月租。为了让你直观理解,我们可以把 Token 类比成“字数”(通常 1M Tokens 约为 75 万个英文单词或 50 万个汉字)。

以下是四个维度的详细解读:


1. 基础计费:输入与补全

这是最核心的部分,每次对话都会产生这两项费用。

  • 输入价格 ($0.80 / 1M Tokens): 指的是你发送给 AI 的指令、背景资料或之前的对话历史。
    • 例子: 你发送了一个 1 万 Tokens 的长文档,费用就是 $0.008。
  • 补全价格 ($4.00 / 1M Tokens): 指的是 AI 回复给你的内容。由于生成内容需要消耗更多算力,所以回复的价格是输入的 5 倍
    • 例子: AI 回复了 5000 个 Tokens,费用就是 $0.02。

2. 高级功能:提示词缓存 (Prompt Caching)

这是为了降低成本、提高速度推出的功能。如果你经常发送重复的大段背景资料(如代码库、法律条文),这个功能非常省钱。

  • 缓存创建价格 ($1.00 / 1M Tokens): 当你第一次把一段长文本存入缓存时,价格会比普通输入贵 25%(从 $0.8 变为 $1.0)。
  • 缓存读取价格 ($0.08 / 1M Tokens): 当你第二次及以后使用这段已缓存的内容时,价格会骤降。
    • 划算在哪里? 读取缓存的价格仅为普通输入的 1/10

3. 场景模拟计算

假设你正在开发一个 AI 助手,系统内置了 2 万 Tokens 的背景知识库。

步骤行为计费类型估算费用 (USD)
第一次对话发送 2 万字背景 + 100 字提问缓存创建~$0.02
第二次对话提问 100 字(复用上述背景)缓存读取 + 普通输入~$0.0016 + 极小额
AI 回复AI 生成了 500 字回复补全价格~$0.002

结论: 如果没有缓存,你每次对话都要为那 2 万字付全额;有了缓存,后续对话的输入成本直接打了一折。


4. 核心特点总结

  • 极高性价比: Haiku 是 Claude 3.5 系列中最快、最便宜的模型,非常适合处理高频、简单的任务。
  • 读写分离: 写(生成内容)比读(理解内容)贵得多,这是行业通用的逻辑。
  • 长文本优势: 缓存机制让处理超长上下文(如分析整本书)的成本大幅下降。