大模型标准计费解读

这类计费被称为“按量计费”（Pay-as-you-go），即按使用量付费，没有月租。为了让你直观理解，我们可以把 Token 类比成“字数”（通常 1M Tokens 约为 75 万个英文单词或 50 万个汉字）。

以下是四个维度的详细解读：

这是最核心的部分，每次对话都会产生这两项费用。

输入价格 ($0.80 / 1M Tokens)： 指的是你发送给 AI 的指令、背景资料或之前的对话历史。
- 例子： 你发送了一个 1 万 Tokens 的长文档，费用就是 $0.008。
补全价格 ($4.00 / 1M Tokens)： 指的是 AI 回复给你的内容。由于生成内容需要消耗更多算力，所以回复的价格是输入的 5 倍。
- 例子： AI 回复了 5000 个 Tokens，费用就是 $0.02。

这是为了降低成本、提高速度推出的功能。如果你经常发送重复的大段背景资料（如代码库、法律条文），这个功能非常省钱。

缓存创建价格 ($1.00 / 1M Tokens)： 当你第一次把一段长文本存入缓存时，价格会比普通输入贵 25%（从 $0.8 变为 $1.0）。
缓存读取价格 ($0.08 / 1M Tokens)： 当你第二次及以后使用这段已缓存的内容时，价格会骤降。
- 划算在哪里？ 读取缓存的价格仅为普通输入的 1/10。

假设你正在开发一个 AI 助手，系统内置了 2 万 Tokens 的背景知识库。

步骤	行为	计费类型	估算费用 (USD)
第一次对话	发送 2 万字背景 + 100 字提问	缓存创建	~$0.02
第二次对话	提问 100 字（复用上述背景）	缓存读取 + 普通输入	~$0.0016 + 极小额
AI 回复	AI 生成了 500 字回复	补全价格	~$0.002

结论： 如果没有缓存，你每次对话都要为那 2 万字付全额；有了缓存，后续对话的输入成本直接打了一折。