API价格不会毁掉你的应用—糟糕的数学会
周二凌晨2点,你的聊天机器人忽然爆火。用户注册速度超出预期。你刷新API仪表盘,本来期待兴奋的感受扑面而来。
结果周成本飙升到28,000人民币。这个月还有23天。
这个场景每个月都在某个创始人身上上演。你选的API服务商价格结构根本不重要,直到它突然变得非常重要。这时候你已经上线了,架构已定,现在面临选择:全部重写,或者眼看毛利蒸发。
好消息是:你不必面临这个选择。API价格差异极大,但绝不是随机的。它们可预测。一旦理解真实成本——不只是单位价格——你就能为自己的产品选对平台,从第一天起锁定合理的单位经济。
单位价格的谎言
每个API供应商都这样宣传:输入token百万分之50元,输出百万分之150元。这是营销方式。也完全误导人。
如果你的app运行长对话,token价格只占成本的一半。如果是代码生成,可能只占四分之一。真实成本取决于:
- 输入输出比例:问答机器人2:1,代码生成工具1:5。
- 对话长度:隔离的短请求比需要维持上下文的长会话便宜3倍。
- 批处理vs实时:批处理API如果能容忍24小时延迟,成本便宜50%。
- 模型能力:贵10倍的模型可能用1/5的token就够,因为更聪明,总体更便宜。
现实例子:商品推荐引擎处理10,000个商品,一个供应商成本$0.80/次,另一个$0.30/次。每天1,000次,一年差182,500美元。单位价格基本无关;业务量和架构才是决定因素。
你真正要付的钱
这是实际成本:
| 供应商 | 输入(百万token) | 输出(百万token) | 最适合 |
|---|---|---|---|
| 高容量型 | ¥3 | ¥9 | 通用聊天、问答 |
| 高能力型 | ¥18 | ¥90 | 复杂推理、写作 |
| 批处理型 | ¥0.9 | ¥3.6 | 大容量、成本优化 |
聊天机器人每月处理5亿input token:
- 高容量型:¥1,500
- 高能力型:¥9,000
- 批处理型:¥450
12个月后:18,000元 vs 108,000元 vs 5,400元。但高能力型可能输出质量更好,减少返工,反而拉低总成本。
大多数创始人优化了错误的变量。他们按单位价格选,不按总体outcome成本选。
隐藏成本
价格页面干净。现实很脏。
- 限流和重试:触发限流要重试,这次成本翻倍(请求失败了)。预留10-15%开销。
- Token估计误差:分词器不同。同样文本这边12个token,那边14个。加20%缓冲。
- 上下文窗口:小窗口意味着频繁注入新上下文(更多input token)。大窗口能传递长对话历史,不用重置。
- 批处理折扣:24小时延迟的批处理成本便宜50%。大多数创始人不知道。
怎样计算真实成本
写下来:
月成本 = (请求数 × 平均输入token × 输入价格)
+ (请求数 × 平均输出token × 输出价格)
+ (错误重试开销 × 15%)
+ (上下文切换开销 × 20%)
代入原型的真实数字。跳过这步直接上线,之后会惊慌失措。
如果产品有特定性能需求,工程师主导的架构评审能提早发现问题。Trove Deck Solution的每个项目都包括这个—上线前计算真实单位经济,而不是上线后才发现成本爆表。
什么平台做什么
自助创始人3个月内上线:
- 聊天、问答、通用任务:高容量型。成熟、稳定、价格可预测。
- 高推理(写作、分析、代码):高能力型。更贵,但错误更少。小业务量下,溢价值得。
- 批处理、大容量:批处理型。价格无情,如果能容忍延迟就用它。
- 定制或混合需求:和工程师聊。领域特定分词、自定义推理、异常需求可能需要定制构建。
最坏的选择是跟风营销。次坏的是只看单位价格。
数学来决定
API成本是报表里的一行,不是命运。聪明创始人上线前计算真实单位经济。他们考虑重试、上下文、对话长度、模型能力——不止token价格。他们选择在自己使用场景下赢了数学的平台,然后优化。
如果你在构建AI产品,想帮助思考架构、成本结构,或确认现有方案是否合理,Trove Deck Solution和创始人做的正是这个—对标功能、压力测试经济学、从一开始就为规模构建。
从数学开始。选赢了数学的平台。上线。