Claude 模型怎么选？Opus / Sonnet / Haiku 选型指南

一句话先给结论：复杂推理、长程 Agent、代码大改用 Claude Opus 4.8；日常开发、聊天应用、绝大多数业务场景用速度与智能平衡的 Claude Sonnet 4.6；高并发的分类、摘要、抽取等简单任务用最快最省的 Claude Haiku 4.5。选型的核心是把任务难度、延迟要求、成本预算三者对齐，而不是无脑选最强的那个。

三款主力模型一览（2026）

截至 2026 年，Anthropic 在线提供的主力模型是 Opus 4.8、Sonnet 4.6、Haiku 4.5。它们用同一套 Messages API，切换只需改一个 model 字符串，业务代码几乎不用动。关键差异如下：

模型	model ID	上下文窗口	定位
Claude Opus 4.8	`claude-opus-4-8`	1M	最强智能，长程自主任务
Claude Sonnet 4.6	`claude-sonnet-4-6`	1M	速度与智能的最佳平衡
Claude Haiku 4.5	`claude-haiku-4-5`	200K	最快、最省，适合简单任务

三款都支持 Tool Use 工具调用、流式输出（SSE）、多模态图片输入和 MCP（模型上下文协议）。价格上 Opus 最高、Haiku 最低，但具体计费数字会调整，请以 Anthropic 官网为准，下面会单独讲怎么算成本。

按任务类型怎么选

选 Opus 4.8 的场景

长程自主 Agent：跨几十步工具调用、需要长时间不被纠偏的复杂任务，Opus 4.8 的长程一致性最好。
大规模代码重构 / 整库迁移：一次性读懂大量上下文、规划并执行，错误率低。代码任务到底哪个更划算，可以参考 Claude 写代码用哪个模型最划算的实测对比。
深度研究、疑难调试、严谨知识工作：需要把对就比快更重要时，Opus 是首选。

选 Sonnet 4.6 的场景

面向用户的聊天 / 问答产品：响应快、质量高，成本远低于 Opus。
大多数 Agent 与工具型工作流：搭配自适应思考（adaptive thinking）和中等 effort，是质量与成本的甜点位。
内容生成、改写、翻译润色：Sonnet 足够，没必要上 Opus。

Opus 和 Sonnet 到底差在哪、什么时候该升级，建议读 Claude Opus 和 Sonnet 区别详解。

选 Haiku 4.5 的场景

高并发分类、打标、意图识别：每条请求只需短输出，Haiku 又快又便宜。
批量摘要、信息抽取、格式转换：规则明确、不需要深度推理的流水线。
对延迟敏感的实时场景：比如输入联想、轻量补全。

注意 Haiku 上下文窗口是 200K（Opus 和 Sonnet 都是 1M）。要处理超长文档时这一点要算进来，长文档处理技巧见 Claude 上下文窗口多大？长文档处理实用技巧。

关键参数：思考深度与 effort

2026 年的 Claude 4.x 模型已经不再用固定的 budget_tokens 思考预算，而是用自适应思考加 effort 参数来控制智能与成本的权衡：

thinking={"type": "adaptive"}：让模型自己决定何时、思考多深，无需手动设预算。在 Opus 4.8 / 4.7 上，thinking 只支持 adaptive，传旧的 {"type": "enabled", "budget_tokens": N} 会直接报 400。
output_config={"effort": "low|medium|high|xhigh|max"}：控制整体投入。默认 high；编码和 Agent 类任务推荐 xhigh；简单任务或子任务用 low 省钱。

同一个任务，Sonnet 4.6 + medium 往往就够；只有在 Sonnet 反复出错或推理明显不够深时，再换 Opus 或调高 effort。先调 effort，再换模型，是最省钱的顺序。

代码：用 Messages API 切换模型

切模型就是改 model 字符串。下面两段是可直接运行的最小示例，鉴权用环境变量 ANTHROPIC_API_KEY，底层走 POST /v1/messages，请求头是 x-api-key + anthropic-version（SDK 已自动带上）。

Python（anthropic 官方 SDK）

import os
from anthropic import Anthropic

client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

def ask(model: str, question: str) -> str:
    resp = client.messages.create(
        model=model,                       # 改这里即可切换模型
        max_tokens=1024,
        thinking={"type": "adaptive"},     # 自适应思考
        messages=[{"role": "user", "content": question}],
    )
    return resp.content[0].text

# 难题用 Opus，日常用 Sonnet，简单分类用 Haiku
print(ask("claude-opus-4-8", "帮我设计一个分布式限流方案"))
print(ask("claude-sonnet-4-6", "把这段话改写得更口语化：..."))
print(ask("claude-haiku-4-5", "判断这条评论是正面还是负面：还行吧"))

Node.js（@anthropic-ai/sdk）

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });

async function ask(model, question) {
  const resp = await client.messages.create({
    model,                               // 改这里即可切换模型
    max_tokens: 1024,
    thinking: { type: "adaptive" },
    messages: [{ role: "user", content: question }],
  });
  return resp.content[0].text;
}

console.log(await ask("claude-sonnet-4-6", "解释一下什么是 MCP"));

如果还没跑通第一个请求，先看 Claude API 怎么调用？完整教程和 Python 示例代码：10 分钟跑通。各参数的完整含义参见 Claude Messages API 全部参数说明。

成本怎么省

选型本身就是最大的省钱杠杆，但还有几条通用技巧：

分层路由：用 Haiku 或 Sonnet 先做初筛/分类，只把真正难的请求转给 Opus，而不是所有流量都走 Opus。
降低 effort：成本敏感的路由把 effort 调到 medium 或 low，常常质量没明显下降，token 却省一截。
提示词缓存：长系统提示词、固定 few-shot 用 prompt caching，命中后只按约 0.1 倍计费。
控制 max_tokens：分类任务把 max_tokens 压到几百，避免不必要的长输出。

更系统的省钱方法见 Claude API 怎么省钱？5 个降低 Token 成本的方法，各模型计费方式对比见 Claude API 价格详解。

常见问题

不确定选哪个模型时，应该从哪个开始？

从 Sonnet 4.6 起步。它在速度、智能、成本之间最平衡，能覆盖大多数场景。如果发现它在你的任务上反复出错或推理不够，再升级到 Opus 4.8；如果任务很简单且追求吞吐和低成本，再降到 Haiku 4.5。用同一套 Messages API，切换只改一个 model 字符串，迁移成本极低。

Haiku 上下文只有 200K，会影响处理长文档吗？

会。Opus 4.8 和 Sonnet 4.6 都是 1M 上下文，Haiku 4.5 是 200K。如果你要一次性塞入超长文档或很长的对话历史，超过 200K 就放不下，应选 Sonnet 或 Opus，或者对长文档做分块/摘要后再喂给 Haiku。具体技巧可参考长文档处理那篇教程。

价格和限额具体是多少？

本文不写死具体价格和配额数字，因为它们会随时间调整，具体以 Anthropic 官网为准。大致关系是 Opus 单价最高、Sonnet 居中、Haiku 最低；输出 token 通常比输入 token 贵。要精确估算成本，建议先用官方的 Token 计数能力测一遍代表性请求，再乘以当前单价。