流式输出与并发入门教程

编辑部发布 2026-06-27 11 分钟阅读 1,944 字

Title: 流式输出与并发从零到实战

本文围绕「流式输出与并发」这一主题，整理操作要点、适用场景和常见问题，帮助你先判断是否适合继续操作，再按步骤完成配置。文章将涵盖核心概念、前置准备、完整代码实现、验证清单、常见错误排查及最佳实践。

为何需要流式与并发？

传统 API 调用模式有两个明显瓶颈：必须等待完整响应返回后才能开始处理，且一次只能发送一个请求。流式输出（Streaming）率先打破第一个限制——它在模型生成过程中逐块返回内容；并发（Concurrency）则解决第二个问题——允许同时发送多个请求。两者结合，能大幅提升程序的响应速度和吞吐量。

本教程将从零开始，逐步讲解两个概念如何协同工作，并提供可运行的完整代码。我们会重点剖析新手容易踩的坑，给出详细的排查步骤。读完本文后，你将能够在实际项目中应用流式并发，而不只是停留在理论层面。

本文重点：

如何将流式输出与异步并发结合
完整的代码实现和调试技巧
常见错误的诊断与修复

1. 前置准备：六项必备要素

开始编码前，请确认以下四项条件全部满足。它们就像旅行的行前检查：缺任何一项都会导致后续步骤无法执行。

1.1 有效的 API Key

从模型服务商（如 Anthropic、OpenAI）获取 API 密钥，并确保：

余额充足：测试用的额度不为 0。
流式权限已开启：部分服务商需单独申请流式访问权限。
当前终端会话中生效：不要仅在代码里粘贴 Key，还应用 echo $ANTHROPIC_API_KEY（Linux/Mac）或 echo %ANTHROPIC_API_KEY%（Windows）确认环境变量已加载。

1.2 Python 3.8+ 环境

推荐使用 Python 3.10 或更高版本，因为 asyncio 在高版本中更稳定。建议新建虚拟环境以避免依赖冲突：

python -m venv streaming_env
source streaming_env/bin/activate  # Linux/Mac
streaming_env\Scripts\activate    # Windows

1.3 安装必要的依赖

至少需要两个核心库：

httpx：支持异步 HTTP 请求。
asyncio：Python 内置，无需额外安装。

如果使用 Claude API，还需安装 Anthropic 的 Python SDK；如果使用 OpenAI，则安装 openai。以 Anthropic 为例：

pip install httpx anthropic

1.4 确认服务端 API 版本

流式输出在不同 API 版本中的行为有差异。例如 Claude API 在 2023-06-01 版本后才稳定支持流式并发。检查你的 API 请求头中的版本号——如需升级，请参考服务商文档。

2. 核心实现：流式并发实战

以下步骤以 Claude API 的 Python SDK 为例，但逻辑同样适用于 OpenAI 等兼容接口。关键区别在于 SDK 的异步客户端名称和方法签名，核心模式一致。

2.1 初始化异步客户端

import asyncio
from anthropic import AsyncAnthropic

# 安全建议：不要硬编码 Key，应使用环境变量
client = AsyncAnthropic(api_key="your-api-key")

常见陷阱：直接使用同步客户端 Anthropic，然后试图用 asyncio 包装它的请求——这会阻塞事件循环，导致所谓的“并发”变成顺序执行。请养成习惯，在导入时明确写下 Async 前缀。

2.2 编写单个请求的流式处理函数

该函数处理一条消息，并通过 stream=True 开启流式输出，边接收边输出：

async def stream_one_prompt(prompt: str, index: int):
    print(f"[请求 {index}] 开始发送: {prompt[:30]}...")
    async with client.messages.stream(
        model="claude-sonnet-4-20250514",
        max_tokens=1024,
        messages=[{"role": "user", "content": prompt}]
    ) as stream:
        async for chunk in stream.text_stream:
            print(f"[请求 {index}] 收到块: {chunk}", end="", flush=True)
        print()
    print(f"[请求 {index}] 完成")
    return await stream.get_final_text()

关键细节：

client.messages.stream 返回的是上下文管理器，内部自动管理连接生命周期。
如果忘记写 async with 或漏掉 async for，代码会直接报错或只输出第一个块。

2.3 创建并发任务并收集结果

这是流式并发的核心步骤：将所有请求包装为 asyncio 任务，然后等待它们完成。

async def main():
    prompts = [
        "用一句话解释什么是量化宽松。",
        "用一句话解释什么是梯度下降。",
        "用一句话解释什么是缓存穿透。",
    ]
    
    tasks = [
        stream_one_prompt(prompt, i)
        for i, prompt in enumerate(prompts)
    ]
    
    results = await asyncio.gather(*tasks, return_exceptions=True)
    
    for i, result in enumerate(results):
        if isinstance(result, Exception):
            print(f"[请求 {i}] 失败: {result}")
        else:
            print(f"[请求 {i}] 完整结果前60字符: {result[:60]}...")

重要参数：return_exceptions=True。如果不加，任何一个请求抛出异常（如超时或 API 限流），gather 会直接取消所有剩余任务。你可能只想让失败的单独报告，其他继续完成。

2.4 运行主程序

asyncio.run(main())

完整预期输出（示意）：

[请求 0] 开始发送: 用一句话解释什么是量化宽松...
[请求 1] 开始发送: 用一句话解释什么是梯度下降...
[请求 2] 开始发送: 用一句话解释什么是缓存穿透...
[请求 0] 收到块: 量化宽松是...
[请求 1] 收到块: 梯度下降是...
[请求 2] 收到块: 缓存穿透是...
[请求 0] 收到块: 央行通过...
[请求 1] 收到块: 一种优化...
...（后续块交错出现）
[请求 0] 完成
[请求 1] 完成
[请求 2] 完成

注意三个请求几乎是同时开始的，流式块是交错到达的。这是并发带来的效果：总耗时接近最慢的请求，而非三个请求时间之和。

3. 验证清单：六步检查你的实现

每次改动代码后，按此清单依次检查，不要跳步。

客户端是异步的吗？ 确认使用的是 AsyncAnthropic（或 AsyncOpenAI），而非同步版本。
asyncio.gather 是否设置了 return_exceptions=True？ 如果没设，单个失败会拖垮所有请求。
每个 async for 循环都在消耗流吗？ 如果只把流赋值给变量而不迭代，不会收到任何块。
网络代理是否影响异步连接？ 如果你在公司网络或使用了代理，httpx 的异步传输可能需要额外配置 proxy 参数。常见故障现象：第一个请求正常，后续请求全部超时。
输出是否交错而非串行？ 查看打印的时间戳。如果所有请求的完成时间间隔相等且总耗时 = 单请求耗时 × 请求数，说明实际上是顺序执行的——请检查是否误用了同步客户端或没有使用 asyncio.gather。
异常处理是否到位？ 为每个 stream_one_prompt 包裹一层 try/except，记录失败原因。

4. 常见错误与解决

错误/情况	现象	根本原因	解决方法
使用同步客户端加 `await`	`TypeError: object coroutine can't be used in await`	SDK 未导入异步版本	将 `Anthropic` 替换为 `AsyncAnthropic`
忘记 `async with`	`AttributeError: 'AsyncMessageStreamManager' object has no attribute 'text_stream'`	未进入上下文管理器	补全 `async with client.messages.stream(...) as stream`
API 版本过旧	流式输出无法按预期分块，或并发时连接断开	旧版本不支持某些流式特性	检查 API 版本头，升级到推荐版本
并发数过高（>10）	部分请求返回 429（Rate Limit）或 529（过载）	超出服务端并发配额	使用 `asyncio.Semaphore` 控制最大并发数
`gather` 不带 `return_exceptions`	一个请求超时，所有请求被取消	`gather` 默认短路	添加 `return_exceptions=True`

5. 延伸讨论与最佳实践

###