如何将手撸AI对话助手思考过程巧妙融入?
摘要:之前文章《用 LangChain 驱动本地 Ollama 模型》讲叙了使用 LangChain 进行大模型对话。 大模型的响应时间一般都会比较长,那么如何考虑给用户更好的体验呢? 流式输出 类似打字机一样的效果,按token输出。 安装依赖
之前文章《用 LangChain 驱动本地 Ollama 模型》讲叙了使用 LangChain 进行大模型对话。
大模型的响应时间一般都会比较长,那么如何考虑给用户更好的体验呢?
流式输出
类似打字机一样的效果,按token输出。
安装依赖
pip install -U uvicorn "fastapi[standard]" "langchain[openai]"
调用流式输出
核心方法:stream/astream
import json
from fastapi import FastAPI
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import StreamingResponse
from langchain_openai import ChatOpenAI
app = FastAPI()
app.add_middleware(
CORSMiddleware,
allow_origins=["*"],
allow_credentials=True,
allow_methods=["*"],
allow_headers=["*"],
)
@app.post("/api/bot/chat")
async def bot_chat(request: dict):
query = request.get("query", "你好")
llm = ChatOpenAI(
model="qwen3.5:35b",
base_url="http://192.168.31.24:4000",
api_key="your api key",
temperature=0.7,
streaming=True,
)
system_prompt = (
"你是一个会展示思考过程的AI。
