如何将手撸AI对话助手思考过程巧妙融入?

摘要:之前文章《用 LangChain 驱动本地 Ollama 模型》讲叙了使用 LangChain 进行大模型对话。 大模型的响应时间一般都会比较长,那么如何考虑给用户更好的体验呢? 流式输出 类似打字机一样的效果,按token输出。 安装依赖
之前文章《用 LangChain 驱动本地 Ollama 模型》讲叙了使用 LangChain 进行大模型对话。 大模型的响应时间一般都会比较长,那么如何考虑给用户更好的体验呢? 流式输出 类似打字机一样的效果,按token输出。 安装依赖 pip install -U uvicorn "fastapi[standard]" "langchain[openai]" 调用流式输出 核心方法:stream/astream import json from fastapi import FastAPI from fastapi.middleware.cors import CORSMiddleware from fastapi.responses import StreamingResponse from langchain_openai import ChatOpenAI app = FastAPI() app.add_middleware( CORSMiddleware, allow_origins=["*"], allow_credentials=True, allow_methods=["*"], allow_headers=["*"], ) @app.post("/api/bot/chat") async def bot_chat(request: dict): query = request.get("query", "你好") llm = ChatOpenAI( model="qwen3.5:35b", base_url="http://192.168.31.24:4000", api_key="your api key", temperature=0.7, streaming=True, ) system_prompt = ( "你是一个会展示思考过程的AI。
阅读全文