Python版本:Python 3.12+
开发工具:PyCharm 或 VS Code
操作系统:Windows / macOS / Linux (通用)
核心依赖:langchain>=0.3.0, chromadb>=0.5.0, sentence-transformers>=3.0.0
摘要:本章深入讲解检索增强生成(RAG)架构和向量数据库技术。学习如何将非结构化数据转化为可检索的向量表示,构建基于语义搜索的智能问答系统。
前置要求
学习本章前,建议先完成:
- 第10章 机器学习基础
- 第13章 TensorFlow深度学习 或 第14章 PyTorch深度学习
- 第18章 大模型与数据科学
- 具备Python编程基础和基本的数据处理能力
学习目标
完成本章学习后,你将能够:
- 理解RAG架构的核心原理和优势
- 掌握Embedding和向量化的基本概念
- 使用ChromaDB和Milvus构建向量数据库
- 实现文档的智能检索和问答
- 将RAG应用于数据分析场景
1. RAG架构概述
1.1 什么是RAG
**RAG(Retrieval-Augmented Generation,检索增强生成)**是一种将信息检索与文本生成结合的AI架构。
