华为云DWS如何通过AI数仓能力引领融合分析新范式持续升级?

摘要:本文分享自华为云社区《华为云DWS上线AI数仓能力,持续引领数智融合新范式!》 导语 正如OpenAI CEO Sam Altman所言“2024年以前,AI大模型领域尚处在探索期,更多面向开发者参与。2025年随着推理模型和垂域模型能力提
本文分享自华为云社区《华为云DWS上线AI数仓能力,持续引领数智融合新范式!》 导语 正如OpenAI CEO Sam Altman所言“2024年以前,AI大模型领域尚处在探索期,更多面向开发者参与。2025年随着推理模型和垂域模型能力提升突破拐点,当前开始进入企业级AI时代”。随着推理模型和垂域能力的突破,AI正从开发者工具演变成企业核心生产力。在数据智能催生的产业变革里,打造AI-Ready数据资产将成为企业对数仓平台新的技术诉求。而数据基础设施的战略定位正在被重新定义——从被动存储走向主动智能,从批量分析走向实时推理,从结构化处理走向多模态融合。 传统数据仓库面临三重挑战:多引擎架构带来的数据冗余与运维负担、AI与数据平台割裂导致的开发效率低下、非结构化数据价值难以充分释放。企业需要的不再仅是“更快的查询引擎”,而是能够理解、推理并创造价值的“智能数据伙伴”。 近日,华为云DWS即将发布9.1.1.210版本,提供Data for AI融合分析能力,集成MCP协议,支持一站式OLAP分析、点查、全文检索、库内推理和AI推理等融合分析能力,重塑企业智能应用开发新范式,让数据工程师更加方便地使用AI,从而实现数据价值最大化,为企业客户提供更加实时、智能、高效的决策支持。 为什么企业需要AI原生数据仓库? 传统融合分析架构依赖多引擎协同:ES处理全文检索、Milvus负责向量检索、Doris专注OLAP分析场景等等。该架构存在显著痛点: 存储冗余:数据在各引擎间重复存储,资源利用率低下 运维复杂:多系统独立维护,故障定位与性能调优困难 开发低效:数据格式转换与链路适配消耗大量研发资源 实时性不足:批量数据流转难以满足AI应用毫秒级响应需求 DWS提供的AI原生的一站式分析引擎,极大地简化原有多引擎协同分析架构,集成MCP协议打通与大模型平台的交互通道,集成向量检索能力,内置AI Function支持大模型调用,实现端到端的库内推理,从而构筑AI-Ready数据分析基础设施,消除数据孤岛,同时,通过基于binlog的物化视图实现流批一体增量计算能力,面向开发者提供声明式Pipeline加工新范式,实现近实时分析,整体架构更加简化、轻量,极大提高开发效率,降低运维管理难度,满足企业AI平台部署一站式多模态融合分析的核心诉求。 四大核心能力 1. MCP协议原生集成:打通AI生态的“神经网络” MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 推出的一种开放标准,即”AI的USB-C“,旨在统一大模型与外部数据源和工具之间的通信协议,从而解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。 DWS支持对接MCP协议,一键式可配置,即插即用。通过标准化协议接口,企业可无缝接入Claude、Cursor等主流AI平台,内置8个常用的数据分析与运维监控类型API,真正实现“万物互联,开箱即用”。 产品文档:MCP Server 最佳实践:基于DWS MCP Server搭建数据分析Agent 2. AI Function:可插拔式的库内AI推理 DWS集成开源社区插件pgai,支持对接外部开源大模型、华为云Maas服务等,通过库内SQL方式调用大模型进行推理,提供文本分析(ai.classify)、向量化(ai.embed)、文本摘要(ai.summarize),情感分析(ai.sentiment)等24个AI Function,将大模型推理能力下沉至数据库内核,从而为企业客户提供更加智能化的数据分析服务,实现数据即推理、即处理的全新操作模式,助力企业快速获取洞察,提升决策质量和效率。 产品文档:库内推理 最佳实践:基于DWS构建RAG框架生成行业调研报告 3. 向量计算:非结构化分析的“水电煤” 企业80%的数据都是文档、图像、音视频等非结构化数据,过去是数据挖掘的暗区,其数据价值长期被低估,多模态统一向量存储和表示,使得多模态的检索不再困难。 DWS深度集成开源社区插件pgvector,实现分布式架构的改造,支持向量数据类型,支持IVFFlat、HNSW索引结构,支持相似度计算、最近邻搜索等多种高阶算法,实现基本的向量检索能力。 产品文档:向量计算 最佳实践:基于DWS的向量计算功能实现简单的商品搜索推荐系统 4. 内置大模型特征算子:赋予用户AI分析”无限创造力“ 通过PL/Python扩展支持,内置32个自研扁鹊大模型算子,将Python数据科学生态完整引入SQL工作流。
阅读全文