Apache SeaTunnel 2.3.13版本中,核心引擎有哪些变化?AI ETL趋势值得关注吗?
摘要:Apache SeaTunnel 2.3.13 即将发布。作为一个承上启下的重要版本,它在大幅增强核心引擎稳定性的同时,进一步补全了 CDC 场景的能力拼图,并向 AI ETL 领域迈出了关键一步。
Apache SeaTunnel 2.3.13 即将发布。作为一个承上启下的重要版本,它在大幅增强核心引擎稳定性的同时,进一步补全了 CDC 场景的能力拼图,并向 AI ETL 领域迈出了关键一步。
通过对 2.3.13-release 分支的深度源码分析,我们为您提炼了本版本的核心更新概览。
核心亮点
1. 核心引擎:Flink Schema Evolution 与 Zeta 稳定性
Flink 引擎支持 CDC Schema Evolution (#9867)
这是 Flink 用户期待已久的功能。2.3.13 正式在 Flink 引擎层实现了源端 Schema 变更(DDL)的自动传递与适配,打通了从 CDC Source 到 Flink Engine 的最后一公里,使得 Flink 任务也能像 Zeta 引擎一样从容应对上游表结构变化。
Zeta 引擎深度优化
远程分页查询支持 (#9951):显著提升了 SeaTunnel UI 及 REST API 在大规模任务场景下的响应速度与用户体验。
内存泄漏修复 (#10315):修复了取消挂起任务时的内存泄漏问题,提升了长期运行集群的稳定性。
多 Sink 场景指标修复 (#10376):解决了多目标写入时 Write Count 显示不准确的问题。
2. AI ETL:拥抱非结构化数据
多模态 Embedding 转换 (#9673)
新增 Multimodal Embedding Transform,支持对文本和图像数据进行向量化处理。结合 Markdown 解析 能力,SeaTunnel 现在可以直接构建从“非结构化文档”到“向量数据库”的完整 RAG(检索增强生成)数据管道。
Elasticsearch Vector 优化 (#10260)
优化了 Elasticsearch Sink 对向量参数的支持,使其更适配 AI 向量存储场景。
3. 连接器生态:多表同步与类型增强
MongoDB:全面增强多表(Multi-table)同步模式,统一了非关系型数据源的 Schema 配置参数 (#10370)。
HBase:Sink 端新增对 DATE, TIME, TIMESTAMP, DECIMAL 类型的支持,并修复了 Decimal 反序列化问题 (#10291)。
Hive:支持配置多个 Metastore URI 以实现自动故障转移 (#10253),并新增了 Socket/Connection 超时控制 (#10254)。
JDBC/Redshift:升级驱动版本以解决 OOM 问题,并修复了大字段 Schema 合并时的整数溢出 Bug。
关键修复与优化
本版本修复了多个可能导致生产环境不稳定的关键 Bug,建议高负载场景用户重点关注:
组件
类型
问题描述
修复影响
Core
Hang
FakeSource 在 restore 后可能因未发送 NoMoreSplits 而导致任务挂起 (#10275)
高:解决特定场景下任务无法结束的问题
ClickHouse
Leak
修复 ClickhouseCatalogUtil 中的 ThreadLocal 内存泄漏 (#10264)
高:防止长期运行服务的堆外内存溢出
Redshift
OOM
升级 JDBC 驱动解决大量数据读取时的 OOM (#10393)
中:提升 Redshift 数据同步稳定性
HBase
NPE
修复读取空表时可能抛出的 NullPointerException (#10336)
中:增强边界条件下的健壮性
SSH
Crash
升级 jsch 库修复缓冲区问题 (#10298)
中:提升 SFTP/SSH 连接稳定性
深度功能解析:构建 AI 知识库数据流
2.3.13 的一个隐含核心主线是 "Unstructured Data to Vector"。以下 Demo 展示了如何利用新特性,将本地 Markdown 知识库解析并同步到向量存储(以 Console 为例)的完整流程。
场景描述
读取本地目录下的技术文档(Markdown),按章节解析结构化数据,并准备进行 Embedding 处理。
