SeaTunnel 2月动态:过年期间,社区都在忙些什么项目呢?

摘要:Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备、新连接器接入、Zeta 引擎稳定性增强 以及 JDBCCDC 连接器的深度优化 上。
Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备、新连接器接入、Zeta 引擎稳定性增强 以及 JDBC/CDC 连接器的深度优化 上。 以下是近期 Top PR 的详细盘点与分析: 1. 新连接器与生态扩展 社区正在不断扩展 SeaTunnel 的数据集成边界,不仅关注传统的数据库,也开始接入 SaaS 和云原生服务。 Airtable Source & Sink (#10469) 这是一个重磅的新增连接器,支持从在线表格工具 Airtable 读取和写入数据,极大方便了业务数据与数仓的打通。 HubSpot Source (#10358) 针对 CRM 领域的扩展,增加了 HubSpot 数据源的接入结构。 AWS Glue Catalog (#10401) 增加了对 Glue Catalog 的支持,特别是在 S3 环境下凭证管理的灵活性。 Gravitino Integration (#10402) 引入 Gravitino 作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。 2. 现有连接器功能增强 这是 PR 最密集的区域,尤其是 JDBC 和 CDC 相关组件,开发者们正在抠细节、补短板。 JDBC 连接器: PostgreSQL COPY 支持 (#10406): 为 PG 增加了 COPY 命令支持,这将显著提升大批量数据写入的性能。 SapHana CHAR 类型 (#10472): 完善了对 SapHana 数据库 CHAR 类型的支持。 Oracle 单元测试 (#10435): 为 Oracle JDBC 增加了基于 Testcontainers 的单元测试。 CDC (Change Data Capture): MySQL & Postgres: 修复了 MySQL 无符号类型转换 (MYSQL_SET_UNSIGNED) 和 Postgres 复制槽 (replication slot) 的创建逻辑 (#10453, #10416)。 Oracle & SQLServer: 增加了对 CDC 时间戳 (timestamp) 类型的支持 (#10428)。 Elasticsearch: 增加了切片 (slicing) 支持,这意味着在处理大规模 ES 数据读取时并行度将得到大幅提升 (#10454)。 S3 File Source: 启用了文件切分 (file split) 功能,优化了大文件读取的性能 (#10450)。 3. Zeta 核心引擎稳定性 作为 SeaTunnel 的自研引擎,Zeta 的稳定性是重中之重。 Checkpoint 机制 (#10448): 修复了当 Checkpoint 触发失败时任务状态未正确置为失败的问题,保证了数据一致性的严谨性。 任务调度 (#10430): 优化了 WAIT 策略下的队列重调度逻辑,并修复了查询挂起任务信息时的 NPE (#10456)。 内存管理 (#10418): 修复了一处核心模块的内存泄漏 (Memory leak) 问题。 4. 开发者体验与文档 架构文档 (#10429): 社区正在补充架构设计文档,帮助新贡献者更好地理解系统全貌。 版本发布: Release Manager 正在紧锣密鼓地准备 2.3.13 版本 (#10466)。 感谢贡献者 感谢以下开发者(按 GitHub ID 字母顺序)为 Apache SeaTunnel 社区做出的卓越贡献(基于最近 30 个 PR): AshharAhmadKhan (Socket Sink 多表支持) chl-wxp (Gravitino Integration) CNF96 (Postgres CDC 修复) corgy-w (Zeta 调度优化 & LLM 指南 & 连接验证优化) CosmosNi (Elasticsearch Slicing & Checkpoint 优化) davidzollo (架构文档 & Data Lineage Stain Trace) dik111 (SapHana CHAR 类型支持) dybyte (Zeta NPE 修复) krutoileshii (Glue Catalog 凭证支持) kuleat (Airtable Connector) LeonYoah (Kingbase Catalog & CDC Timestamp 支持) LiJie20190102 (Flink Yarn 打包优化 & 客户端解耦) misi1987107 (文档链接修复) MukjepScarlet (SQLServer 类型转换修复) Ruiii-w (PostgreSQL COPY 支持) Sephiroth1024 (Zeta Checkpoint 状态修复) Suresh-Krishna-Kusuma (HubSpot Connector) wgzhao (MySQL CDC Unsigned 类型支持) xiaochen-zhou (Release 2.3.13 Manager) yzeng1618 (JDBC XA 事务修复 & S3 File Split) zhangshenghang (Core 内存泄漏修复 & File System 错误处理) zooo-code (Oracle JDBC 单元测试)