SeaTunnel 2月动态:过年期间,社区都在忙些什么项目呢?
摘要:Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备、新连接器接入、Zeta 引擎稳定性增强 以及 JDBCCDC 连接器的深度优化 上。
Apache SeaTunnel 社区近期非常活跃,从最新的 PR 提交情况来看,开发者的工作重点主要集中在 2.3.13 版本发布准备、新连接器接入、Zeta 引擎稳定性增强 以及 JDBC/CDC 连接器的深度优化 上。
以下是近期 Top PR 的详细盘点与分析:
1. 新连接器与生态扩展
社区正在不断扩展 SeaTunnel 的数据集成边界,不仅关注传统的数据库,也开始接入 SaaS 和云原生服务。
Airtable Source & Sink (#10469)
这是一个重磅的新增连接器,支持从在线表格工具 Airtable 读取和写入数据,极大方便了业务数据与数仓的打通。
HubSpot Source (#10358)
针对 CRM 领域的扩展,增加了 HubSpot 数据源的接入结构。
AWS Glue Catalog (#10401)
增加了对 Glue Catalog 的支持,特别是在 S3 环境下凭证管理的灵活性。
Gravitino Integration (#10402)
引入 Gravitino 作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。
2. 现有连接器功能增强
这是 PR 最密集的区域,尤其是 JDBC 和 CDC 相关组件,开发者们正在抠细节、补短板。
JDBC 连接器:
PostgreSQL COPY 支持 (#10406): 为 PG 增加了 COPY 命令支持,这将显著提升大批量数据写入的性能。
SapHana CHAR 类型 (#10472): 完善了对 SapHana 数据库 CHAR 类型的支持。
Oracle 单元测试 (#10435): 为 Oracle JDBC 增加了基于 Testcontainers 的单元测试。
CDC (Change Data Capture):
MySQL & Postgres: 修复了 MySQL 无符号类型转换 (MYSQL_SET_UNSIGNED) 和 Postgres 复制槽 (replication slot) 的创建逻辑 (#10453, #10416)。
Oracle & SQLServer: 增加了对 CDC 时间戳 (timestamp) 类型的支持 (#10428)。
Elasticsearch:
增加了切片 (slicing) 支持,这意味着在处理大规模 ES 数据读取时并行度将得到大幅提升 (#10454)。
S3 File Source:
启用了文件切分 (file split) 功能,优化了大文件读取的性能 (#10450)。
3. Zeta 核心引擎稳定性
作为 SeaTunnel 的自研引擎,Zeta 的稳定性是重中之重。
Checkpoint 机制 (#10448): 修复了当 Checkpoint 触发失败时任务状态未正确置为失败的问题,保证了数据一致性的严谨性。
任务调度 (#10430): 优化了 WAIT 策略下的队列重调度逻辑,并修复了查询挂起任务信息时的 NPE (#10456)。
内存管理 (#10418): 修复了一处核心模块的内存泄漏 (Memory leak) 问题。
4. 开发者体验与文档
架构文档 (#10429): 社区正在补充架构设计文档,帮助新贡献者更好地理解系统全貌。
版本发布: Release Manager 正在紧锣密鼓地准备 2.3.13 版本 (#10466)。
