专题:大数据
共90篇相关文章

Apache SeaTunnel 3月有哪些重磅更新或大动作,你了解了吗?
嘿!2026 年 3 月月报来啦!Apache SeaTunnel 社区超给力~ 26 位小伙伴踊跃参与代码贡献,发布了 2.3.13 新版本,新增 5 个连接器,核心引擎、文件连接器、CDC、Transform 均得到大幅增强,并修复 B...

成为Apache软件基金会(ASF)会员有路径吗?
很少有人会把“成为 ASF Member”当成一个明确目标。

因为它既不能申请,也没有明确路径,它更像是一种结果——在一个社区中长期做事之后,被自然看见。...

WhaleStudio 三层框架下,如何制定可落地 DataOps 开发规范?
随着数据平台从“能跑”走向“稳定运行”,团队面临的问题也在发生变化。早期更多关注任务是否成功执行,而在规模扩大之后,问题逐渐转向权限是否可控、链路是否清晰、变更是否可管理以及故障是否能够恢复。...

如何优化MySQLStarRocks中五亿数据单表查询?
目录机器性能初始化数据库环境5亿条数据到底占多大空间统计数据量有索引会多块优化筛选查询一个查询只能使用一个索引使用 StarRocks BitMap 优化选项筛选大数据分页做法 机器性能 本次测试所用服务器硬件配置如下,此机器除了 Mysq...

DuckDB在超大数据集下与MySQL查询速度对比,哪个更快?
本文介绍在本地同样配置的PC中,使用同样体量的数据集,对比DuckDB与MySQL的对不同SQL语句场景地查询速度表现。结果是大多数业务需求场景下,DuckDB的查询速度基本都比MySQL快10倍左右。 PC配置:24核64GB内存 mys...

DuckDB如何让零基础用户轻松5步完成数据分析与图表制作?
本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。 整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。 非常适合无编程基础的用户,借助AI完成超大...

Apache SeaTunnel 类加载器治理有哪些具体实践和挑战?
最近在深入阅读 Apache SeaTunnel Zeta Engine 相关代码时,顺着 ClassLoader 这一条线做了一次相对系统的梳理。...

祝贺Apache SeaTunnel PMC新成员张圣航,他是如何成为的一员呢?
🎉 Hi Community,又一特大好消息!张圣航同学凭借卓越贡献,成功受邀加入 Apache SeaTunnel PMC 团队,获此殊荣,实至名归!...

数据仓库命名混乱,是命名规则还是命名习惯出了问题?
数据仓库做大之后,最先“失控”的往往不是数据,而是命名。命名规范看似细节,却直接决定了数据是否好找、好用、好维护。...

如何从零开始用Flink实现TopN榜单?
围绕 Flink SQL 的窗口聚合(TUMBLEHOPSESSION、Window TVF、事件时间与 Watermark)与实时 TopN(ROW_NUMBERRANK),给出可直接运行的 Kafka + SQL...

Apache SeaTunnel 2.3.13新版本发布,有哪些Top 10重磅功能更新值得关注?
Apache SeaTunnel 社区正式发布2.3.13 版本!本次发版对于 Apache SeaTunnel 来说是一个里程碑式的进展,带来了诸如Checkpoint API、Flink 引擎升级、大文件并行处理、多表同步能力、AI E...

SeaTunnel 是一款开源的数据集成平台,它可以帮助用户轻松地在不同的数据源之间进行数据迁移、同步和转换。以下是关于 SeaTunnel 的几个关键点:1. **多源支持**:SeaTunnel 支持多种数据源,包括关系型数据库、NoSQL 数据库、文
不久前,社区发布了一篇题为《告别手敲 Schema!SeaTunnel 集成 Gravitino 元数据 RestApi 这个新动作有点酷》的文章,引起了小伙伴们的强烈反响,纷纷表示这真是个好东西啊!...

Apache SeaTunnel提速,JVM参数如何调整?
作为是一个高性能的分布式数据集成平台,针对 Apache SeaTunnel 进行合理的 JVM 调优对于提升作业吞吐量、降低延迟以及保证系统稳定性至关重要。JVM 参数应该怎么调呢?本文将详细介绍 SeaTunnel 的 JVM 参数配置...

Apache SeaTunnel 走向 ASF Member,这位开发者长期主义样本,如何定义?
最近,Apache Software Foundation 在会议上经过讨论,一致同意向多位 Apache SeaTunnel 项目的 PMC Member 发出邀请,邀请他们成为象征基金会最高荣誉的 ASF Member。其中,王海林也位...

赵渝强老师讲解的Hudi大数据湖仓一体架构是怎样的?
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upsertsdelete...
