专题:大数据技术
共19篇相关文章

CanalParseException:表列大小不匹配,如何解析行数据失败?
一、异常现象截图 -> 关注清哥聊技术公众号,了解更多技术文章 二、解决方式: 1、背景 早期的canal版本(<=1.0.24),在处理表结构的DDL变更时采用了一种简...

ClickHouse有哪些整体特性?
本文主要包含如下内容: ClickHouse适用场景 ClickHouse缺点 ClickHouse优点 ClickHouse表引擎-合并树 ClickHouse表引擎-合并树-稀疏索引 ClickHouse表引擎-内存引擎 ClickHo...

如何通过策略优化Spark任务性能?
一、shuffle调优 -> 关注清哥聊技术公众号,了解更多技术文章 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更...

大数据OLAP系统开源组件方案,有哪些值得对比?
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎: MOLAP一般对数据存储有优化,并且进行...

HBase出现ServerNotRunningYetException错误,服务器还没启动怎么办?
1、错误异常信息: -> 关注清哥聊技术公众号,了解更多技术文章 Exception in thread "main" java.lang....

在安装和启动ClickHouse时遇到错误,可能是由多种原因造成的。以下是一些常见的错误及其解决方法:1. **依赖问题**: - **错误**:`libssl-dev` 或 `libssl1.1` 等依赖未安装。 - **解决方法**:使用包管理器安装依
1、启动时报错<Error> Application: DB::Exception: There is no profile 'default' i...

Flink如何解决clickhouse-jdbc与flink-connector jar冲突导致的YARN资源请求和akka连接问题?
一、问题现象,使用flink on yarn 模式,写入数据到clickhouse,但是在yarn 集群充足的情况下一直报:Deployment took more than 60 seconds. Please check if the...

Spark SQL和Hive常用函数有哪些具体应用?
窗口函数与分析函数 -> 关注清哥聊技术公众号,了解更多技术文章应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 窗口函数FIRST_VALUE:取分组内排序后,截止到...

如何用Spark高效处理zip、gzip、excel等多种格式文件?
一、当后缀名为zip、gzip,spark可以自动处理和读取 -> 关注清哥聊技术公众号,了解更多技术文章 1、spark非常智能,如果一批压缩的zip和gzip文件,并且里面为一堆text文件时,可以用如下方式读取或...

Spark Structured Streaming如何全面应用与优化?
一、spark structured-streaming 介绍 -> 关注清哥聊技术公众号,了解更多技术文章 我们都知道spark streaming 在v2.4.5 之后 就进入了维护阶段,...

如何获取KafkaConsumer的lag、endOffsets、beginningOffsets?
一、java获取kafka consumer lag、endOffsets、beginningOffsets -> 关注清哥聊技术公众号,了解更多技术文章 maven依赖: <dependency...

Spark-StructuredStreaming的checkpointLocation如何对接Grafana监控并提交Kafka Lag监控?
一、Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 Spark SQL 引擎构建的可扩展且...

Spark配置项中,有哪些的conf和config选项?
1、structured-streaming的state 配置项总结 -> 关注清哥聊技术公众号,了解更多技术文章 Config Name Description Default Value...

Spark中如何将JavaScala List高效转换成DataFrameDataSet?
一、JAVA list 转 DataFrame or DataSet -> 关注清哥聊技术公众号,了解更多技术文章 case class CaseJava( var num: String, var id: Strin...

ClickHouse 是一个用于在线分析处理(OLAP)的列式数据库管理系统,它支持分布式表,这意味着你可以将数据分布到多个服务器上以提高性能和可扩展性。以下是如何在ClickHouse中创建和配置分布式表的步骤:### 1. 创建分布式表首先,你需要创建
一、CK 分布式表和本地表 -> 关注清哥聊技术公众号,了解更多技术文章 (1)CK是一个纯列式存储的数据库,一个列就是硬盘上的一个或多个文件(多个分区有多个文件),关于列式存储这里就不展开了...
