DuckDB如何让零基础用户轻松5步完成数据分析与图表制作?

摘要:本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。 整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。 非常适合无编程基础的用户,借助AI完成超大
本文介绍如何在本地使用DuckDB进行数据集的分析。零门槛完成数据分析。实践过程以菜鸟级别的步骤拆解,帮助非技术用户快速上手。 整个过程只需5步,每个操作步骤都没有技术要求,只要按照步骤进行即可。 非常适合无编程基础的用户,借助AI完成超大数据集的探索分析过程。当然同样适合有编程基础的技术人员,技术人员可借助DuckDB,翻倍提高效率。 查询每个省份上市企业数量。并使用中国地图展示数据。(数据截至2023-04-21) step1:打开工具 直接打开即可:https://tooli.fun/duckdb_shell step2:导入数据,并确认数据结构 输入命令并回车: .files add 在弹出的文件选择框选择要导入的数据集(csv文件或者parquet文件等)。 查看导入结果: .files list 查看文件头3行: select* from'tmp_dim_company_simple.csv'limit3; step3:生成SQL,查询数据 随意组装下提示词: 你是一个高级数据分析师,精通各种类型数据库的SQL语法,特别是DuckDB的SQL语法。你将会得到一份数据集的前3行数据,你需要根据数据头和数据内容去理解数据结构,同时需要根据上级的需求,生成一条DuckDB的SQL语句来从该数据集查询数据。 ## 以下是各个数据集的结构说明 ### 数据集1: 文件名称:tmp_dim_company_simple.csv 前3行数据: duckdb>select*fromtmp_dim_company_simple.csv limit3; ┌───────────┬─────────┬───────────┬─────────────────────┬─────────┬─────────┐ │ column0 ┆ column1 ┆ column2 ┆ column3 ┆ column4 ┆ column5 │ ╞═══════════╪═════════╪═══════════╪═════════════════════╪═════════╪═════════╡ │000001.SZ ┆ SZSE ┆1940590.0┆1987-12-22T00:00:00┆ 广东 ┆ 深圳市 │ │000002.SZ ┆ SZSE ┆1162540.0┆1984-05-30T00:00:00┆ 广东 ┆ 深圳市 │ │000003.SZ ┆ SZSE ┆ 40012.0┆1988-03-10T00:00:00┆ 广东 ┆ 深圳市 │ └───────────┴─────────┴───────────┴─────────────────────┴─────────┴─────────┘ 上级的需求:查询各个省份的上市公司数量 生成的SQL: SELECT column4 AS province, COUNT(*) AS company_count FROM 'tmp_dim_company_simple.csv' GROUP BY column4 ORDER BY company_count DESC; 执行SQL: 但此时数据仅仅是文本显示,我们需要将查询结果进行格式化并导出。于是需要调整下生成的SQL; step4:优化SQL并导出数据 得到调整后的SQL: COPY ( SELECT column4 AS province, COUNT(*) AS company_count FROM 'tmp_dim_company_simple.csv' GROUP BY column4 ORDER BY company_count DESC ) TO 'output/company_count_by_province.csv' (HEADER, DELIMITER ','); 执行SQL,查看导出结果并下载文件。 step5:整理并绘制数据图表 打开工具:中国地图数据投影 下载图标示例数据,根据图表数据格式要求,将下载的数据集合的头部无效数据去掉。并将“香港特别行政区”改为“香港”。 保存文件。
阅读全文