代码编织梦想

hudi系列17:离线批量导入_hudi bulk_insert-爱代码爱编程

文章目录 一. 离线批量导入概述二. 数据源准备三. 案例1:COW表导入(写checkpoint,并行度:1)3.1 Flink SQL端操作3.2 查看任务运行情况 四. 案例2:COW表导入(写ch

starrocks案例7:使用shell批量broker load导入hdfs数据_starrocks hive导入数据-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 近期需要进行补录数据,需要将hive的历史数据迁移到StarRocks,因为需要补录的数据较多,hive和StarRocks均使用的是分区表,

大数据开发之hive案例篇10-爱代码爱编程

文章目录 一. 问题描述二.解决方案2.1 数据倾斜2.2 SQL改写1:由分析函数改为常规写法2.3 分析数据分布2.4 SQL改写2:重写 参考: 一. 问题描述 需求描述: 表概述:

hudi系列16:hudi核心参数_hudi文档的配置-爱代码爱编程

文章目录 一. 去重参数二. 并发参数三. 压缩参数四. 文件大小参数五. Hadoop 参数六. 内存参数七. MOR表相关参数八. COW表相关参数九. Hudi读取方式参数参考: 一. 去重参数

hadoop 3.x 案例2:登陆hive异常 unable to find config file hivemetastore-爱代码爱编程

文章目录 一. 问题描述二. 解决方案参考: 一. 问题描述 如上图所示,控制台登陆hive,出现很多提示信息。 [root@hp5 metadata]# hive SLF4J: Class

hadoop 3.x大数据集群搭建系列10-爱代码爱编程

文章目录 一. Spark shell配置二. Hive on Spark配置2.1 问题描述2.2 解决方案 一. Spark shell配置 Spark shell默认就是可以访问的 s

hadoop 3.x大数据集群搭建系列5-爱代码爱编程

文章目录 一. 下载Flink安装包并解压二. 修改配置2.1 用户环境变量2.2 flink-conf.yaml2.3 配置${FLINK_HOME}/conf/masters文件2.4 配置${FLINK_

hadoop 3.x大数据集群搭建系列4-爱代码爱编程

文章目录 一. 下载spark和scala并解压二. 配置SPARK_HOME环境变量三. 修改配置3.1 修改 spark-defaults.conf3.2 修改spark-env.sh3.3 修改slave

大数据系列 | 全国职业院校技能大赛大数据应用技术赛项笔记分享-爱代码爱编程

离线数据抽取 写在前面: 此笔记是本人在备战2022年大数据赛项整理出来的,不涉及国赛涉密内容,如点赞收藏理想,我将会把所有模块的笔记开源分享出来,如有想询问国赛经验的可以关注私聊我,我会一一回复。 1. Scala

doris系列8-爱代码爱编程

文章目录 一. 数据划分基本概念二. 数据划分2.1 列定义2.2 分区与分桶2.2.1 Partition2.2.1.1 Range 分区2.2.1.2 List 分区 2.2.2 Bucket2.

doris系列7-爱代码爱编程

文章目录 一. 前缀索引概述二. ROLLUP 调整前缀索引参考: 一. 前缀索引概述   不同于传统的数据库设计,Doris 不支持在任意列上创建索引。Doris 这类 MPP 架构的 OLAP

doris系列6-爱代码爱编程

文章目录 一. 基本概念二. Aggregate 和 Uniq 模型中的 ROLLUP2.1 测试数据准备2.2 获取每一天的销售额2.2.1 直接写sql2.2.2 先使用rollup聚合再查询

starrocks案例6: starrocks同关系型数据库的绑定变量功能-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 公司目前的业务是,实时和离线的数据,都导入StarRocks,然后后端根据前端传入的条件来拼接SQL语句。 使用过关系型数据库的朋友应该知道,

starrocks案例5: hive外表报错starrocks [42000][1064] hdfsopenfile failed-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 StarRocks版本 2.5.5 现在需要使用hive外表,然后根据官网的的命令创建了hive resource CREATE EXTER

starrocks案例4: spark load第二次运行报错-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 需求背景: CDH集群 Spark版本 2.4.0 StarRocks版本 2.5.5 使用Spark 2.4.0客户端会报错,java.l

大数据开发之hive案例篇13:hive sql 常见参数调整-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 hive的一些默认参数设置不适合一些复杂的数据需求场景,需要针对具体情况进行调整。 二. 解决方案 以下是常见的调参: # 指定队列 s

大数据开发之hive案例篇12:hdfs rebalance 一例-爱代码爱编程

文章目录 一. 问题描述二. 解决方案2.1 增加节点2.2 rebalance2.3 rebalance引发的问题 一. 问题描述 公司的离线数仓是CDH集群,19个节点,HDFS存储空间大

starrocks案例3: 通过[broadcast] 优化慢sql-爱代码爱编程

文章目录 一. 问题描述二. 解决方案三. 一些拓展 一. 问题描述 最近在使用StarRocks的时候,发现一个问题 table_a 10W 左右数据,通过where条件过滤数据后 剩下 10行

starrocks案例2: 升级后性能变慢-爱代码爱编程

文章目录 一. 问题描述二. 解决方案2.1 从慢查询定位2.2 定位CPU解析时间就的问题 一. 问题描述 2023-05-18 将StarRocks从2.3.0升级到2.5.5。 升级完成

starrocks案例1: dbeaver执行sql报unknown error-爱代码爱编程

文章目录 一. 问题描述二. 解决方案 一. 问题描述 在DBeaver上执行某些SQL语句的时候,直接报 unknown error 二. 解决方案 首先命令行执行 奇怪的是我直接用命令行连