代码编织梦想

hive sql一直跑到reduce=100%,然后挂掉重新跑-爱代码爱编程

问题:数据倾斜 数据倾斜就是数据的分布不平衡,某些地方特别多,某些地方又特别少,导致的在处理数据的时候,有些很快就处理完了,而有些又迟迟未能处理完,导致整体任务最终迟迟无法完成,这种现象就是数据倾斜。 针对mapreduce的过程来说就是,有多个reduce,其中有一个或者若干个reduce要处理的数据量特别大,而其他的reduce处理的数据量则比较小

hive了解系列一-爱代码爱编程

“ 随着智能手机的普及,互联网时代红利的爆发,用户数量和产生的数据也越发庞大。为了解决这个问题,提高数据的使用价值。 Hadoop生态系统就被广泛得到应用。 在早期,Hadoop生态系统就是为处理

hive 解决数据倾斜方法-爱代码爱编程

数据倾斜问题, 通常是指参与计算的数据分布不均, 即某个 key 或者某些 key 的数据量远超其他 key, 导致在 shuffle 阶段, 大量相同 key 的数据被发往同一个 Reduce, 进而导致该 Reduce

hive on spark源码编译与调优-爱代码爱编程

文章目录 一、编译环境准备1、hadoop和hive安装2、编译环境搭建3、Hive on Spark配置 二、Hive相关问题1、Hadoop和Hive的兼容性问题1.1 问题描述1.2 解决思路1.3

第二十一章 hive进阶-爱代码爱编程

概念 1) HDFS分布式文件储存系统 1-1 HDFS的储存机制 按块(block)储存  hdfs在对文件数据进行储存时,默认是按照128M(包含)大小进行文件数据拆分,将不同拆分的块数据存储在不同的datanode服务器上 拆分后的块数据将会被存储在不同的服务器上 副本机制 为了保证hdfs的数据的安全性,避免数据的的丢失,hdfs

十八章 hive基础-爱代码爱编程

1) 表的分区 大数据开发数据量较大,在进行数据查询计算时,需要对数据进行拆分,提升查询速度。 1-1 单个分区 单个分区时创建单个目录 1-2 多个分区 多个分区可以将数据拆分多个目录储存 注意点: 1 分组字段不能和表中字段重名                   2 动态分区数据写入时,select中字段顺序要和分区表中字段顺序一致

hive: 自定义函数的用法-爱代码爱编程

一、依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

hive:posexplode v.s. explode 实现列转行-爱代码爱编程

hive中explode相关的列转行总结 explode explode 的输入只能是 array 或者map格式,按行输出array或map中的元素,比如: select explode(split('1,2,3',

hive:开窗函数-爱代码爱编程

开窗函数用于定义一个函数处理的窗口(数据范围) 语法形式:函数()+over(),其中over()中用来限制函数处理数据的范围 代码块: <窗口函数> OVER ([PARTITION BY <分组列&

hive:transform和udf-爱代码爱编程

工作中发现有时候会用到python脚本进行数据计算,但是现在貌似已经不这样再处理,一般使用封装好的udf函数。 transform的基本用法为: transform中的值作为输入, 然后传递给python脚本,最后经过p

hive:trunc函数-爱代码爱编程

一、日期 TRUNC函数为指定元素而截去的日期值。 其具体的语法格式:TRUNC(date[,fmt]) 其中: date 一个日期值 fmt 日期格式 -- 如果当日日期是:2022-11-02 select trunc

hive:bigint和string进行join出现匹配错误问题-爱代码爱编程

转载链接 在hive中,两个表进行join,on条件两表的字段含义一致(都是整数),但数据类型不一致:string和bigint。join后发现如果数值过大则匹配的记录会出现问题:一条记录会匹配出多条记录(explain可

hive使用sqoop与oracle传输数据-爱代码爱编程

下载地址 http://archive.apache.org/dist/sqoop 两个版本sqoop1(1.4.x)和sqoop2(1.99.x),两种不同的架构。 本文使用sqoop1。 sqoop是apache旗下一款“hadoop与关系数据库之间传送数据”的工具。 导入数据:从MySQL、Oracle导入数据到Hadoop的HDF

hive:日期函数-爱代码爱编程

1、to_date:日期时间转日期函数 select to_date('2015-04-02 13:34:12'); 2015-04-02 2、from_unixtime:转化unix时间戳到当前时区的时间格式

hive on spark编译-爱代码爱编程

文章目录 Hive引擎简介Hive on Spark配置Yarn环境配置 Hive引擎简介 Hive引擎包括:默认MR、Tez、Spark Hive on Spark:Hive既作为

正则表达式-爱代码爱编程

一般来说,如果你被要求匹配一个字符串,应该最先想到写一个正则表达式模式进行匹配。 REGEXP 就是 regular expression 正则表达式 的意思。 正则表达式提供各种功能,以下是一些相关功能: :匹配字符串的

大数据之 hive 快速搭建的详细步骤-爱代码爱编程

Hive hive 搭建三种模式: 内嵌模式 本地模式 远程模式 内嵌模式 Hadoop 和 Hive 整合 修改 hadoop/etc/下的 core-site.xml: <

hadoop、hdfs、hive、hbase区别及联系-爱代码爱编程

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件,它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。 Hadoop Hadoop是一个开源的分布式计算框架,它允许

深入解析《企业级数据架构》:hdfs、yarn、hive、hbase与spark的核心应用_hadoop、hdfs、hive、hbase、spark-爱代码爱编程

写在前面 进入大数据阶段就意味着进入NoSQL阶段,更多的是面向OLAP场景,即数据仓库、BI应用等。 大数据技术的发展并不是偶然的,它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳

兼容 presto、trino、clickhouse、hive 近 10 种 sql 方言,doris sql convertor 解读及实操演示_trino 与spark sql自动转换插件-爱代码爱编程

随着版本迭代,Apache Doris 一直在拓展应用场景边界,从典型的实时报表、交互式 Ad-hoc 分析等 OLAP 场景到湖仓一体、高并发数据服务、日志检索分析及批量数据处理,越来越多用户与企业开始将 Apache D