hive | 爱代码爱编程

代码编织梦想

hive sql一直跑到reduce=100%，然后挂掉重新跑-爱代码爱编程

2024-04-12 分类: 数据仓库大数据 hive hadoop

问题：数据倾斜数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致的在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。针对mapreduce的过程来说就是，有多个reduce，其中有一个或者若干个reduce要处理的数据量特别大，而其他的reduce处理的数据量则比较小

Continue Reading

hive了解系列一-爱代码爱编程

2024-04-15 分类: 数据仓库 hive hadoop

“ 随着智能手机的普及，互联网时代红利的爆发，用户数量和产生的数据也越发庞大。为了解决这个问题，提高数据的使用价值。 Hadoop生态系统就被广泛得到应用。在早期，Hadoop生态系统就是为处理

Continue Reading

hive 解决数据倾斜方法-爱代码爱编程

2024-04-15 分类: 笔记数据仓库大数据基础 hive hadoop

数据倾斜问题，通常是指参与计算的数据分布不均，即某个 key 或者某些 key 的数据量远超其他 key，导致在 shuffle 阶段，大量相同 key 的数据被发往同一个 Reduce，进而导致该 Reduce

Continue Reading

hive on spark源码编译与调优-爱代码爱编程

2024-04-15 分类: spark 大数据 hive hadoop

文章目录一、编译环境准备1、hadoop和hive安装2、编译环境搭建3、Hive on Spark配置二、Hive相关问题1、Hadoop和Hive的兼容性问题1.1 问题描述1.2 解决思路1.3

Continue Reading

第二十一章 hive进阶-爱代码爱编程

2024-04-15 分类: HDFS hive 分布式

概念 1） HDFS分布式文件储存系统 1-1 HDFS的储存机制按块（block）储存 hdfs在对文件数据进行储存时，默认是按照128M（包含）大小进行文件数据拆分，将不同拆分的块数据存储在不同的datanode服务器上拆分后的块数据将会被存储在不同的服务器上副本机制为了保证hdfs的数据的安全性，避免数据的的丢失，hdfs

Continue Reading

十八章 hive基础-爱代码爱编程

2024-04-10 分类: 数据仓库 hive hadoop

1）表的分区大数据开发数据量较大，在进行数据查询计算时，需要对数据进行拆分，提升查询速度。 1-1 单个分区单个分区时创建单个目录 1-2 多个分区多个分区可以将数据拆分多个目录储存注意点： 1 分组字段不能和表中字段重名 2 动态分区数据写入时，select中字段顺序要和分区表中字段顺序一致

Continue Reading

hive: 自定义函数的用法-爱代码爱编程

2024-04-15 分类: 数据仓库 hive hadoop

一、依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"

Continue Reading

hive：posexplode v.s. explode 实现列转行-爱代码爱编程

2024-04-14 分类: hive

hive中explode相关的列转行总结 explode explode 的输入只能是 array 或者map格式,按行输出array或map中的元素，比如： select explode(split('1,2,3',

Continue Reading

hive：开窗函数-爱代码爱编程

2024-04-14 分类: 数据仓库 hive hadoop

开窗函数用于定义一个函数处理的窗口（数据范围）语法形式：函数()+over()，其中over()中用来限制函数处理数据的范围代码块： <窗口函数> OVER ([PARTITION BY <分组列&

Continue Reading

hive:transform和udf-爱代码爱编程

2024-04-14 分类: 数据仓库 hive

工作中发现有时候会用到python脚本进行数据计算，但是现在貌似已经不这样再处理，一般使用封装好的udf函数。 transform的基本用法为： transform中的值作为输入，然后传递给python脚本，最后经过p

Continue Reading

hive：trunc函数-爱代码爱编程

2024-04-14 分类: 数据仓库 hive

一、日期 TRUNC函数为指定元素而截去的日期值。其具体的语法格式：TRUNC（date[,fmt]）其中： date 一个日期值 fmt 日期格式 -- 如果当日日期是：2022-11-02 select trunc

Continue Reading

hive:bigint和string进行join出现匹配错误问题-爱代码爱编程

2024-04-14 分类: 数据仓库 hive

转载链接在hive中，两个表进行join，on条件两表的字段含义一致（都是整数），但数据类型不一致：string和bigint。join后发现如果数值过大则匹配的记录会出现问题：一条记录会匹配出多条记录（explain可

Continue Reading

hive使用sqoop与oracle传输数据-爱代码爱编程

2024-04-15 分类: hive hadoop sqoop

下载地址 http://archive.apache.org/dist/sqoop 两个版本sqoop1（1.4.x）和sqoop2（1.99.x），两种不同的架构。本文使用sqoop1。 sqoop是apache旗下一款“hadoop与关系数据库之间传送数据”的工具。导入数据：从MySQL、Oracle导入数据到Hadoop的HDF

Continue Reading

hive：日期函数-爱代码爱编程

2024-04-14 分类: 数据仓库 hive

1、to_date：日期时间转日期函数 select to_date('2015-04-02 13:34:12'); 2015-04-02 2、from_unixtime：转化unix时间戳到当前时区的时间格式

Continue Reading

hive on spark编译-爱代码爱编程

2024-04-15 分类: spark 大数据 hive hadoop

文章目录 Hive引擎简介Hive on Spark配置Yarn环境配置 Hive引擎简介 Hive引擎包括：默认MR、Tez、Spark Hive on Spark：Hive既作为

Continue Reading

正则表达式-爱代码爱编程

2024-04-10 分类: hive 正则表达式

一般来说，如果你被要求匹配一个字符串，应该最先想到写一个正则表达式模式进行匹配。 REGEXP 就是 regular expression 正则表达式的意思。正则表达式提供各种功能，以下是一些相关功能：：匹配字符串的

Continue Reading

大数据之 hive 快速搭建的详细步骤-爱代码爱编程

2024-04-10 分类: 大数据 hive hadoop

Hive hive 搭建三种模式：内嵌模式本地模式远程模式内嵌模式 Hadoop 和 Hive 整合修改 hadoop/etc/下的 core-site.xml： <

Continue Reading

hadoop、hdfs、hive、hbase区别及联系-爱代码爱编程

2024-04-10 分类: HDFS 大数据 hive hadoop

Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。 Hadoop Hadoop是一个开源的分布式计算框架，它允许

Continue Reading

深入解析《企业级数据架构》：hdfs、yarn、hive、hbase与spark的核心应用_hadoop、hdfs、hive、hbase、spark-爱代码爱编程

2024-03-28 分类: 架构 HDFS hive it优质推荐

写在前面进入大数据阶段就意味着进入NoSQL阶段，更多的是面向OLAP场景，即数据仓库、BI应用等。大数据技术的发展并不是偶然的，它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳

Continue Reading

兼容 presto、trino、clickhouse、hive 近 10 种 sql 方言，doris sql convertor 解读及实操演示_trino 与spark sql自动转换插件-爱代码爱编程

2024-03-22 分类: 数据库 sql hive clickhouse doris

随着版本迭代，Apache Doris 一直在拓展应用场景边界，从典型的实时报表、交互式 Ad-hoc 分析等 OLAP 场景到湖仓一体、高并发数据服务、日志检索分析及批量数据处理，越来越多用户与企业开始将 Apache D

Continue Reading