代码编织梦想

hadoop 3.1.3-爱代码爱编程

第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史(了解) 1.3 Hadoop三大发行版本(了解) Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera内部集成了很多大数据框架,对应产品C

hive进阶day06-爱代码爱编程

目录 一、MapReduce的计算过程 二、Yarn的资源调度 1、yarn的资源调度策略 三、Hive的语法树 四、数据开发 五、数据仓库 六、数据仓库开发流程 七、数仓分层 八、ETL和ELT 一、MapReduce的计算过程 分布式计算框架 需要编写代码执行,执行时会数据所在服务器上运行相同的计算代码

hadoop概述及集群搭建_搭建实现联邦机制的hadoop集群搭建步骤-爱代码爱编程

文章目录 一、Hadoop介绍二、Hadoop发展简史三、Hadoop核心组件四、Hadoop架构变迁1、Hadoop 1.02、Hadoop 2.03、Hadoop 3.0 五、Hadoop集群简介六、

【hive】lateral view侧视图-爱代码爱编程

文档地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView 1.介绍2.语法3.code d

hive进阶day05-爱代码爱编程

一、HDFS分布式文件存储系统 1-1 HDFS的存储机制 按块(block)存储 hdfs在对文件数据进行存储时,默认是按照128M(包含)大小进行文件数据拆分,将不同拆分的块数据存储在不同datanode服务器上 拆分后的块数据会被分别存储在不同的服务器上 副本机制 为了保证hdfs的数据的安全性,避免数据的丢失,hd

hive的简单学习二-爱代码爱编程

一Hive 库的基本操作 1.1 建库 1.默认路径是/user/hive/warehouse 例如 我输入命令 create database text1 则text1出现在 warehouse目录下  2.指定位置创建数据库 create database text2 location '/bigdata29/bigdata29db'

hadoop hdfs常用的命令-爱代码爱编程

先简单理解: 用法我先理解为,类似于 linux 命令前面加个hadoop fs - 如,hadoop fs -ls ,hadoop fs -mkdir。 显示目录下文件 ls hadoop fs -ls 查看文件内容 cat hadoop fs -cat test.txt 建目录 mkdir hadoop fs -mkdir log_data

实现多文件合并和去重的mapreduce作业_mapreduce编程实现对两个文件的合并去重-爱代码爱编程

实现多文件合并和去重的MapReduce作业 问题描述 我们有多个文本文件,每个文件包含一些文本行。我们的目标是将这些文件合并成一个文件,并去除重复的行,最终得到一个去重后的文本文件。 输入文件A数据如下: 输入文件

hdfs详解(hadoop)-爱代码爱编程

Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)是 Apache Hadoop 生态系统的核心组件之一,它是设计用于存储大规模数据集并运行在廉价硬件上的分布式文件系统。

大数据测试:构建hadoop和spark分布式ha运行环境-爱代码爱编程

随着大数据技术的不断发展,Hadoop和Spark已成为处理大规模数据的热门框架。在生产环境中,高可用性(HA)是至关重要的,以确保数据处理和分析任务不受中断。本文将详细介绍如何构建 Hadoop和Spark分布式HA运行环境,以确保数据处理平台的稳定性和可用性。  1、什么是分布式HA环境?  分布式高可用性(HA)环境是一种架构设计,旨在确保系

基于hadoop的石油大数据平台设计-爱代码爱编程

基于Hadoop的石油大数据平台设计 Design of an oil big data platform based on Hadoop 完整下载链接:基于Hadoop的石油大数据平台设计 文章目录 基

1.0 hadoop 教程-爱代码爱编程

1.0 Hadoop 教程 分类 Hadoop 教程 Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。 Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。 Hadoop 使用 Ja

mapreduce工作流程(hadoop3.x)-爱代码爱编程

MapReduce 是一种用于并行处理大规模数据集的——编程模型和处理框架。它通常用于分布式计算环境中,如Apache Hadoop。 工作流程 1. 切分阶段(Splitting): 数据集被分成多个数据块,每个数据

hadoop中的mapreduce流程(图解)-爱代码爱编程

一、MapReduce流程图:   二、MapReduce流程步骤: 1.文件上传到HDFS中,默认以128M切分为一个block块 2.每个block块对数据进行逻辑上的切片,切片大小为128M,与block块大小一致 3.之后根据切片产生Map任务 4.Map任务会进入环形缓冲区,根据Reduce数量以及数据本身的

hadoop伪分布式安装教程配置(跟随厦大林子雨老师版)-爱代码爱编程

好话说在前面,按照教程一步一步走绝对没问题 就纯粹的图一乐 这次我一步一步来~ 参考文章:https://dblab.xmu.edu.cn/blog/7/ 1、创建hadoop用户 如果你安装 Ubuntu 的时候不是用

云上配置hadoop环境-爱代码爱编程

Hadoop概述 Hadoop技术主要是由下面这三个组件组合而成的: HDFS是一个典型的主从模式架构。 HDFS的基础架构 HDFS的集群搭建 一点准备工作 其实这一块没啥内容,就是将Hadoop官网

mapreduce排序机制(hadoop)-爱代码爱编程

在MapReduce中,排序的目的是为了方便Reduce阶段的处理,通常是为了将相同键的键值对聚合在一起,以便进行聚合操作或其他处理。 1. Map阶段的局部排序(Local Sorting): 在Map阶段,通常

mapreduce分区机制(hadoop)-爱代码爱编程

在MapReduce中,分区(Partitioning)是将Map阶段输出的键值对根据某种规则分发到不同的Reduce任务上的过程。这个过程非常关键,因为它直接影响到了Reduce阶段的负载均衡和性能。 1. 哈希分区(H

hadoop大数据处理技术-爱代码爱编程

2024/4/16 ​Hadoop学习前的准备 1)首先安装虚拟机  VMWare 虚拟机:因为它不是一个硬件 而是用软件做出来的 模拟真机 所以叫做虚拟机 但实际上它里面也可以安装Linux和Windows 实际它的实现 虚拟机中想要实现某个操作时 将需求发给Windows 调用Windows的CPU Windows完成以后 再将结果

数据大爆炸:wordcount程序的多元化执行方式-爱代码爱编程

文章目录 主要内容1.左方工作区右键New,选择Map文件2.再创建mymap,myreducer,mywordcount类:3.打包在linux中运行,注意处理的文件式完全分布式文件3.1打jar包步骤: