hadoop | 爱代码爱编程

代码编织梦想

hadoop 3.1.3-爱代码爱编程

2024-04-14 分类: 大数据 hadoop 分布式

第1章 Hadoop概述 1.1 Hadoop是什么 1.2 Hadoop发展历史（了解） 1.3 Hadoop三大发行版本（了解） Hadoop三大发行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基础）的版本，对于入门学习最好。2006 Cloudera内部集成了很多大数据框架，对应产品C

Continue Reading

hive进阶day06-爱代码爱编程

2024-04-15 分类: 数据仓库 hive hadoop

目录一、MapReduce的计算过程二、Yarn的资源调度 1、yarn的资源调度策略三、Hive的语法树四、数据开发五、数据仓库六、数据仓库开发流程七、数仓分层八、ETL和ELT 一、MapReduce的计算过程分布式计算框架需要编写代码执行，执行时会数据所在服务器上运行相同的计算代码

Continue Reading

hadoop概述及集群搭建_搭建实现联邦机制的hadoop集群搭建步骤-爱代码爱编程

2024-04-14 分类: 大数据 hadoop 分布式

文章目录一、Hadoop介绍二、Hadoop发展简史三、Hadoop核心组件四、Hadoop架构变迁1、Hadoop 1.02、Hadoop 2.03、Hadoop 3.0 五、Hadoop集群简介六、

Continue Reading

【hive】lateral view侧视图-爱代码爱编程

2024-04-14 分类: hive hadoop 侧视图 hadoop大数据 lateral view

文档地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView 1.介绍2.语法3.code d

Continue Reading

hive进阶day05-爱代码爱编程

2024-04-14 分类: 数据仓库 hive hadoop

一、HDFS分布式文件存储系统 1-1 HDFS的存储机制按块（block）存储 hdfs在对文件数据进行存储时，默认是按照128M(包含)大小进行文件数据拆分，将不同拆分的块数据存储在不同datanode服务器上拆分后的块数据会被分别存储在不同的服务器上副本机制为了保证hdfs的数据的安全性，避免数据的丢失，hd

Continue Reading

hive的简单学习二-爱代码爱编程

2024-04-11 分类: 学习 hive hadoop

一Hive 库的基本操作 1.1 建库 1.默认路径是/user/hive/warehouse 例如我输入命令 create database text1 则text1出现在 warehouse目录下 2.指定位置创建数据库 create database text2 location '/bigdata29/bigdata29db'

Continue Reading

hadoop hdfs常用的命令-爱代码爱编程

2024-04-14 分类: 前端 docker node.js hadoop

先简单理解：用法我先理解为，类似于 linux 命令前面加个hadoop fs - 如，hadoop fs -ls ,hadoop fs -mkdir。显示目录下文件 ls hadoop fs -ls 查看文件内容 cat hadoop fs -cat test.txt 建目录 mkdir hadoop fs -mkdir log_data

Continue Reading

实现多文件合并和去重的mapreduce作业_mapreduce编程实现对两个文件的合并去重-爱代码爱编程

2024-04-10 分类: 大作业大数据 hadoop MapReduce

实现多文件合并和去重的MapReduce作业问题描述我们有多个文本文件，每个文件包含一些文本行。我们的目标是将这些文件合并成一个文件，并去除重复的行，最终得到一个去重后的文本文件。输入文件A数据如下：输入文件

Continue Reading

hdfs详解(hadoop)-爱代码爱编程

2024-04-17 分类: HDFS 大数据 hadoop

Hadoop 分布式文件系统（Hadoop Distributed File System，HDFS）是 Apache Hadoop 生态系统的核心组件之一，它是设计用于存储大规模数据集并运行在廉价硬件上的分布式文件系统。

Continue Reading

大数据测试：构建hadoop和spark分布式ha运行环境-爱代码爱编程

2024-04-17 分类: 功能测试 spark 软件测试 hadoop 分布式自动化测试程序人生

随着大数据技术的不断发展，Hadoop和Spark已成为处理大规模数据的热门框架。在生产环境中，高可用性（HA）是至关重要的，以确保数据处理和分析任务不受中断。本文将详细介绍如何构建 Hadoop和Spark分布式HA运行环境，以确保数据处理平台的稳定性和可用性。 1、什么是分布式HA环境？分布式高可用性（HA）环境是一种架构设计，旨在确保系

Continue Reading

基于hadoop的石油大数据平台设计-爱代码爱编程

2024-04-17 分类: 大数据 hadoop 分布式

基于Hadoop的石油大数据平台设计 Design of an oil big data platform based on Hadoop 完整下载链接:基于Hadoop的石油大数据平台设计文章目录基

Continue Reading

1.0 hadoop 教程-爱代码爱编程

2024-04-13 分类: 大数据 hadoop 分布式

1.0 Hadoop 教程分类 Hadoop 教程 Hadoop 是一个开源的分布式计算和存储框架，由 Apache 基金会开发和维护。 Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集，并且支持在单台计算机到几千台计算机之间进行扩展。 Hadoop 使用 Ja

Continue Reading

mapreduce工作流程（hadoop3.x）-爱代码爱编程

2024-04-17 分类: 大数据 hadoop MapReduce

MapReduce 是一种用于并行处理大规模数据集的——编程模型和处理框架。它通常用于分布式计算环境中，如Apache Hadoop。工作流程 1. 切分阶段（Splitting）：数据集被分成多个数据块，每个数据

Continue Reading

hadoop中的mapreduce流程(图解)-爱代码爱编程

2024-04-11 分类: 数据库 hadoop

一、MapReduce流程图：二、MapReduce流程步骤： 1.文件上传到HDFS中，默认以128M切分为一个block块 2.每个block块对数据进行逻辑上的切片，切片大小为128M,与block块大小一致 3.之后根据切片产生Map任务 4.Map任务会进入环形缓冲区，根据Reduce数量以及数据本身的

Continue Reading

hadoop伪分布式安装教程配置（跟随厦大林子雨老师版）-爱代码爱编程

2024-04-14 分类: 操作系统大数据 hadoop 分布式

好话说在前面，按照教程一步一步走绝对没问题就纯粹的图一乐这次我一步一步来~ 参考文章：https://dblab.xmu.edu.cn/blog/7/ 1、创建hadoop用户如果你安装 Ubuntu 的时候不是用

Continue Reading

云上配置hadoop环境-爱代码爱编程

2024-04-11 分类: 大数据 hadoop 分布式

Hadoop概述 Hadoop技术主要是由下面这三个组件组合而成的： HDFS是一个典型的主从模式架构。 HDFS的基础架构 HDFS的集群搭建一点准备工作其实这一块没啥内容，就是将Hadoop官网

Continue Reading

mapreduce排序机制（hadoop）-爱代码爱编程

2024-04-17 分类: 大数据 hadoop MapReduce

在MapReduce中，排序的目的是为了方便Reduce阶段的处理，通常是为了将相同键的键值对聚合在一起，以便进行聚合操作或其他处理。 1. Map阶段的局部排序（Local Sorting）：在Map阶段，通常

Continue Reading

mapreduce分区机制（hadoop）-爱代码爱编程

2024-04-17 分类: 大数据 hadoop MapReduce

在MapReduce中，分区（Partitioning）是将Map阶段输出的键值对根据某种规则分发到不同的Reduce任务上的过程。这个过程非常关键，因为它直接影响到了Reduce阶段的负载均衡和性能。 1. 哈希分区（H

Continue Reading

hadoop大数据处理技术-爱代码爱编程

2024-04-17 分类: 大数据 hadoop 分布式

2024/4/16 Hadoop学习前的准备 1）首先安装虚拟机 VMWare 虚拟机：因为它不是一个硬件而是用软件做出来的模拟真机所以叫做虚拟机但实际上它里面也可以安装Linux和Windows 实际它的实现虚拟机中想要实现某个操作时将需求发给Windows 调用Windows的CPU Windows完成以后再将结果

Continue Reading

数据大爆炸：wordcount程序的多元化执行方式-爱代码爱编程

2024-04-17 分类: Java hadoop

文章目录主要内容1.左方工作区右键New,选择Map文件2.再创建mymap,myreducer,mywordcount类：3.打包在linux中运行，注意处理的文件式完全分布式文件3.1打jar包步骤：

Continue Reading