MapReduce | 爱代码爱编程

KeyValueTextInputFormat使用案例-爱代码爱编程

2020-12-13 标签: 大数据 hadoop MapReduce分类: Java

package kvalues; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class

MapReduce:Combiner，partition的作用-爱代码爱编程

2020-12-12 标签: hadoop MapReduce Combiner Partition分类: 大数据 hadoop

combiner其实属于优化方案，由于带宽限制，应该尽量map和reduce之间的数据传输数量。它在Map 端把同一个key的键值对合并在一起并计算，计算规则与reduce一致，所以combiner也可以看作特殊的Reducer。 Partition作用 partition意思为分开，划分。它分割map每个节点的结果，按照key分别映射给不同的redu

hadoop mapreduce相关类 FileInputFormat-爱代码爱编程

2020-12-12 标签: Java 大数据 hadoop MapReduce分类: hadoop

hadoop mapreduce相关类 FileInputFormat 官方链接 http://hadoop.apache.org/docs/r2.9.1/api/ 功能 InputFormat会生成一个RecordReader。（inputFile）-> InputFormat->List<InputSplit> (In

MR Shuffle流程入门-爱代码爱编程

2020-12-12 标签: MapReduce shuffle分类: hadoop

什么是shuffle? 从map方法的输出开始,到作为输入数据传给reduce方法的过程叫做shuffle. shuffle流程是怎样的? map端 map方法开始产生输出数据时，并不是简单地将它写到磁盘. 每个map任务都会有一个环形内存缓冲区用于存储map的输出数据。在默认情况下，缓冲区的大小为100MB,这个值可以通过mapreduce.t

Hadoop之MapReduce编程-爱代码爱编程

2020-12-13 标签: 大数据 hadoop MapReduce intellij打包ja分类: hadoop

MapReduce编程基础 0. MR与Java的数据类型对比 MRJavabooleanBooleanWritablebyteByteWritableintIntWritablefloatFloatWritablelongLongWritabledoubleDoubleWritableStringTextmapMapWritablearrayArra

MR运行流程-爱代码爱编程

2020-12-12 标签: hadoop MapReduce分类: hadoop

MapTask运行流程 maptask调用FileInputFormat的getRecordReader读取分片数据哪个类负责读取txt文本？（TextInputFormat）分片是哪个谁执行的？ InputFormat类的getSplits方法每行数据读取一次，返回一个(K,V)对，K是offset,V是一行数据将k-v对交给MapTa

使用Eclipse开发工具运行MapReduce统计单词出现次数-爱代码爱编程

2020-12-12 标签: 大数据 hadoop MapReduce

使用Eclipse开发工具运行MapRuce统计单词出现次数 1.##我在这里将原先准备好的10000个单词的英语文章通过U盘移动到了Ubuntu系统中，也可以通过其它的方式，比如FTP传输或者将Ubuntu功能增强，直接拖拽进去也可。2.##将刚才导入的英语文章文档上传到/home/hadoop目录下。 :cp ljzEnglish1000

hadoop离线 day10 MapReduce中的分区和排序-爱代码爱编程

2020-12-13 标签: Java 大数据 hadoop spark MapReduce分类: hadoop离线

hadoop离线 MapReduce中的分区和排序 1、MapReduce的分区与reduceTask的数量第一步：定义我们的mapper第二步：定义我们的reducer逻辑第三步：自定义partitioner第四步：程序main函数入口2、MapReduce排序以及序列化3、计数器4、规约（combiner） 1、MapReduce的分区与r

MapReduce过程详解及其性能优化-爱代码爱编程

2020-12-11 标签: hadoop MapReduce

MapReduce过程详解及其性能优化废话不说直接来一张图如下：从JVM的角度看Map和Reduce Map阶段包括：第一读数据：从HDFS读取数据 1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件，由于Mapper是基于虚拟机的，过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的

MapReduce 报错求解-爱代码爱编程

2020-12-11 标签: MapReduce分类: hadoop

上传jar包后运行 hadoop jar Word-1.0-SNAPSHOT.jar org.example.SubmitJob 报错 20/12/11 19:49:49 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.122.11:8032 20/12/11 1

hadoop统计全球每年的最高气温和最低气温-爱代码爱编程

2020-12-11 标签: Java 大数据 hadoop MapReduce分类: hadoop

1、课程设计题目及要求（1）从ftp://ftp.ncdc.noaa.gov/pub/data/gsod下载2014到2018年的天气数据，然后对数据进行清洗，仅保留日期和当天的气温，数据文件保存为temperature.txt；（2）根据temperature.txt，统计全球每年的最高气温和最低气温；要求：按每年每月统计最高和最低气温；按每年每月统

hive数据倾斜，非复制粘贴，确切实用-爱代码爱编程

2020-12-11 标签: 大数据 hive MapReduce分类: 大数据之hive

最近做宽表，insert overwrite table … select 导入数据时，发生了数据倾斜情况通过ui界面看到，有一半的数据，都跑在了单个节点上，执行的时候，报错，11.3G超出物理内存限制的11G。百度搜了一下，hive数据倾斜，全部都是复制粘贴。。。内容都是那几句，空值过滤，设置mapjoin，负载均衡，空值时随机数分配，预聚合

HIVE查询以及窗口函数示例-爱代码爱编程

2020-12-11 标签: hive MapReduce

–order by：指定列排序 select name, dept_num, employee_id, salary from employee_contract order by salary desc; –按指定列的位排序 set hive.groupby.orderby.position.alias=true;

Hadoop优化（MapReduce优化方法数据输入，map，reduce，数据倾斜进行调优）（八）-爱代码爱编程

2020-12-11 标签: hadoop 优化 MapReduce分类: hadoop

Hadoop优化一.MapReduce优化需要考虑的点1.计算机性能2.I/O操作优化二.MapReduce优化方法1.数据输入2.Map 阶段3.Reduce阶段4.数据倾斜问题5.常用的调优参数（1）资源相关参数（2）容错相关参数（mapreduce）一.MapReduce优化需要考虑的点 MapReduce程序效率取决于以下几点：

Hadoop综合大作业-爱代码爱编程

2020-12-15 标签: hadoop MapReduce HDFS分类: 笔记

文章目录作业要求具体步骤一、安装VirtualBox虚拟机软件，在VirtualBox中安装Ubuntu。二、在Ubuntu中安装Hadoop，Eclipse。三、运行实例。作业要求 1.将待分析的文件（不少于10000英文单词）上传到HDFS 2.调用MapReduce对文件中各个单词出现的次数进行统计 3.将统计结果下载本地。 4.写

Hadoop（jdk、zookeeper）集群环境搭建-爱代码爱编程

2020-12-11 标签: 大数据 hadoop zookeeper MapReduce HDFS

Hadoop1&集群环境搭建 1：Hadoop介绍 2：环境搭建在 Hadoop 具体开始前, 先来搭建一下环境创建虚拟机安装虚拟机 VMWare创建虚拟机安装 CentOS组成集群配置每台主机关闭防火墙关闭 SELinux设置主机名重启设置时钟同步服务配置用户权限免密登录安装辅助软件 JDKZookeeper安装

MaperReducer 打包上传服务器运行_随堂笔记1211-爱代码爱编程

2020-12-11 标签: Java 大数据 hadoop maven MapReduce分类: hadoop

一、Jdk Java开发工具包kit Jre Path：jdk（jre） Dos :windows + r cmd Java javac java -version Path常见配置：计算机》属性》高级系统设置》环境变量》系统变量 path: ;jdk\bin; jdk下面的bin目录（必须包含bin目录） Eg：D:\Program Fi

Hadoop基础（二）：分布式计算框架MapReduce-爱代码爱编程

2020-12-13 标签: 大数据 hadoop 分布式 MapReduce分类: hadoop

文章目录一、MapReduce基础入门1.为什么要MapReduce2.MapReduce优缺点3.MapReduce进程结构4.MapReduce程序运行流程分析二、MapReduce框架原理1.工作流程2.InputFormat3.MapTask4.Combiner5.Shuffle6.ReduceTask7.OutputFormat 一

MapReduce 的 combiner-爱代码爱编程

2020-12-11 标签: MapReduce分类: # MapReduce hadoop

MapReduce 的 combiner 原理具体实现步骤代码实现原理每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce 节点之间的数据传输量，以提高网络IO 性能，是 MapReduce 的一种优化手段之一。combiner 是 MR 程序中 Ma

【大数据】离线批处理计算MapReduce | 复习笔记-爱代码爱编程

2020-12-11 标签: 大数据 MapReduce分类: 复习笔记大数据

一些介绍分布式计算模型批处理计算：（大容量静态数据集）有界、持久、大量理需要访问全套记录，不适合对处理时间要求较高的场合偷老师的图：常见计算模式主要点在于分开mapper和reducer，然后确定每个<key,value>键值对的意义求和模式(Summarization Pattern) 单词统计： map阶