Hadoop之HDFS中的Java API操作-爱代码爱编程

2020-12-13 标签: Java hadoop api HDFS分类: Java hadoop

API使用

一、准备工作

1.1、解压

解压 hadoop 安装包到非中文路径（例如：D:\users\hadoop-2.6.0-cdh5.14.2）

1.2、环境变量

在 windows 上配置 HADOOP_HOME 环境变量(与 windows 配置 jdk 环境变量
方法类似)

1.3、新建工程

使用开发工具创建一个 Maven 工程

1.4、依赖包

导入相应的依赖，依赖如下：

<dependencies>
	<dependency>
		<groupId>junit</groupId>
		<artifactId>junit</artifactId>
		<version>RELEASE</version>
	</dependency>
	<dependency>
		<groupId>org.apache.logging.log4j</groupId>
		<artifactId>log4j-core</artifactId>
		<version>2.8.2</version>
	</dependency>
	<dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-common</artifactId>
		<version>2.6.0-cdh5.14.2</version>
	</dependency>
	<dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-client</artifactId>
		<version>2.6.0-cdh5.14.2</version>
	</dependency>
	<dependency>
		<groupId>org.apache.hadoop</groupId>
		<artifactId>hadoop-hdfs</artifactId>
		<version>2.6.0-cdh5.14.2</version>
	</dependency>
</dependencies>

注意：Maven 仓库没有支持 cdh 相关依赖，cloudera 自己建立了一个相关的
仓库，需要在 pom 单独添加 cloudera 仓库。

<repositories>
	 <repository>
		 <id>cloudera</id>
		 <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
	 </repository>
</repositories>

1.5、测试

创建一个包cn.big.data，创建 HdfsClient 类，使用 Junit 方式测试
创建一个目录

package cn.big.data;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class HdfsClient {
    @Test
    public void testMkdirs() throws IOException, InterruptedException, URISyntaxException {

        // 1 获取文件系统
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"), conf, "root");

        // 2 创建目录
        fs.mkdirs(new Path("/myApi"));

        // 3 关闭资源
        fs.close();
    }
}

1.6、注意事项

如果 idea 打印不出日志，在控制台上只显示如下信息

1.log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.
util.Shell).
2.log4j:WARNPleaseinitializethelog4jsystemproperly.
3.log4j:WARNSeehttp://logging.apache.org/log4j/1.2/faq.html#noconfi
gformoreinfo.

需要在项目的 src/main/resources 目录下，新建一个文件，命名为
“log4j.properties”，在文件中填入：

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

二、使用方法

2.1、HDFS 文件上传

@Test
    public void upLoad() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        // 设置副本存储数量为1，默认是3
        configuration.set("dfs.replication","1");
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");
        //上传文件
        fs.copyFromLocalFile(new Path("D:\\study\\codes\\hadoop\\HdfsClientDemo\\data\\hdfsDemo\\test.txt"),new Path("/myApi/"));
        //关闭资源
        fs.close();

        System.out.println("ok");
    }

2.2、HDFS 文件下载

@Test
    public void downLoad() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //下载文件
        // boolean delSrc 指是否将原文件删除
        // Path src 指要下载的文件路径
        // Path dst 指将文件下载到的路径
        // boolean useRawLocalFileSystem 是否开启文件校验
        fs.copyToLocalFile(false,new Path("/myApi/test.txt"),new Path("D:\\study\\codes\\hadoop\\HdfsClientDemo\\HdfsTest"),true);
        fs.close();
    }

2.3、HDFS 文件夹删除

@Test
    public void dRemove() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //删除文件夹
        fs.delete(new Path("/myApi/remove"),true);
        fs.close();
    }

2.4、HDFS 文件名更改

public void fRename() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //修改文件名
        fs.rename(new Path("/myApi/test.txt"),new Path("/myApi/testRename.txt"));
        fs.close();
    }

2.5、HDFS 文件详情查看

@Test
    public void testListFiles() throws IOException, URISyntaxException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //获取文件详情
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"),true);
        while (listFiles.hasNext()){
            LocatedFileStatus status = listFiles.next();
            //输出详情
            //文件名称
            System.out.println(status.getPath().getName());
            //长度
            System.out.println(status.getLen());
            //权限
            System.out.println(status.getPermission());
            //组
            System.out.println(status.getGroup());
            //获取存储的块信息
            BlockLocation[] blockLocations = status.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
                //获取块存储的主机节点
                String[] hosts = blockLocation.getHosts();
                for (String host : hosts) {
                    System.out.println(host);
                }
            }
            System.out.println("-------------------------------");
        }
    }

2.6、HDFS 文件和文件夹判断

@Test
    public void testListStatus() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //判断是文件还是文件夹
        FileStatus[] listStatus = fs.listStatus(new Path("/"));
        for (FileStatus fileStatus : listStatus) {
            if (fileStatus.isFile()){
                System.out.println("f:"+fileStatus.getPath().getName());
            }else {
                System.out.println("d:"+fileStatus.getPath().getName());
            }
        }
        fs.close();
    }

2.7、HDFS 的 I/O 流操作

2.7.1 文件上传

@Test
    public void putFileToHDFS() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //创建输入流
        FileInputStream fis = new FileInputStream(new File("D:\\study\\codes\\hadoop\\HdfsClientDemo\\HdfsTest\\test.txt"));
        //获取输出流
        FSDataOutputStream fos = fs.create(new Path("/myApi/testIO.txt"));
        //执行流拷贝
        IOUtils.copyBytes(fis,fos,configuration);
        //关闭资源
        IOUtils.closeStream(fis);
        IOUtils.closeStream(fos);
    }

2.7.2 文件下载

@Test
    public void getFileFromHDFS() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        //获取输入流
        FSDataInputStream fis = fs.open(new Path("/myApi/testIO.txt"));
        //获取输出流
        FileOutputStream fos = new FileOutputStream(new File("D:\\study\\codes\\hadoop\\HdfsClientDemo\\HdfsTest\\IODownload.txt"));
        //流的对拷
        IOUtils.copyBytes(fis,fos,configuration);
        //关闭资源
        IOUtils.closeStream(fis);
        IOUtils.closeStream(fos);
        fs.close();
    }

2.8、定位文件读取

这里强调可以设置任意位置读取 hdfs 文件，对于 mapreduce 分片 inputsplit 和 spark 分区理解有一定帮助。
先将 hadoop 安装包上传到 HDFS 文件系统
下载第一块

@Test
    public void readFileSeek1() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        FSDataInputStream fis = fs.open(new Path("/myApi//hadoop-2.6.0-cdh5.14.2.tar.gz"));
        FileOutputStream fos = new FileOutputStream(new File("C:\\Users\\Dongue\\Desktop\\seek\\hadoop-2.6.0-cdh5.14.2.tar.gz.part1"));
        //流的拷贝
        byte[] buf = new byte[1024];
        for (int i = 0; i < 1024 * 128; i++) {
            fis.read(buf);
            fos.write(buf);
        }
        IOUtils.closeStream(fis);
        IOUtils.closeStream(fos);
    }

下载成功
在这里插入图片描述
下载第二块

@Test
    public void readFileSeek2() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.247.130:9000"),configuration,"root");

        FSDataInputStream fis = fs.open(new Path("/myApi//hadoop-2.6.0-cdh5.14.2.tar.gz"));
        //定位输入数据位置
        fis.seek(1024*1024*128);
        FileOutputStream fos = new FileOutputStream(new File("C:\\Users\\Dongue\\Desktop\\seek\\hadoop-2.6.0-cdh5.14.2.tar.gz.part2"));
        //流的对拷
        IOUtils.copyBytes(fis,fos,configuration);

        IOUtils.closeStream(fis);
        IOUtils.closeStream(fos);
    }

合并文件
在 window 命令窗口中执行

type hadoop-2.6.0-cdh5.14.2.tar.gz.part2 >> hadoop-2.6.0-cdh5.14.2.tar.gz.part1

合并后就是完整的 hadoop 安装包文件
在这里插入图片描述

Shiro安全框架(Shiro与SpringBoot整合开发)授权部分（一）编码-爱代码爱编程

2020-12-19 标签: Java spring shiro分类: shiro

对于shiro框架我们之前已经分别叙述了shiro在.ini文件中的认证，shiro代码中硬编码的认证实现，以及我们将shiro与springboot整合的认证实现，还有我们将shiro与springboot整合之后，连接数据库的认证实现，接下来我们继续为大家展开来研究一下shiro与springboot整合之后连接数据库的授权方面的实现，其实与之前shi

叶子相似的树(Java)-爱代码爱编程

2020-12-13 标签: Java android Android Stud分类: 算法

考虑一棵二叉树上所有的叶子，这些叶子的值按从左到右的顺序排列形成一个叶值序列如上图所示，给定一棵叶值序列为 (6, 7, 4, 9, 8) 的树。如果有两棵二叉树的叶值序列是相同，那么我们就认为它们是叶相似的。如果给定的两个头结点分别为 root1 和 root2 的树是叶相似的，则返回 true；否则返回 false 。示例 1：输

java序列化，反序列化-爱代码爱编程

2020-12-13 标签: Java 编程语言

序列化，反序列化：序列化是指把一个Java对象变成二进制内容，本质上就是一个byte[]数组。为什么要把Java对象序列化呢？因为序列化后可以把byte[]保存到文件中，或者把byte[]通过网络传输到远程，这样，就相当于把Java对象存储到文件或者通过网络传输出去了。有序列化，就有反序列化，即把一个二进制内容（也就是byte[]数组）变回Java对象

使用 DML语句针对仓库管理信息系统，进行查询操作-爱代码爱编程

2020-12-13 标签: Java mysql sql 数据库分类: mysql高级查询与编程

查看本章节查看作业目录需求说明：查询所有电视机产品的基本信息，要求显示产品编号、产品名和进货单价查询所有产品的基本信息，要求按类型升序、价格降序显示查询信息显示所有不重复的产品类型显示进货单价最高的第 3 ～ 6 名的产品信息显示产品编号中含有“DK”字样的所有产品信息，按类型和产品编号进行排序显示实现代码：查询所有电视机产品的基本信息，要

bupt-web简易的联系人管理系统制作-Spring+Thymeleaf+JPA(H2数据库)-爱代码爱编程

2020-12-13 标签: Java spring分类: spring boot Java web

年轻人要讲抄德，抄袭作业又蠢又坏，大家耗子尾汁 bupt-web作业五：使用WEB技术实现一个简易的联系人管理系统，要求额外使用ajax对电话的输入检查，使用JPA完成联系人增删改查整体思路架构JPA架构H2数据库基于之前的项目，引入架构体系使用实例对象连接数据库创建数据接口以及需要封装的函数定义新的与数据库有关联的Controller其他Cont

Java面试考点(二)-爱代码爱编程

2020-12-14 标签: Java

文章目录一、线程1.1如何保证线程安全？1.2什么是线程池？1.3介绍一下线程同步和线程调度的相关方法。1.4当一个线程进入一个对象的synchronized方法A之后，其它线程是否可进入此对象的B方法？1.5说明一下多线程和同步有几种实现方法？1.6说明一下线程中的同步和异步有何异同？并且请举例说明在什么情况下会使用到同步和异步？1.7说明一下

2020西南民大计算机专硕研一课程概述（未写完）-爱代码爱编程

2020-12-13 标签: Java 机器学习 hadoop分类: 笔记

上学期政治（自然辩证法）上课内容会提出8个研究点，让你去做PPT，分别为 1中医是科学还是伪科学 2数学是科学吗 3古代自然观、近代自然观、现代自然观 4附魅祛魅返魅 5人类中心主义与非人类中心主义 6证伪主义 7范式和范式转换 8科学研究是否应该设置禁区考试内容：根据上面几个研究点出几个简答题，开卷，可以带纸质材料拿分技巧

Hadoop基础学习-爱代码爱编程

2020-12-13 标签: hadoop分类: 大数据开发

一、大数据概论 1.大数据概念 2.大数据特点4V 3.大数据应用场景 4.大数据部门业务流程分析 5.大数据部门组织结构二、从Hadoop框架讨论大数据生态 1.Hadoop是什么 2.Hadoop的发行版本 3.Hadoop的优势 4.Hadoop的组成 5.H

“鸿蒙”操作系统关键特性解读-爱代码爱编程

2020-12-12 标签: python 编程语言大数据 hadoop 分布式

1、计算机为什么需要操作系统？大部分人认为，操作系统本来就是与计算机（IT设备）一体的。究竟计算机为什么需要操作系统？可能我们并不会去特意想这个问题。其实，对于IT产品而言，操作系统的角色，就像我们人类身体中，大脑的角色一样。我们每天面对大量的或大或小、或简单或复杂、或紧迫或宽松的事情。大脑如何处理这些事情的处理的先后顺序和逻辑关系。

KeyValueTextInputFormat使用案例-爱代码爱编程

2020-12-13 标签: 大数据 hadoop MapReduce分类: Java

package kvalues; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class

hadoop离线阶段（第十六节—2）azkaban的简介和安装-爱代码爱编程

2020-12-13 标签: hadoop

azkaban的简介 azkaban官网： https://azkaban.github.io/ Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。作者：Fant

大数据框架Hadoop：第一章 HDFS分布式文件系统(一)【NameNode和SecondaryNameNode】-爱代码爱编程

2020-12-13 标签: 大数据 hadoop HDFS分类: 大数据

系列文章目录大数据框架Hadoop：第一章 HDFS分布式文件系统(一) 大数据框架Hadoop：第一章 HDFS分布式文件系统(二) 大数据框架Hadoop：第二章计算框架MapReduce（一）文章目录系列文章目录前言一、什么是Hadoop?1.hadoop的发展历史起源介绍2.hadoop的发展历史起源构二、HDFS分布式文件系统