云计算大数据 | 爱代码爱编程

代码编织梦想

tez的web ui简单体验-爱代码爱编程

2022-09-06 分类: 笔记数据仓库 sql 大数据 hive Tez 云计算大数据

Tez的web UI简单体验前言由于CDP7默认是Hive On Tez，不再有Map Reduce和Spark什么事，查看监控、分析数据倾斜等原因导致的HQL任务跑不快的问题没有使用Spark那会儿那么容易。加之D

Continue Reading

云计算导论（第二版）李伯虎著全部课后题的答案-爱代码爱编程

2023-01-09 分类: 华为云量子计算云计算人工智能大数据云原生云计算大数据信息与通信

目录第一章：绪论 1.联系自己身边的生产生活实践，试列举2~3个你认为正在运用或者可以运用云计算的例子 2.你认为云计算对个人与社会带来了什么样的影响. 3.分析云计算服务和云计算平台的区别和联系. 4.云计算与“创新、协调、绿色、开放、共享”的理念有何关系？第二章：云计算系统的系统框架 1.云计算服务的特征有哪些。 2.哪一类的云

Continue Reading

使用kubesphere3.3在ubuntu20.04的kubernetes1.24上部署word press-爱代码爱编程

2023-05-30 分类: 笔记 kubernetes k8s 云 kubesphere 云计算云原生云计算大数据

使用KubeSphere3.3在Ubuntu20.04的Kubernetes1.24上部署Word Press 前言之前已经部署了KubeSphere和K8S的基础环境：https://lizhiyong.blog.c

Continue Reading

【五一创作】使用scala二次开发spark3.3.0实现对mysql的upsert操作-爱代码爱编程

2023-04-29 分类: 笔记 Java mysql spark 大数据 scala 云计算大数据

使用Scala二次开发Spark实现对MySQL的upsert操作背景在我们的数仓升级项目中，遇到了这样的场景：古人开发的任务是使用DataStage运算后，按照主键【或者多个字段拼接的唯一键】来做insert th

Continue Reading

大数据平台开发——使用java和python调用shell脚本-爱代码爱编程

2023-04-02 分类: 笔记云 Java python shell 大数据开发语言云计算大数据

大数据平台开发——使用Java和Python调用Shell脚本背景在大数据平台开发中，经常会遇到需要调用Shell脚本的场景，倒不是说只能用Shell，毕竟大数据开发到头来一定是个语言无关的事情：从Hive源码解

Continue Reading

利用多线程批put方式压测hbase-爱代码爱编程

2023-04-02 分类: 云 Java 数据库大数据 hadoop hbase 云计算大数据

利用多线程批Put方式压测HBase 背景在正式上生产之前，一定要对集群的组件做稳定性和性能压测，这是常识。这种压测当然不能指望那些只会鼠标点几下网页并经常指责前端页面样式有bug的测试去做。。。这种稍微有点技术含量的

Continue Reading

简单体验k8s的saas服务-青云kubespherecloud轻量集群服务-爱代码爱编程

2023-03-30 分类: 笔记容器 kubernetes 云大数据运维云原生云计算大数据

简单体验K8S的Saas服务-青云KubeSphereCloud轻量集群服务背景之前有写过几篇KubeSphere的使用笔记：使用kubekey的all-in-one安装K8S1.24及KubeSphere3.3

Continue Reading

使用java写一个hive的udf将中文转为拼音【借助pinyin4j-2.5.1】-爱代码爱编程

2023-03-28 分类: 笔记数据仓库 Java sql 大数据 hive 云计算大数据

使用Java写一个Hive的UDF将中文转为拼音【借助pinyin4j-2.5.1】背景数仓项目中，遇到一个古人的Oracle SQL，大体上是这么写的： select to_char(rawtohex(nlsso

Continue Reading

四周年创作纪念日-爱代码爱编程

2023-03-22 分类: 运维云计算大数据

前言机缘四年前我面临即将失业（毕业）的人生重大转折点也是我与小C相识的一年，初入C站只想着记录一下学习笔记也没什么目标，久而久之养成了习惯，大学生活逐渐接近尾声，那时候心里想着每个月工资能有一份四五千的工作就

Continue Reading

使用shell传参解决dataphin中pyspark不支持中文的问题-爱代码爱编程

2023-03-21 分类: 笔记 python shell spark 大数据云计算大数据

使用Shell传参解决DataPhin中PySpark不支持中文的问题背景笔者开发PySpark任务时【别问为神马不用Java和Scala打Jar包的方式，PySpark不需要打包所以开发效率极高，早点搞完早点下班】

Continue Reading

hive拉链表-爱代码爱编程

2023-03-20 分类: 笔记数据仓库 sql 大数据 hive hadoop 云计算大数据

Hive拉链表背景笔者在将DataStage任务翻写为Hive On Tez任务时，遇到一个拉链表，实在是头大，特此将脱敏后的套路及心得记录下来，以备后续翻阅。原理 DataStage 脱敏后大致如图所示

Continue Reading

hive on tez小文件合并的技术调研-爱代码爱编程

2023-03-13 分类: 笔记大数据 hive hadoop 云计算大数据

Hive On Tez小文件合并的技术调研背景在升级到CDP7.1.5之后，默认的运算引擎变成了Tez，之前这篇有讲过： https://lizhiyong.blog.csdn.net/article/detail

Continue Reading

使用java编写hive的udf实现身份证号码校验及15位升级18位-爱代码爱编程

2023-02-25 分类: 笔记数据仓库 Java 大数据 hive ETL 云计算大数据

使用Java编写Hive的UDF实现身份证号码校验及15位升级18位背景在数仓项目中，有时候会根据身份证信息做一些取数filter或者条件判断的相关运算进而获取到所需的信息。古人是用Oracle做数仓，理所当然是用S

Continue Reading

nat地址转换访问web时内网和外网的变化如何理解-爱代码爱编程

2023-01-14 分类: 服务器大数据基础虚拟化技术网络运维云计算大数据

前言　我们现在常使用的IP地址是IPv4地址，由四组0-255的十进制数字组成，中间以小数点分隔。Internet上的每一台主机或者路由器都至少有一个IP地址。IP地址(IPv4地址，下文IP地址默认指IPv4)的长度是32位，总数为2的32次方，大约43亿个。　　43亿这个数字是远远不够地球上70亿人的上网设备来分配的。为了快速解决IP地址匮乏的这

Continue Reading

分布式计算的并发控制-爱代码爱编程

2023-01-11 分类: 服务器大数据基础云计算 Java 数据库分布式分布式计算云计算大数据

并发控制的目标共享资源,特别是共享信息资源(如数据库和文件系统)时要求并发(Concurrency)活动。并行(Parallel)是并发的一种特殊情况。操作系统中实现的典型并发活动如输人/输出操作和计算的重叠是一种并行活动,它能提高执行速度。多个进程在单个处理上的执行也是一种并发活动,但不是并行活动,它不能

Continue Reading

一篇文章帮你解决死锁问题的三种类型，快来看看吧。简单易懂-爱代码爱编程

2023-01-10 分类: 大数据基础云计算 Java 分布式开发语言分布式计算云计算大数据信息与通信

第一种类型：资源分配图首先这是一个资源分配图。P是一个进程而R是一个资源。简单易懂的来说死锁的出现就是两个进程同时申请了一个资源导致资源不知道如何分配。箭头由进程指向资源则是请求资源，而当箭头由资源指向进程时为释放资源。根据a图可以得到每个资源都只有一个进程申请因此不处于死锁状态。

Continue Reading

分布式计算系统的死锁问题，一看就懂-爱代码爱编程

2023-01-10 分类: 大数据基础云计算 Java 大数据分布式开发语言分布式计算云计算大数据

序：分布计算系统中的死锁和集中式系统中的死锁非常相似,只不过问题更为严重,因为一般来说,分布计算系统涉及更为广泛的资源和数据共享。同集中式系统相比,分布计算系统中的死锁更难避免,更难防止、更难检测和纠正,因为通过多台机器才能得到相关的信息。死锁发生的条件

Continue Reading

分布式计算中关键的maekawa互斥算法仔细讲解-爱代码爱编程

2023-01-10 分类: 大数据基础云计算大数据分布式分布式计算云原生云计算大数据信息与通信

在Maekawa互斥算法中，一个进程P在发出申请报文后，不用得到所有其他进程的回答，而只须得到一个进程子集S中的所有进程的回答即可进入临界区。称S是P的请求子集。假设Ri和Rj分别是进程Pi和Pj的请求子集，要求Ri∩Rj≠NULL。当进程Pi请求进入临界区时，它只向Ri中的进程发送请求报文。当进程P

Continue Reading

一篇文章帮你理解基于逻辑时钟的互斥算法。--分布式计算互斥算法-爱代码爱编程

2023-01-10 分类: 大数据基础网络分布式计算云计算大数据

在介绍 Lampor 时间戳互斥算法'之前,我们做如下假定:最初只有一个进程获得穿源,如 P.:P 向 P,发送报文时,P,能按发送的顺序接收到,并且最终总能收到;每个进程均可向其他任何进程直接发送报文;每个进程均有一个申请队列,队列中最初只有一项 T: P。申请,这里 P。是最初获得资源的进程,T,是比其他任何逻辑时钟值均小的初值。

Continue Reading

分布式计算系统关于互斥算法的详细讲解.关于集中式互斥算法的详细解读-爱代码爱编程

2023-01-10 分类: 大数据基础云计算网络大数据分布式分布式计算云计算大数据信息与通信

分布计算系统中互斥的一种最直接的实现方法就是模仿集中式计算机系统的实现方式,这是一个集中式的互斥算法。在此算法中,有一个进程被选定为协调者。当一个进程,如进程 1,想进入临界区时,它向协调者发送一个请求报文,指出它想进入哪个临界区并希望得到协调者的许可。如果当前没有其他的进程在临界区,协调者应答一个同意报文,如图 5.2.1(a)所

Continue Reading