代码编织梦想

hivesql sparksql with...as 创建永久视图-爱代码爱编程

2023-01-17 分类: 总结 sql 大数据

use database1;
create view if not exists database1.view_yy as
with
    tb444 as (
    select recordid,get_json_object(json,'$.score1') as score1 from fc_face_in_record where captime >= 0 and captime <=3673342425732
                   ),
     tb_7787 as (select * from (select id_ujjsdk,id_uuu,cc444,record_id from fc_p_face_cluster where cap_time >= 0 and cap_time <=3673342425732)l left anti join fc_face_merged_dossier_history r on l.id_ujjsdk=r.old_profile_id ), 
     tb123 as (select l2.*,r2.city from tb_7787 l2 left join channel_city r2 on l2.cc444 = r2.channelId),
     tb_joined as (select l3.*,if(r3.score1 is null, "",id_uuu) as id_uuu_le65  from tb123 l3 left join tb444 r3 on l3.record_id = r3.recordid),
     rp111 as (select
         id_ujjsdk as id111
         ,count(distinct id_uuu) as count1
         ,count( distinct id_uuu_le65) as count2
         ,count(distinct cc444) as count3
         ,collect_set(city) as set_s
         ,count(distinct city) as set_sCount
         from tb_joined group by id_ujjsdk)
select * from rp111;

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35515661/article/details/128711704

Spark Sql常见的几种数据源-爱代码爱编程

2020-02-09 标签: 大数据

前言 Spark SQL的DataFrame接口支持多种数据源的操作。可以使用关系转换进行操作，也可以被注册为临时视图。将DataFrame注册为临时视图，即可以通过SQL进行数据查询。 Spark SQL的默认数据源格式为Parquet文件格式，修改配置项spark.sql.sources.default即可更改默认的数据源格式。一. 通用加载/

Continue Reading

大数据重点面试知识点总结-爱代码爱编程

2020-02-15 标签: Flink hive hadoop spark Kafka分类: BigData hadoop yarn集群

Linux 1、常见命令 2、linux的启动顺序通电后读取ROM的BIOS程序进行硬件自检，自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备，读取该设备MBR找到操作系统，载入linux的bootloader，一般是grub。之后载入kernel，执行 /etc/rc.d/sysinit ，开启其他组件（/etc/

Continue Reading

Spark结构化API—DataFrame，SQL和Dataset-爱代码爱编程

2020-03-12 标签: dataset datasource SparkSQL分类: spark

一、结构化API概述 1. 结构化API是处理各种数据类型的工具，可处理非结构化的日志文件、半结构化的CSV文件以及高度结构化的Parquet文件。结构化API指以下三种核心分布式集合类型的API：Dataset类型、DataFrame类型、SQL表和视图。大多数结构化API均适用于批处理和流处理，这意味着使用结构化API编写代码时，几乎不用改动代码

Continue Reading

hive-爱代码爱编程

2020-09-17 标签: hive

Hive简介及核心概念一、简介二、Hive的体系架构三、数据类型 3.1 基本数据类型 3.2 隐式转换 3.3 复杂类型四、内容格式五、存储格式六、内部表和外部表一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射

Continue Reading

Spark入门、SparkCore、SparkSQL基础知识点概述-爱代码爱编程

2020-12-11 标签: spark分类: 知识整理基本使用

Spark知识点总结一、Spark入门基础知识 1.1、什么是Spark Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2、Spark内置模块 a、Spark Core：包含任务调度、内存管理、错误恢复、与存储系统交互等模块，含了对弹性分布式数据集RDD的API b、Spark SQL：Spark用来操作

Continue Reading

Hive使用Impala组件查询-爱代码爱编程

2021-04-11 分类: hive big data

目录 1 Apache Impala简介2 Apache Impala使用2.1． Impala 基本介绍2.2． Impala 与 Hive 关系2.3． Impala 与 Hive 异同2.3.1． Impala 使用的优化技术2.3.2．执行计划2.3.3．数据流2.3.4．内存使用2.3.5．调度2.3.6．容错2.3.7．适用

Continue Reading

SparkSQL-爱代码爱编程

2021-05-04 分类: 笔记

SparkSQL SparkSQL什么是SparkSQL特点DataFrameDataSetSparkSQL编程SparkSessionDataFrame创建从Spark数据源进行创建1.我们先创建一个json文件，并上传到linux2.spark.read3.展示结果从RDD转换、HiveTable返回SQL风格语法DSL风格语法RDD转换为Da

Continue Reading

hive建表详注小记（备忘）-爱代码爱编程

2021-05-12 分类: 数据仓库大数据 hive

文章目录 hive内部表和外部表1、语法2、区别：hive官网建表说明及注释hive创建表的三种方法1、使用create命令直接创建一个新表2、 create table `xxx` AS select * from [database.table]建表3、create table xxx like [database.table]建表hive表数

Continue Reading

【硬刚大数据】从零到大数据专家之Apache Doris篇-爱代码爱编程

2021-08-14 分类: 原力计划大数据成神之路硬刚大数据

欢迎关注博客主页：https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于 CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚

Continue Reading

Flink从1.7到1.14版本升级汇总-爱代码爱编程

2021-10-09 分类: crm lamp makefile scipy lighttpd

点击上方蓝色字体，选择“设为星标” 回复”面试“获取更多惊喜一 .前言官方发布了Flink1.14版本，但是遗憾的是，中文官网中的案例和资料还都是基于很古老的版本。所以大家照着官网资料跑不通基本代码也是很正常的。所以整理一下从1.7 版本到1.14版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数。二 .Flin

Continue Reading

Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0）-爱代码爱编程

2022-02-24 分类: 大数据技术体系 sql spark 大数据

前言本文隶属于专栏《大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见大数据技术体系目录 Spark SQL 工作流程源码解析（一）总览（基于 Spark 3.3.0） Spark SQL 工作流程源码解析（二）parsing 阶段（基于 Spark 3.3.0

Continue Reading

技术点记录-爱代码爱编程

2022-02-21 分类: 数据仓库 hive hadoop

函数 Hive的内置函数数学函数取整函数：round、floor、ceil、fix fix朝零方向取整，如fix(-1.3)=-1; fix(1.3)=1; floor：地板数，所以是取比它小的整数，即朝负无穷方向取整，如floor(-1.3)=-2; floor(1.3)=1; floor(-1.8)=-2; floor(1.8)=1。

Continue Reading

SparkSQL中横向迭代计算的4种方式，以及子查询、临时视图、永久视图、缓存表之间的区别？（附案例）-爱代码爱编程

2022-02-28 分类: # Spark SparkSQL sql spark 大数据 big data

案例1：已知c1字段，计算c2和c3字段。数据准备： drop view test1; create view test1(c1) as values (1),(2),(3); select * from test1; 子查询 -- 普通嵌套 select *, c1*c2 as c3 from (select c1,

Continue Reading

一文sparksql_嘎嘎想学习的博客-爱代码爱编程

2022-10-12 分类: spark scala

目录一、数据模型介绍及区别二、SparkSQL编程 2.1 创建DataFrame 2.2SQL语法 2.3 DSL语法 2.4RDD转换为DataFrame 2.5DataFrame 转换为RDD 2.6 RDD转换为DataSet 、DataSet转换为RDD 2.7 DataFrame和DataSet 互相

Continue Reading

hive笔记_元数据访问 hive表访问次数-爱代码爱编程

2023-02-17 分类: 大数据 hive hadoop

Hive 介绍：1.sql 2.udf 官网：hive.apache.org 由Facebook提出的开源=》去解决海量结构化数据的数据统计问题构建在hadoop之上的数据仓库 hdfs： hive的数据是存储在hdf

Continue Reading