代码编织梦想

use database1;
create view if not exists database1.view_yy as
with
    tb444 as (
    select recordid,get_json_object(json,'$.score1') as score1 from fc_face_in_record where captime >= 0 and captime <=3673342425732
                   ),
     tb_7787 as (select * from (select id_ujjsdk,id_uuu,cc444,record_id from fc_p_face_cluster where cap_time >= 0 and cap_time <=3673342425732)l left anti join fc_face_merged_dossier_history r on l.id_ujjsdk=r.old_profile_id ), 
     tb123 as (select l2.*,r2.city from tb_7787 l2 left join channel_city r2 on l2.cc444 = r2.channelId),
     tb_joined as (select l3.*,if(r3.score1 is null, "",id_uuu) as id_uuu_le65  from tb123 l3 left join tb444 r3 on l3.record_id = r3.recordid),
     rp111 as (select
         id_ujjsdk as id111
         ,count(distinct id_uuu) as count1
         ,count( distinct id_uuu_le65) as count2
         ,count(distinct cc444) as count3
         ,collect_set(city) as set_s
         ,count(distinct city) as set_sCount
         from tb_joined group by id_ujjsdk)
select * from rp111;

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_35515661/article/details/128711704

Spark Sql常见的几种数据源-爱代码爱编程

前言 Spark SQL的DataFrame接口支持多种数据源的操作。可以使用关系转换进行操作,也可以被注册为临时视图。将DataFrame注册为临时视图,即可以通过SQL进行数据查询。 Spark SQL的默认数据源格式为Parquet文件格式,修改配置项spark.sql.sources.default即可更改默认的数据源格式。 一. 通用加载/

大数据重点面试知识点总结-爱代码爱编程

Linux 1、常见命令 2、linux的启动顺序 通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行 /etc/rc.d/sysinit ,开启其他组件(/etc/

Spark结构化API—DataFrame,SQL和Dataset-爱代码爱编程

一、结构化API概述 1. 结构化API是处理各种数据类型的工具,可处理非结构化的日志文件、半结构化的CSV文件以及高度结构化的Parquet文件。结构化API指以下三种核心分布式集合类型的API:Dataset类型、DataFrame类型、SQL表和视图。 大多数结构化API均适用于批处理和流处理,这意味着使用结构化API编写代码时,几乎不用改动代码

hive-爱代码爱编程

Hive简介及核心概念 一、简介 二、Hive的体系架构 三、数据类型          3.1 基本数据类型          3.2 隐式转换          3.3 复杂类型 四、内容格式 五、存储格式 六、内部表和外部表 一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射

Spark入门、SparkCore、SparkSQL基础知识点概述-爱代码爱编程

Spark知识点总结 一、Spark入门基础知识 1.1、什么是Spark ​ Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。 1.2、Spark内置模块 ​ a、Spark Core:包含任务调度、内存管理、错误恢复、与存储系统交互等模块,含了对弹性分布式数据集RDD的API ​ b、Spark SQL:Spark用来操作

Hive使用Impala组件查询-爱代码爱编程

目录 1 Apache Impala简介2 Apache Impala使用2.1. Impala 基本介绍2.2. Impala 与 Hive 关系2.3. Impala 与 Hive 异同2.3.1. Impala 使用的优化技术2.3.2. 执行计划2.3.3. 数据流2.3.4. 内存使用2.3.5. 调度2.3.6. 容错2.3.7. 适用

SparkSQL-爱代码爱编程

SparkSQL SparkSQL什么是SparkSQL特点DataFrameDataSetSparkSQL编程SparkSessionDataFrame创建从Spark数据源进行创建1.我们先创建一个json文件,并上传到linux2.spark.read3.展示结果从RDD转换、HiveTable返回SQL风格语法DSL风格语法RDD转换为Da

hive建表详注小记(备忘)-爱代码爱编程

文章目录 hive内部表和外部表1、语法2、区别:hive官网建表说明及注释hive创建表的三种方法1、使用create命令直接创建一个新表2、 create table `xxx` AS select * from [database.table]建表3、create table xxx like [database.table]建表hive表数

【硬刚大数据】从零到大数据专家之Apache Doris篇-爱代码爱编程

 欢迎关注博客主页:https://blog.csdn.net/u013411339 欢迎点赞、收藏、留言 ,欢迎留言交流!本文由【王知无】原创,首发于 CSDN博客!本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。   硬刚

Flink从1.7到1.14版本升级汇总-爱代码爱编程

点击上方蓝色字体,选择“设为星标” 回复”面试“获取更多惊喜    一 .前言 官方发布了Flink1.14版本,但是遗憾的是,中文官网中的案例和资料还都是基于很古老的版本。所以大家照着官网资料跑不通基本代码也是很正常的。 所以整理一下从1.7 版本到1.14版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数。 二 .Flin

Spark SQL 工作流程源码解析(三)analysis 阶段(基于 Spark 3.3.0)-爱代码爱编程

前言 本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据技术体系 目录 Spark SQL 工作流程源码解析(一)总览(基于 Spark 3.3.0) Spark SQL 工作流程源码解析(二)parsing 阶段(基于 Spark 3.3.0

技术点记录-爱代码爱编程

函数 Hive的内置函数 数学函数 取整函数:round、floor、ceil、fix fix朝零方向取整,如fix(-1.3)=-1; fix(1.3)=1; floor:地板数,所以是取比它小的整数,即朝负无穷方向取整,如floor(-1.3)=-2; floor(1.3)=1; floor(-1.8)=-2; floor(1.8)=1。

SparkSQL中横向迭代计算的4种方式,以及子查询、临时视图、永久视图、缓存表之间的区别?(附案例)-爱代码爱编程

案例1:已知c1字段,计算c2和c3字段。  数据准备: drop view test1; create view test1(c1) as values (1),(2),(3); select * from test1; 子查询 -- 普通嵌套 select *, c1*c2 as c3 from (select c1,

一文sparksql_嘎嘎想学习的博客-爱代码爱编程

目录 一、数据模型介绍及区别 二、SparkSQL编程          2.1 创建DataFrame 2.2SQL语法 2.3 DSL语法  2.4RDD转换为DataFrame  2.5DataFrame 转换为RDD 2.6 RDD转换为DataSet 、DataSet转换为RDD 2.7 DataFrame和DataSet 互相

hive笔记_元数据访问 hive表访问次数-爱代码爱编程

Hive 介绍:1.sql 2.udf 官网:hive.apache.org 由Facebook提出的 开源=》去解决海量结构化数据的数据统计问题 构建在hadoop之上的数据仓库 hdfs: hive的数据是存储在hdf