代码编织梦想

数仓建模之维度表&指标表_指标 维度表-爱代码爱编程

在数据仓库中,维度和指标是两个重要的概念。 维度(Dimension): 维度是一种描述业务过程中各种属性的方法,用于对业务过程进行分析和归类。维度包括时间、地点、人员、产品、客户等各种业务属性,是数据分析的基础。 指标

火山引擎 dataleap:在数据研发中,如何提升效率?_数据平台 数据开发效率提升-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在数仓及中台研发过程中,研发人员经常需要在不同任务中维护相同或类似代码,不仅费时费力,并且代码迭代后也面临不同业务单元逻辑性不一致的问题,对运维管理形成挑战。 一般来说,研发人员往往通过代码模板来解决这一问题。具体而言,在核心数据处理逻辑相同的情况下,研发人

las spark 在 tpc-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 文章主要介绍了火山引擎湖仓一体分析服务 LAS Spark(下文以 LAS Spark 指代)在 TPC-DS 上的性能突破与

火山引擎dataleap一站式数据治理解决方案及平台架构_字节数据平台的博客-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在字节跳动内部,DataLeap数据平台数据治理团队致力于建立一站式、全链路的数据治理解决方案平台。 数据治理的概念 数据

火山引擎 bytehouse 与白鲸开源完成兼容性认证,加速数据价值释放_字节数据平台的博客-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据作为新型生产要素,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和治理方式。越来越多企业也在尝试充分利用数据要素,开辟全新发展路径,进一步实现业务价值提升。 在数字化转型的大背景之下,火山引擎 ByteHou

hive 常见数据倾斜场景及解决方案(map\join\reduce端)-爱代码爱编程

目录 MapReduce流程简述a) Map倾斜b) Join倾斜c) Reduce倾斜 首先回顾一下MapReduce的流程 MapReduce流程简述 输入分片: MapReduce

线下meetup:在数智化转型背景下,火山引擎vedi的大数据技术揭秘_字节数据平台的博客-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 近日,联合火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题Meetup暨超话数据特别场正式在深圳举办,邀请到了Datasail、DataLeap、 ByteHouse、EMR、LAS等多条数智平台(VeDI)

火山引擎dataleap推出两款大模型应用: 对话式检索与开发 打破代码语言屏障-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 自上世50年代,以“计算机”作为代表性象征的信息革命开始,社会对于先进生产力的认知便开始逐步更迭——从信息化(通常认为是把企业中的信息资源与信息技术有机结合,从而提高企业的管理水平和效率)到数字化(普遍认为是以数据分析为核心,利用各种业务数据去反哺和优化业

-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景介绍 Notebook 解决的问题 部分任务类型(python、spark等)在创建配置阶段,需要进行分步调试;由于探

火山引擎 bytehouse:两个关键技术,揭秘 olap 引擎中的数据导入技术-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据导入是衡量 OLAP 引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。 作为一款 OLAP 引擎,火山引擎云原生数据仓库 ByteHouse 源于开源 ClickHouse,在字节跳动多年打磨下,提供更丰富的能力和

从“13天”到“0天”延时,揭秘幸福里离线sla保障最佳实践-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 “幸福里”是抖音集团旗下集内容、社区、工具于一体的房产媒体综合信息平台,致力于提供多样化房产资讯、定制找房需求。随着幸福里业务发展,为了满足业务对于数据使用、指标观测等需求,团队快速落地了数仓建设。但由于早期“先建后治”,导致现阶段数据治理难题频发。 其

窗口函数-分组排序:row-爱代码爱编程

窗口函数语法结构: 分析函数() over(partition by 分组列名 order by 排序列名 rows between 开始位置 and 结束位置) 开窗函数和聚合函数区别: 聚合函数会对一组值进行计算并返

两表union 如何保证group by 字段唯一-爱代码爱编程

当要计算的指标可能来源多个表时,可能会使用到union all把不同的表中计算的指标合起来。关于union all使用条件:两个要联合的SQL语句 字段个数必须一样,而且字段类型要“相容”(一致) 另外,回顾union和u

数仓中的维度、度量、指标、事实、属性几个概念如何区分?有何异同?-爱代码爱编程

文章目录 维度VS属性维度横比纵比定性维度、定量维度 维度VS度量度量VS指标维度VS指标 维度VS属性 维度是说明数据,是业务中对象的描述性属性或特征,用于对业务过程进行分析归类。

数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)-爱代码爱编程

概念归纳 业务分类:业务板块是某一大类业务的指标和维度的集合,如电商,文 娱。 数据域:面向业务分析,将业务过程或者维度进行抽象的集合,如交易域, 日志域。 将零散的需求分类,后续一一展开,这个过程叫数据域划分。数据域

火山引擎dataleap基于apache atlas自研异步消息处理框架-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群   字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flink任务的处理方案在ToB场景中也存在诸多限制,所以团队自研了轻量级异步消息

火山引擎dataleap:助力pico落地数据流程规范,提升开发效率-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 作为目前中国市场领跑的头部XR品牌之一,字节跳动旗下的PICO已经拥有了超百万客户。 过去一年,PICO在XR场景中不断建设和发力,为运动、娱乐等消费级场景带来了全新体验,并广泛应用在教育、医疗和企业培训等商用场景。 在视频领域中,PICO结合

火山引擎dataleap的data catalog系统公有云实践-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 Data Catalog是一种元数据管理的服务,会收集技术元数据,并在其基础上提供更丰富的业务上下文与语义,通常支持元数据编目、查找、详情浏览等功能。目前Data Catalog作为火山引擎大数据研发治理套件DataLeap产品的核心功能之一,经过多年打磨,服

数仓维度建模整理--关于分层建模(结合阿里onedata规范)-爱代码爱编程

结合阿里OneData大数据建设方法论,整理了实习做相关需求过程中对数仓建模的流程体会。 数仓维度建模思路 明确业务需求和数据源:首先需要明确业务需求,包括业务目标、关键业务指标、数据来源等。尤其要了解数据源的类型和来源

火山引擎 dataleap 一招教你避坑“数据开发”中的资源隔离问题-爱代码爱编程

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 在离线数仓开发过程中,研发人员需要根据业务变化,在开发/生产环境中不断切换、解析、调试。以往,企业一般通过人工方式核验,但由于数据量大且类型不同,导致研发人员资源、精力投入大。 如何使同构代码在不同环境正确运行,避免因调试过程中的误操作,对生产环境直接造成数