crossjoin | 爱代码爱编程

代码编织梦想

spark crossjoin方法优化-爱代码爱编程

2023-01-05 分类: 优化 spark 大数据 crossjoin

场景描述遇到的问题是 DF1.crossJoin(DF2) 执行的时间特别慢，两个 DF 的数据量大概是在千万级别，刚开始以为数据量太大导致的执行特别耗时，但后来发现在另一批同等数量级的数据上 crossJoin 是执行