spark crossjoin方法优化-爱代码爱编程
场景描述 遇到的问题是 DF1.crossJoin(DF2) 执行的时间特别慢,两个 DF 的数据量大概是在千万级别,刚开始以为数据量太大导致的执行特别耗时,但后来发现在另一批同等数量级的数据上 crossJoin 是执行
代码编织梦想
场景描述 遇到的问题是 DF1.crossJoin(DF2) 执行的时间特别慢,两个 DF 的数据量大概是在千万级别,刚开始以为数据量太大导致的执行特别耗时,但后来发现在另一批同等数量级的数据上 crossJoin 是执行