大数据学习(八)hive中JOIN执行过程

  • Post author:
  • Post category:其他




案例:


select

<row_list>

from

<left_table>



inner/left/right join

<right_table>

on

<join condition>

where

<where_condition>


JOIN执行过程:



FROM:


对左右两张表执行笛卡尔积,产生第一张表vt1。行数为n*m(n为左表的行数,m为右表的行数



ON:


根据ON的条件逐行筛选vt1,将结果插入vt2中



JOIN:


添加外部行,如果指定了LEFT JOIN(LEFT OUTER JOIN),则先遍历一遍左表的每一行,其中不在vt2的行会被插入到vt2,该行的剩余字段将被填充为NULL,形成vt3;如果指定了RIGHT JOIN也是同理。但如果指定的是INNER JOIN,则不会添加外部行,上述插入过程被忽略,vt2=vt3(所以INNER JOIN的过滤条件放在ON或WHERE里 执行结果是没有区别的,下文会细说)



WHERE:


对vt3进行条件过滤,满足条件的行被输出到vt4



SELECT:


取出vt4的指定字段到vt5

原文链接:https://blog.csdn.net/qq_37674086/article/details/109968447



版权声明:本文为weixin_44702289原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。