Hive在Hadoop大数据生态体系当中的地位,不用特别强调,相信大家也是知道一二的。Hadoop核心的分布式存储与数据管理,需要HDFS、Hbase、Hive各个组件的密切配合。今天的大数据开发分享,我们就来讲讲Hive的基础架构。
Hive的基础架构当中,涉及到相关组件如下:
数据存储
Hive中的数据可以存储在任意与Hadoop兼容的文件系统,其最常见的存储文件格式主要有ORC和Parquet。除了HDFS之外,也支持一些商用的云对象存储,比如AWS S3等。另外,Hive可以读入并写入数据到其他的独立处理系统,比如Druid、HBase等。
Data catalog
Hive使用Hive Metastore(HMS)存储元数据信息,使用关系型数据库来持久化存储这些信息,其依赖于DataNucleus(提供了标准的接口(JDO,JPA)来访问各种类型的数据库资源),用于简化操作各种关系型数据库。为了请求低延迟,HMS会直接通过DataNucleus直接查询关系型数据库。HMS的API支持多种编程语言。
执行引擎
最初版本的Hive支持MapReduce作为执行引擎,后来又支持Tez和Spark作为执行引擎,这些执行引擎都可以运行在YARN上。
查询服务
Hiveserver2(HS2)允许用户执行SQL查询,Hiveserver2允许多个客户端提交请求到Hive并返回执行结果,HS2支持本地和远程JDBC和ODBC连接,另外Hive的发布版中包括一个JDBC的客户端,称之为Beeline。
Hive客户端
Hive支持多种客户端,比如Python,Java,C++,Ruby等,可以使用JDBC、ODBC和Thrift drivers连接Hive,Hive的客户端主要归为3类:
(1)Thrift Clients
Hive的Server是基于Apache Thrift的,所以支持thrift客户端的查询请求。
(2)JDBC Client
允许使用Java通过JDBC driver连接Hive,JDBC driver使用Thrift与Hive进行通信的。
(3)ODBC Client
Hive的ODBC driver允许使用基于ODBC协议的应用来连接Hive,与JDBC driver类似,ODBC driver也是通过Thrift与Hive server进行通信的。
Hive Driver
Hive Driver接收来自客户端提交的HQL语句,创建session handles,并将查询发送到Compiler(编译器)。
Hive Compiler
Hive的Compiler解析查询语句,编译器会借助Hive的metastore存储的元数据信息,对不同的查询块和查询表达式执行语义分析和类型检查,然后生成执行计划。
Optimizer(优化器)
比如列裁剪、谓词下推等优化,提升查询效率。
关于大数据开发,Hive架构基础解析,以上就为大家做了相应的介绍了。Hive的运行,与集群环境息息相关,基于分布式文件存储进行查询,需要大家去理解和掌握。