在公司的数仓构建中,通常我们会遇到许多json格式的数据,如何使用Hive解析json格式的数据成为我们主要面临的问题之一;
1、函数查阅
在Hive的带函数中,我们可以查到,这么一个函数:get_json_object(string json,string path)
例如:
select get_json_object('{"common":{"ar":"110000","ba":"Xiaomi","ch":"wandoujia","is_new":"1"}}','$.common');
结果如下:
‘$’代表json整体,通过 $.字段来获取需要的值。
2、Hive官网查阅
在Hive0.12版本之后:我可以在建表的时候设置,让hive自动解析json格式的数据,但需要添加jar包:hive-hcatalog-core.jar
官网解释如下:
The JsonSerDe for JSON files is available in Hive 0.12 and later.
In some distributions, a reference to hive-hcatalog-core.jar is required.
ADD JAR /usr/lib/hive-hcatalog/lib/hive-hcatalog-core.jar;
CREATE TABLE my_table(a string, b bigint, ...)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
Hive3.0版本之后,可以不用添加jar直接对建表语句进行设置,即可解析json数据
Starting in Hive 3.0.0, JsonSerDe is added to Hive Serde as “org.apache.hadoop.hive.serde2.JsonSerDe” (HIVE-19211).
CREATE TABLE my_table(a string, b bigint, ...)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.JsonSerDe'
STORED AS TEXTFILE;
Hive4.0版本之后,hive对json的解析将会更加便捷,但暂未发布
Or STORED AS JSONFILE is supported starting in Hive 4.0.0 (HIVE-19899), so you can create table as follows:
CREATE TABLE my_table(a string, b bigint, ...) STORED AS JSONFILE;
3、推荐
小编建议多浏览Hive官网,目前Hive已经出到3.x版本了,在使用Hive解析json格式的数据,当然选择Hive3.x的解决方法啦,顺应新旧技术的更替;