配置大数据组件的总链接:
简单易懂,手把手带小白用VMware虚拟机安装Linux centos7系统
Hadoop集群搭建及配置〇 —— Hadoop组件获取 & 传输文件
Hadoop集群搭建及配置⑤ —— Zookeeper 讲解及安装
Hadoop集群搭建及配置⑥ —— Hadoop组件安装及配置
Hadoop集群搭建及配置⑦—— Spark&Scala安装配置
深度学习大数据组件
② Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单
⑥ Hive:优化 Reduce,查询过程;判断数据倾斜,MAPJOIN
⑦ Hive:数据进行替换切分后的结果保存为新表,新表进行分词
Spark:SQL操作 cache、filter、selectExpr、agg、join、udf
Spark:运行架构与原理、作业运行模型、RDD、调优 理论介绍
Spark:Streaming 实践 Dstream 转换算子、窗口、输出文件
Spark SQL RDD基本操作、RDD—DataFrame、API MySQL
Spark SQL RDD、DataFrame、Dataset、反射推断机制 Schema 操作!!
希望有助于大家对大数据有更多的了解!请多多支持哦。