生态圈:大数据各组件基础搭建、深度学习。

  • Post author:
  • Post category:其他


配置大数据组件的总链接:


简单易懂,手把手带小白用VMware虚拟机安装Linux centos7系统


Hadoop集群搭建及配置〇 —— Hadoop组件获取 & 传输文件


Hadoop集群搭建及配置① —— 克隆节点


Hadoop集群搭建及配置② —— 网络IP配置,连接网络


Hadoop集群搭建及配置③ —— 基础环境搭建


Hadoop集群搭建及配置④ —— JDK简介及其安装


Hadoop集群搭建及配置⑤ —— Zookeeper 讲解及安装


Hadoop集群搭建及配置⑥ —— Hadoop组件安装及配置


Hadoop:HDFS的常用命令


Hadoop集群搭建及配置⑦—— Spark&Scala安装配置


Spark HA部署:解决spark单点故障问题


Hadoop集群搭建及配置⑧——Hbase的安装配置



深度学习大数据组件


MySQL:Centos7 网盘安装


Hadoop集群搭建及配置⑨——Hive 可靠的安装配置


Spark.SQL:IDEA 操作 MySQL、Hive


MapReduce 计算框架的执行流程详解


关联 Hive 与 Hbase的数据一致


① Hive 数据管理、内外表、安装模式操作


② Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单


③ Hive:多种方式建表,需求操作


④ Hive:分区原因、创建分区、静态分区 、动态分区


⑤ Hive:分桶的简介、原理、应用、创建


⑥ Hive:优化 Reduce,查询过程;判断数据倾斜,MAPJOIN


⑦ Hive:数据进行替换切分后的结果保存为新表,新表进行分词




Scala:实现 wordCount 的算子操作


Spark:Centos7 安装 Anaconda


Spark:spark-shell 处理需求


Spark:SQL操作 cache、filter、selectExpr、agg、join、udf


Spark:运行架构与原理、作业运行模型、RDD、调优 理论介绍


数据的日志采集与用途


Kafka:基础理论知识


Kafka:分布式部署,实践、API连接操作


Spark:Streaming 实时计算框架理论


Spark:Streaming 实践 Dstream 转换算子、窗口、输出文件



Spark SQL RDD基本操作、RDD—DataFrame、API MySQL


Spark SQL RDD、DataFrame、Dataset、反射推断机制 Schema 操作!!


希望有助于大家对大数据有更多的了解!请多多支持哦。



版权声明:本文为weixin_44775255原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。