生态圈：大数据各组件基础搭建、深度学习。 – 小飞侠

生态圈：大数据各组件基础搭建、深度学习。

Post author:xfxia
Post published:2023年10月10日
Post category:其他

配置大数据组件的总链接：

简单易懂，手把手带小白用VMware虚拟机安装Linux centos7系统

Hadoop集群搭建及配置〇 —— Hadoop组件获取 & 传输文件

Hadoop集群搭建及配置① —— 克隆节点

Hadoop集群搭建及配置② —— 网络IP配置，连接网络

Hadoop集群搭建及配置③ —— 基础环境搭建

Hadoop集群搭建及配置④ —— JDK简介及其安装

Hadoop集群搭建及配置⑤ —— Zookeeper 讲解及安装

Hadoop集群搭建及配置⑥ —— Hadoop组件安装及配置

Hadoop：HDFS的常用命令

Hadoop集群搭建及配置⑦—— Spark&Scala安装配置

Spark HA部署：解决spark单点故障问题

Hadoop集群搭建及配置⑧——Hbase的安装配置

深度学习大数据组件

MySQL：Centos7 网盘安装

Hadoop集群搭建及配置⑨——Hive 可靠的安装配置

Spark.SQL：IDEA 操作 MySQL、Hive

MapReduce 计算框架的执行流程详解

关联 Hive 与 Hbase的数据一致

① Hive 数据管理、内外表、安装模式操作

② Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单

③ Hive：多种方式建表，需求操作

④ Hive：分区原因、创建分区、静态分区、动态分区

⑤ Hive：分桶的简介、原理、应用、创建

⑥ Hive：优化 Reduce，查询过程；判断数据倾斜，MAPJOIN

⑦ Hive：数据进行替换切分后的结果保存为新表，新表进行分词

Scala：实现 wordCount 的算子操作

Spark：Centos7 安装 Anaconda

Spark：spark-shell 处理需求

Spark：SQL操作 cache、filter、selectExpr、agg、join、udf

Spark：运行架构与原理、作业运行模型、RDD、调优理论介绍

数据的日志采集与用途

Kafka：基础理论知识

Kafka：分布式部署，实践、API连接操作

Spark：Streaming 实时计算框架理论

Spark：Streaming 实践 Dstream 转换算子、窗口、输出文件

Spark SQL RDD基本操作、RDD—DataFrame、API MySQL

Spark SQL RDD、DataFrame、Dataset、反射推断机制 Schema 操作！！

希望有助于大家对大数据有更多的了解！请多多支持哦。

版权声明：本文为weixin_44775255原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_44775255/article/details/121773459