hadoop发行版本介绍 cdh和apache hadoop优缺点统计 cdh使用踩坑

Post author:xfxia
Post published:2023年9月11日
Post category:其他

发行版本的介绍

Cloudera

最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。

Hortonworks

不拥有任何私有（非开源）修改地使用了100%开源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。并且，它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。

MapR

有免费和商业两个版本，免费版本在功能上有所缩减。
cloudera和hortonworks均是在不断的提交代码完善Apache hadoop，而2009年成立的MapR公司在Hadoop领域显得有点特立独行，它提供了一款独特的发行版。Hadoop在性能(在当前Hadoop的设计中，所有的meta data操作都要通过集中式的Namenode来进行，Namenode有可能是性能的瓶颈;M/R 应用程序需要通过DataNode来访问HDFS, 这就涉及到格外的进程切换和网络传输开销)，可靠性与扩展性(namenode，jobtracker单点问题)，企业级应用上的弱点(比如完全可读写的文件系统，snapshot，mirror等等)各大厂商均知，MapR则认为，Hadoop的这些缺陷来自于其架构设计本身，小修小补不能解决问题。他们选择了一条艰难得多的路：用新架构重写HDFS，同时在API级别，和目前的Hadoop 发行版保持兼容。这家2009年成立的创业公司，在蛰伏了两年之后，终于一鸣惊人，大放异彩。他们成功的“构建一个HDFS的私有替代品，这个替代品比当前的开源版本快三倍，自带快照功能，而且支持无Namenode单点故障(SPOF)，并且在API上和兼容，所以可以考虑将其作为替代方案。” mapR版本不再需要单独的namenode机器，元数据分散在集群中，也类似数据默认存储三份。也不再需要用NAS来协助namenode做元数据备份，提供了机器使用率。还有个重要的特点的可以使用nfs直接访问hdfs，提供了与旧有应用的兼容性。镜像功能也很适合做数据备份，而且支持跨数据中心的镜像，快照功能对于数据的恢复作用明显。
该公司也领导着Apache Drill项目，本项目是Google的Dremel的开源项目的重新实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。

DKhadoop

有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用

原文链接：https://blog.csdn.net/weixin_43941899/article/details/105115955

发行版本的介绍

Cloudera

Hortonworks

MapR

DKhadoop

你可能也喜欢