最牛入门资源置顶:
TutorialsPoint 一看即懂入门教程
学习过程中,遇到很多困惑,在不同的资源渠道看到一些好的文章,汇总至此。后期针对自己的业务场景需求,再做梳理总结。
总结记录
1. Kafka 一句话简介:基于发布订阅模式 pub-sub 的消息中间件
Apache Kafka is publish-subscribe based fault tolerant messaging system.
2. Flume 一句话简介:从多种数据源采集数据到 Hadoop
解决痛点在于采集传输来自多样化数据源的大量数据到一个中心化的数据存储中。针对Hadoop 提供了最好的优化和支持。
Flume is a standard, simple, robust, flexible, and extensible tool for data ingestion from various data producers (webservers) into Hadoop.
下面这个表格列举了 Flume 里面“多样化”这三个字到底多么强大!
Sources | Channels | Sinks |
---|---|---|
Avro Source Thrift Source Exec Source JMS Source Spooling Directory Source Twitter 1% firehose Source Kafka Source NetCat Source Sequence Generator Source Syslog Sources Syslog TCP Source Multiport Syslog TCP Source Syslog UDP Source HTTP Source Stress Source Legacy Sources Thrift Legacy Source Custom Source Scribe Source |
Memory Channel JDBC Channel Kafka Channel File Channel Spillable Memory Channel Pseudo Transaction Channel |
HDFS Sink Hive Sink Logger Sink Avro Sink Thrift Sink IRC Sink File Roll Sink Null Sink HBaseSink AsyncHBaseSink MorphlineSolrSink ElasticSearchSink Kite Dataset Sink Kafka Sink |
精华帖、资源汇总简介
Kafka
-
Kafka 简明教程
从消息中间件的角度来引入 Kafka,浅显易懂,适合做入门理解。里面也给出了若要进一步深入了解的一个方向:如 Kafka 的消息结构?ZooKeeper 和 Kafka 的关系?等等。 -
非常详细的技术白皮书,适合进阶。
-
Kafka Workflow 工作流
详细描述了订阅模式 pub-sub 和队列模式 queuing 下完整的消息工作流程,其中能够清楚的看到zookeeper 在过程中发挥的作用。
Zookeeper 主要用于协调 broker 和 consumer,即地下交通站:
1)存储元数据信息:如 topics, brokers, 以及 consumer offsets维护。
2)当前 broker leader 宕机之后重新选主。
-
Kafka 指南
某开发人员自己的网页,提供了详略得当、实用的企业应用搭建指南。 -
Kafka 解决了什么问题?
没有 Kafka 的世界简直就是地狱模式,Kafka 是大夏天里的空调、西瓜和 WIFI。
Flume
-
Flume架构以及应用介绍
开篇一张图,此文高亮!云山雾海里的一抹清风,眼前一下就亮了!
-
Flume概念与原理、与Kafka优势对比
两相对比,豁然开朗。