Flume日志采集系统安装与使用
三、实验实现过程
重要知识点:
1.Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力。
实验内容与步骤:
一、Flume的安装与配置
1.Flume的下载安装
在Ubuntu下打开官网:
http://flume.apache.org/download.html
进行下载
下载完成后,会自动下载到Downloads目录下:
建议下载稳定版本apache-flume-1.9.0-bin.tar.gz
稳定版下载地址:
http://archive.apache.org/dist/flume/stable/
注:如果windows系统下载该安装文件的话,需要通过FTP软件将安装文件上传到Linux系统的Downloads目录下。
-
Flume安装
1)打开终端,解压安装包apache-flume-1.9.0-bin.tar.gz 至路径 /opt,命令如下:
sudo tar -zxvf Downloads/apache-flume-1.9.0-bin.tar.gz -C /opt
2)查看是否解压成功
3)将解压的文件夹重命名为flume并添加flume的权限
sudo mv apache-flume-1.9.0-bin/ ./flume
#更名为flume
sudo chown -R hadoop flume
#更改flume文件夹的属主。hadoop是用户名
4)配置环境变量
将flume目录添加到path中,这样,启动flume就无需到/opt/flume目录下,大大的方便了flume的使用。编辑/etc/profile文件
sudo vim /etc/profile
请在/etc/profile文件中添加如下4行内容,如果以前添加过JDK请勿重复添加:
export JAVA_HOME=/opt/java/jdk1.8.0_181
export FLUME_HOME=/opt/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=.:$FLUME_HOME/bin
编辑完成后,再执行source命令使上述配置在当前终端立即生效,命令如下:
source /etc/profile
5)启动flume,查看flume版本,确定flume是否安装成功,命令如下:
flume-ng version
如果出现版本号,表示Flume启动成功。
6)如果启动失败,提示“找不到或无法加载主类org.apache.flume.tools.GetJavaProperty”,请检查系统之前是否安装HBase,如果安装,请修改hbase-env.sh文件来解决这个错误,使用vim编辑器打开hbase-env.sh,命令如下:
sudo vim /opt/hbase/hbase-1.2.6.1/conf/hbase-env.sh
找到export HBASE_CLASSPATH=/opt/hbase/hbase-1.2.6.1/conf这一行,在前面加上#,把它注释掉。如下图所示:
保存后退出,重新启动即可。
二、Flume信息采集实例
-
使用Flume接收来自AvroSource的信息
AvroSource可以发送一个给定的文件到Flume,Flume接收以后可以进行处理后显示到屏幕上。
1)在/opt/flume/conf目录下创建Agent配置文件avro.conf,命令如下。
sudo vim /opt/flume/conf/avro.conf
2)在avro.conf文件中写入如下内容
a1.sources=r1
a1.sinks=k1
a1.channels=c1
a1.sources.r1.type=avro
a1.sources.r1.channels=c1
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=4141
a1.sinks.k1.type=logger
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1
3)启动Flume Agent a1,执行如下命令启动日志控制台
flume-ng agent -c . -f /opt/flume/conf/avro.conf -n a1 -Dflume.root.logger=INFO,console
执行该命令以后,出现如下图所示信息。
4)打开另外一个Linux终端,在/opt/flume目录下创建一个文件log.01,并在文件中加入一行内容“Hello Flume”,命令和执行截图如下:
sudo sh -c 'echo "Hello Flume"'> /opt/flume/log.01
5)再打开另外一个Linux终端,执行如下命令:
flume-ng avro-client --conf conf -H localhost -p 4141 -F /opt/flume/log.01
在该命令中,4141是前面文件avro.conf里自定义的端口号。
执行该命令后,AvroSource就向Flume发送了一个文件log.01,切换到第3)步的日志控制台端口,就可以看到Flume已经接收到了信息,如下图所示,通过最后一行可以看出Flume已经成功接收到了“Hello Flume”。
-
使用Flume接收来自NetSource的信息
NetcatSource可以把用户实时输入的信息持续不断地发给Flume,Flume处理后可以显示到输出屏幕上。
1)执行如下命令,在/opt/flume/conf目录下新建test.conf代理配置文件,并写入如下内容:
sudo vim /opt/flume/conf/test.conf
写入如下内容:
a1.sources=r1
a1.sinks=k1
a1.channels=c1
a1.sources.r1.type=netcat
a1.sources.r1.bind=localhost
a1.sources.r1.port=44444 #后面会用到该端口号,请牢记。
a1.sinks.k1.type=logger
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1
2)执行如下命令启动Flume Agent a1日志控制台
flume-ng agent --conf /opt/flume/conf --conf-file /opt/flume/conf/test.conf --name a1 -Dflume.root.logger=INFO,console
执行该命名后,会出现如下图所示屏幕信息。
3)再打开一个终端,输入如下命令:
telnet localhost 44444
该命令中的44444是前面自定义的test.conf文件中的端口号。执行命名后,出现如下图所示信息:
这个终端窗口称为“NetcatSource”终端窗口,在这个终端窗口中可以输入任意字符,该字符会被实时发送到Flume Agent a1,另外一个终端窗口“日志控制台”就会同步显示输入的内容,例如,在“NetcatSource”终端窗口输入“Hello Flume”,如下图所示。
4)日志控制台终端窗口就会同步显示“Hello Flume”,如下图所示。
从图中可以看出,最后一行已经成功显示了“Hello Flume”,注意,Flume只能传递英文和字符,不能输入中文。
到了这一步,本次实验就完成了,你今天学会了吗?