公号:码农充电站pro
主页:
https://codeshellme.github.io
Logstash
是一款免费开放的服务器端数据处理管道,能够从
多个来源
采集并转换数据,然后将数据发送到后端存储中。
1,Logstash 处理流程
Logstash 的
处理流程
分为三个阶段,这三个阶段合称为一个
Pipeline
:
同时在
输入/输出
阶段可以对数据进行
编解码
处理。
用户通过
配置文件
告诉 Logstash 如何处理数据。
2,Logstash 插件
Logstash
的每个处理阶段都由一个或多个插件来完成,
Logstash
目前支持
200 多个插件
。
Logstash 的一些常用插件:
-
Inputs 阶段
:- stdin、file
- beats、log4j
- elasticsearch、jdbc、kafka、rabbitmq、redis
- jmx、http、websocket、tcp、udp
- 等
-
Filters 阶段
:- mutate
- metrics
- ruby
- csv
-
Outputs 阶段
:- email、pageduty
- elasticsearch、kafka、mongodb
- http、tcp、websocket
- 等
-
编码处理
:- line、multiline
- json、dots
- 等
3,Logstash Queue
Logstash 在实际处理数据时,会先将输入数据放入队列中,作为缓冲。
Logstash Queue 分为两种:
- Memory Queue(默认方式):放在内存中;如果意外宕机数据会丢失。
-
Persistent Queue
:会进行持久化;意外宕机数据不会丢失。-
可通过
queue.max_bytes
参数设置队列能存放的数据大小,默认为 1G。
-
可通过
4,Logstash 使用示例
Logstash 通过
-e
参数在命令行指定一个 pipeline,通过
-f
参数指定一个配置文件。
4.1,-e 参数
通过
-e
在命令行指定一个
pipeline
:
logstash -e "input{stdin{codec=>line}}output{stdout{codec=>rubydebug}}"
logstash -e "input{stdin{codec=>json}}output{stdout{codec=>rubydebug}}"
logstash -e "input{stdin{codec=>line}}output{stdout{codec=>dots}}"
4.2,-f 参数
数据示例,一个
movies.csv
文件:
movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama|Romance
5,Father of the Bride Part II (1995),Comedy
6,Heat (1995),Action|Crime|Thriller
7,Sabrina (1995),Comedy|Romance
8,Tom and Huck (1995),Adventure|Children
9,Sudden Death (1995),Action
10,GoldenEye (1995),Action|Adventure|Thriller
11,"American President, The (1995)",Comedy|Drama|Romance
12,Dracula: Dead and Loving It (1995),Comedy|Horror
13,Balto (1995),Adventure|Animation|Children
14,Nixon (1995),Drama
15,Cutthroat Island (1995),Action|Adventure|Romance
16,Casino (1995),Crime|Drama
17,Sense and Sensibility (1995),Drama|Romance
18,Four Rooms (1995),Comedy
19,Ace Ventura: When Nature Calls (1995),Comedy
20,Money Train (1995),Action|Comedy|Crime|Drama|Thriller
配置文件
logstash.conf
:
input { # 定义 inputs
file { # 一个 file input
path => "/path/movies.csv"
start_position => "beginning"
sincedb_path => "/dev/null"
}
}
filter { # 定义 filters
csv { # 一个 csv filter
separator => ","
columns => ["id","content","genre"]
}
mutate { # 一个 mutate filter
split => { "genre" => "|" }
remove_field => ["path", "host","@timestamp","message"]
}
mutate { # 一个 mutate filter
split => ["content", "("]
add_field => { "title" => "%{[content][0]}"}
add_field => { "year" => "%{[content][1]}"}
}
mutate { # 一个 mutate filter
convert => {"year" => "integer"}
strip => ["title"]
remove_field => ["path", "host","@timestamp","message","content"]
}
}
output { # 定义 outputs
elasticsearch { # 一个 elasticsearch output
hosts => "http://localhost:9200"
index => "movies"
document_id => "%{id}"
}
stdout {} # 一个 stdout output
}
5,Beats 介绍
Beats
是一个轻量型数据采集器,能够方便的与 Logstash 和 ElasticSearch 配合使用。
Beats 是基于 Golang 开发的。
Beats
官方提供了一些具体的
beats
供我们使用:
-
Filebeat
:采集日志数据。 -
Metricbeat
:采集指标数据。 -
Packetbeat
:采集网络流量。 -
Winlogbeat
-
Auditbeat
-
heartbeat
-
Functionbeat
(本节完。)
欢迎关注作者公众号,获取更多技术干货。