546、Zookeeper详细入门教程系列 -【Zookeeper内部原理】 2022.11.06

一、Zookeeper内部原理

1.1 节点类型（Znode）

持久：客户端和服务器断开后，创建的节点不删除。

1）普通持久节点

2）带序号的持久节点（序号zookeeper自己维护）

短暂：客户端和服务器断开连接后，创建的节点自己删除。

1）普通短暂节点

2）带序号的短暂节点（序号zookeeper自己维护）

1.2 Stat结构体

描述每个ZNode的状态信息

[zk: localhost:2181(CONNECTED) 12] stat /zookeeper
cZxid = 0x0
ctime = Thu Jan 01 08:00:00 CST 1970
mZxid = 0x0
mtime = Thu Jan 01 08:00:00 CST 1970
pZxid = 0x0
cversion = -2
dataVersion = 0
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 0
numChildren = 2

（1）czxid-创建节点的事务zxid

每次修改ZooKeeper状态都会收到一个zxid形式的时间戳，也就是ZooKeeper事务ID。

事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid，如果zxid1小于zxid2，那么zxid1在zxid2之前发生。

（2）ctime – znode被创建的毫秒数(从1970年开始)

（3）mzxid – znode最后更新的事务zxid

（4）mtime – znode最后修改的毫秒数(从1970年开始)

（5）pZxid-znode最后更新的子节点zxid

（6）cversion – znode子节点变化号，znode子节点修改次数

（7）dataversion – znode数据变化号

（8）aclVersion – znode访问控制列表的变化号

（9）ephemeralOwner- 如果是临时节点，这个是znode拥有者的session id。如果不是临时节点则是0。

（10）dataLength- znode的数据长度

（11）numChildren – znode子节点数量

1.3 监听器原理

1、原理

首先要有一个main（）线程

在main线程中创建zookeeper客户端，这时就会创建两个线程，一个负责网络连接通信（connect），一个负责监听（listener）

通过connect线程将注册的监听事件发送给zookeeper

在zookeeper的注册监听列表中将注册的监听事件添加到列表中

zookeeper监听到有数据或路径变化，就会把这个消息发送

listener线程内部调用了process（）方法

2、常见的监听

监听节点数据的变化：get path

监听子节点增减的变化：ls path

在这里插入图片描述

1.4 选举机制

1.4.1 ZAB协议：

ZAB 协议是为分布式协调服务 zookeeper 专门设计的一种支持崩溃恢复的原子广播协议。ZAB 协议包括两种基本的模式：崩溃恢复和消息广播。

当集群刚启动时，会先选举 leader。然后集群中的 follower 服务器开始与新的 leader 服务器进行数据同步，当集群中超过一般机器与该 leader 服务器完成数据同步之后，推出恢复模式到广播模式。此时开始接收客户端的消息处理。

基于消息传递且保证数据一致性的一种算法（协议）

协议目标：

1、没有leader的情况下选举leader

2、有leader的情况，去尽可能保证数据一致。

1.4.2 zj集群

（1）半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。

（2）Zookeeper 虽然在配置文件中并没有指定Master和Slave。但是，Zookeeper工作时，是有一个节点为Leader，其他则为Follower，Leader是通过内部的选举机制临时产生的。

1.4.3 机制概念

1、Serverid：服务器id

比如有三台服务器，编号分别是1，2，3

2、Zxid：数据ID

服务器中存放的最大数据ID ：值越大说明数据越新，在选举算法中数据越新权重越大。

3、Epoch：逻辑时钟

或者叫投票的次数，同一轮投票过程中的逻辑时钟值是相同的。每投完一次票这个数据就会增加，然后与接收到返回的投票信息的数值相比，根据不同的值做出不同的判断。

4、Server状态：选举状态

LOOKing：竞选
FOLLOWING：随从状态
OBSERVING：观察状态，
LESDING：领导者状态。

1.4.4选举过程

假设有五台服务器组成的Zookeeper 集群，它们的id从1-5 ，同时它们都是最新启动的，也就是没有历史数据，在存放数据量这点上，都是一样的。

在这里插入图片描述

投票原则：

自私原则（服务器刚注册的时候都会投自己一票）

墙头草随风倒原则：（发现有其他服务器比自己厉害，就投其他服务器）比较的东西可以为zxid 时间戳，哪个服务器有最新的数据就投它。

过程：

（1）服务器1启动，发起一次选举。服务器1投自己一票。此时服务器1票数一票，不够半数以上（3票），选举无法完成，服务器1状态保持为LOOKING；

（2）服务器2启动，再发起一次选举。服务器1和2分别投自己一票并交换选票信息：此时服务器1发现服务器2的ID比自己目前投票推举的（服务器1）大，更改选票为推举服务器2。此时服务器1票数0票，服务器2票数2票，没有半数以上结果，选举无法完成，服务器1，2状态保持LOOKING

（3）服务器3启动，发起一次选举。此时服务器1和2都会更改选票为服务器3。此次投票结果：服务器1为0票，服务器2为0票，服务器3为3票。此时服务器3的票数已经超过半数，服务器3当选Leader。服务器1，2更改状态为FOLLOWING，服务器3更改状态为LEADING；

（4）服务器4启动，发起一次选举。此时服务器1，2，3已经不是LOOKING状态，不会更改选票信息。交换选票信息结果：服务器3为3票，服务器4为1票。此时服务器4服从多数，更改选票信息为服务器3，并更改状态为FOLLOWING；

（5）服务器5启动，同4一样当小弟。

1.4.5 leader故障后选举

当集群工作中，leader故障后，只要剩下的机器数大于半数，集群能够正常工作，但是需要重新选举leader。选举的过程还是进行投票，因为集群是在工作中，因此每台机器的id有可能不同。那么每次投出的票（myid，zxid），先比较zxid，再比较myid，因此集群中剩余的机器中zxid最大的当选leader，如果zxid都一样，理论情况下myid最大的胜出。

zxid 时间戳，最新的数据。某种意义上，可以表示当前机器中存储的数据完整度。

1.5 写数据流程

1）客户端连接zk集群的任意一台机器，发送写请求

2）如果客户端连接的zk集群部署leader，则当前这台机器会将客户端的写请求转发给leadet

3）当leader接收到写请求后，会将当次的写操作构造成一个事务，对应一个zxid

4）每个follower接收到写操作后，先将写操作存入队列中，并向leader反馈

5）当leader接收到集群中半数以上的follower的反馈，则代表本次写操作可以正常进行，

leader会再次广播给各个follower，让follower将写操作进行commit（真正写数据）

二、最后

有关zookeeper的内容还远不止这些，这篇更多的是介绍一些zookeeper的概念，少许客户端的命令操作就每放上来了，今天我们知道zookeeper的存储节点和监听机制，就可以实现很多功能。目前阶段了解这些就够了，有机会再深入的话，会写后续的文章来介绍。

三、参考链接

[01] 一文入门Zookeeper

原文链接：https://blog.csdn.net/youyouwuxin1234/article/details/127714679

目录