一文清晰阐述百万并发需要如何分析和设计

现在网上有很多说如何支持百万并发，打开一看都没讲啥，等于0，这怎么能忍？不让我学习是不可能的。那么支持百万并发(同时在线)要如何分析和设计它，今天祥子哥哥就带大家来剖析一下要如何设计？

首先要阐述几个概念和问题:

linux系统打开文件描述符是有限的。文件描述符简写为FD(File Descrption)，linux的有个核心思想是一切内容都用FD来描述，所以对应一个网络连接，实际上linux服务器打开的就是一个fd。
linux里面FD是分三层的，系统层面，用户层面，进程层面。这三层FD系统都有默认fd数量，我们可以修改配置信息。既然我们说百万并发，那么我们可以这样设置：

系统层	用户层	进程层
1,000,000	500,000	100,000

一个系统能设置打开多少个fd跟内存大小+硬盘大小有关系（这里阐述下为啥要跟硬盘大小有关系，现在操作系统，windows、linux都会有一些swap区，何为swap区,就是操作系统划了一部分硬盘区的大小作为内存使用，从这里看出来SSD硬盘比机械硬盘要好，因为SSD读写快过机械硬盘）
socket四元组(源IP,源PORT,目标IP,目标PORT)，四元组唯一标识一个connection。所以网上看到的一台服务只能打开最多65535个连接是错误的。作为客户端，可以绑定多个IP，一个IP最多可连接65535个（这个也取决于端口范围port_range，默认0-1024是不给开放给用户使用的）这里我们假设除了0端口，其他的都提供给我们使用，这里再阐述下为什么是65535，是因为端口号在操作系统层面是用16位来标识的，2的16次方-1（0这个端口）=65535。如果一个客户端绑定了2个IP，那么它连接一个固定服务器IP，可以打开IP个数*65535个连接。服务器能打开多少个连接取决于给进程配置最大打开多少个fd决定的。

现在我们开始来讲解系统架构：

先上图：

一般公司前置是用LVS+Nginx来做前置架构。之所以采用LVS+nginx设计有几种考虑：
LVS位于7层网络的第四层（传输层），nginx位于ISO7层网络的第7层，四层负载性能较好（现在nginx的新版本已经既可以做4层，也可以做7层负载，企业用的比较多的还是LVS做4层负载）
nginx做集群负载的话，前面使用LVS来做负载均分的话是最合适的，为什么nginx要做集群，是因为单台nginx支撑不了百万并发（同时在线）。分析nginx能支撑多少并发，我们下文来聊。
LVS是四层负载，它的高可用使用Keepalived中间件来做监控，这里我们采用一主一备LVS，主挂的话，VIP会自动切换到备机上，什么是VIP（virtual IP虚拟IP），如何切换，我们下文也会阐述。这里只要知道用户访问系统的时候是一个VIP的地址。LVS主备都会绑定这个VIP地址来对外提供服务。
这是最重要的一点，用户访问LVS的IP地址，LVS接收到用户的请求，根据负载均衡算法，比如，轮询，随机，把请求转发到nginx节点来处理，nginx在这里做请求处理，并且nginx做的是反向代理，用户的请求到了nginx的时候不需要再回到lvs服务器，直接响应给客户的，这里如何做到的，也是VIP的功能，下一篇文章会一并阐述这里的知识点：）
挖坑点：切记，LVS主备+nginx需要在一个局域网部署，为什么要强调局域网，这里还是跟VIP有关。

开始数据分析：

假如真实的业务逻辑处理，1个tomcat服务做核心逻辑处理TPS为1000（实际TPS需要做压测才能得到），那么1,000,000同时在线并发就需要超过1000台tomcat服务器（或者是node pod【K8s概念，因为现在云平台部署更加方便】，超过1000台是因为还要考虑到服务冗余），这里很多人会觉得1000台服务器很多，但是我们这里假设的场景我们这里是要支持1百万并发同时存在，也就是说需要支持的tps为1Million/s。

再来分析下nginx需要多少台，ngnix有2个配置属性配置很关键：worker的数量和work_connection，因为nginx是master-worker架构，master主要负责接收请求，转发请求到worker进程，实际上worker进程才是处理请求的实际进程。nginx官方说nginx能支撑6万多并发性能最好，那么这里我们设置nginx进程最大能打开60,000个fd，假如是4核的CPU（内存我们假设足够大32G，64G等等），我们设置worker数量为4，那么worker_connection数量为15,000。那么nginx对外能提供多少并发数呢？你以为是60,000？那么你答错了，因为nginx作为反向代理，一个用户的请求实际上占了2个fd，一个fd是用户请求，一个fd是连接后台服务的。所以一个nginx在我们这样配置参数下，可以支持30,000并发。那么百万并发前置需要多少nginx的集群，起码超过40台，有人可能会问，1百万/3万不是=33台吗，我最多给34台就够了呀，非也，我们还要考虑nginx集群容错性，所以我们肯定是需要超过33台nginx的。

那么我们lVS需要多少台机器呢？实际上二个lvs集群足够了，一个lvs集群=一主+一备+keepalived。之所以要二个集群，主要是怕一个集群挂了，对外用户访问就彻底断了。既然是二个集群，那么我们需要二个VIP。那用户到底访问哪个VIP呢？这个简单，我们不会主动给用户提供VIP地址，现在大多都是提供的域名，一个域名下面绑定多个VIP地址，这样用户访问的时候DNS就可以返回这二个集群的VIP地址，很多人就喜欢刨根问底，好像一个域名只能绑定一个IP呀，非也，你这样想是不是可以换个角度呢？我国有很多IPS服务商（什么是IPS，就是网络提供商，联通，电信，移动等），一个IPS服务商我们绑定一个IP，那么我们不就可以解析到三个IP：）实际上真实也差不多，大家这样理解就够了。知道一个域名是可以绑定多个IP的。那么话说回来，有人会觉得二个集群够用吗？实际上主要网络入口带宽足够，LVS服务器配置够好，完全没问题，现在服务器都是万兆网卡。LVS在这里面只做接收请求，就把用户的数据包转发给nginx，然后就干完活了，至于维持长链接的事情，和他没关系，它不需要响应用户的请求。这也是VIP的功能。在大型的互联网公司，一般都会做异地多活架构设计，如果有感兴趣的伙伴，下次我们也可以聊聊如何做异地多活，异地多活存在的问题点：）。

最后我们再来讨论下网关zuul，网关做的功能主要是有操作审计，权限认证控制，流量控制，多租户控制等等，它不做具体的业务逻辑。（现在网关有太多，比如istio用的sidecar就可以做，应用层，springcloud gateway等等，云平台和应用层都可以做网关）假如zuul压测并发吞吐量为1万，那么我们需要部署超过100台zuul服务器网关。

最后总结我们要支持百万并发（同时在线）的架构设计可以这样设计数据：

系统设置FD为1百万，用户层面50万，进程层面为10万

2个LVS集群（一主一备+keepalived）

40台nginx服务器

起码100台zuul网关服务器（一台zuul网关服务器tps为10,000）

起码1000台tomcat服务器(一台tomcat业务逻辑的tps为1,000)

很多人是不是被吓到了，或者说我们公司没有这么多服务器也能支持百万并发呀，非也，你们大部分场景不是1million/TPS,不是每一秒都承受了100万的并发请求的，这个大家要清晰> 的认识到哟。

要不然拿一个我们的业务场景来分析，我们GPS数据汇报量是一台设备10S发一次请求GPS信息，现在有1万台设备，所以我们需要一秒承接1万/TPS,然后中间9秒不处理任何GPS的数据？那么我们是不是可以这样设计，用kafka来接收所有的1万条数据/10秒发一次。假如我们一台服务器一秒可以处理1000条，那么我2台业务服务器一秒可以处理2000条数据，因为我们是10秒1万条GPS信息，那么我只要2台业务服务器处理5秒就可以处理完，还有5秒是可以空闲下来的。你说是吧：），所以多少台服务器是需要根据业务场景设计的，这也再次说明技术不能脱离业务。哈哈有什么问题可以在下面留言沟通~~~

转载请标明，否则禁止转载：

https://wp.me/paCouF-2Q

原文链接：https://blog.csdn.net/wanyuxiang000/article/details/122537196

开始数据分析：

你可能也喜欢