最近某台服务机器偶尔遇到了一种告警:cpu steal 过高;咨询了sre,sre解答是宿主机上的其它虚拟机负载较高,cpu抢占厉害;
正好借此机会了解下cpu的相关信息
=========================================================================
1 top命令输出的cpu信息
使用top命令查看cpu信息时会看到这样一行:
里面的各个值分别是什么意思了?
us:user cpu time or % cpu time spent in user space
sy:system cpu time or % cpu time spent in kernel space
ni:user nice cpu time or % cpu time spent on low priority processes
id:idle cpu time or % cpu time spent idle
wa:io wait cpu time or % cpu time spent in wait(on disk)
hi:hardware irq or % cpu time servicing/handling hardware interrupts
si:software irq or % cpu time servicing/handling software interrupts
st:cpu time in involuntary wait by virtual cpu while hypervisor is servcing another processor or cpu time stolen from a virtual machine
翻译为:
us:用户态使用的cpu时间比
sy:系统态使用的cpu时间比
ni:用作nice加权的进程分配的用户态cpu时间比
id:空闲的cpu时间比
wa:cpu等待磁盘写入完成时间
hi:硬中断消耗时间
si:软中断消耗时间
st:虚拟机偷取时间
2 cpu耗时百分比如何算出
2.1 sy和us
将文件从src拷贝到dst,文件会先从src读取进内核空间,然后在读取到用户空间,然后拷贝数据到用户空间的buf上,在通过用户空间,内核空间,数据才到磁盘的dst上
从上面的程序看,cpu消耗在kernel space的时候就是sy,cpu消耗在user space的时候就是us
2.2 hi和si
如果程序没有问题,就没有hi和si,但实际上有硬中断和软中断的概念;比如外设硬件故障,cpu会进行上下文切换,进行保持现场的操作,就是cpu会有段时间被硬中断占用了,这个时间就是hi;
相似的,si是软中断的cpu占用时间,软中断是由软件指令方式触发的;
软中断和硬中断可以参考:
https://blog.csdn.net/pxz_002/article/details/7327668
2.3 ni
ni是nice的意思,nice是什么呢,每个linux进程都有个优先级,优先级高的进程有优先执行的权利,这个叫做pri。进程除了优先级外,还有个优先级的修正值。即比如你原先的优先级是20,然后修正值为-2,那么你最后的进程优先级为18。这个修正值就叫做进程的nice值。
nice是一个进程的优先级修正值,为什么会占用cpu时间了?
ni是指用做nice加权的进程使用的用户态cpu时间比,我的理解就是一个进程的所谓修正值就意味着多分配一些cpu时间给这个进程的用户态,这个中间所多分配的cpu时间就是我们这里的ni。(这个理解没啥把握,如果有错误麻烦帮忙指出下)
2.4 wa
wa指的是CPU等待磁盘写入完成的时间,就是说前提是要进行IO操作,在进行IO操作的时候,CPU等待时间。比如上面那个程序,最后一步,从系统空间到dst硬盘空间的时候,如果程序是阻塞的,那么这个时候cpu就要等待数据写入磁盘才能完成写操作了。所以这个时候cpu等待的时间就是wa。
2.5 st
st的名字很生动,偷取。。。是专门对虚拟机来说的,一台物理是可以虚拟化出几台虚拟机的。在其中一台虚拟机上用top查看发现st不为0,就说明本来有这么多个cpu时间是安排给我这个虚拟机的,但是由于某种虚拟技术,把这个cpu时间分配给了其他的虚拟机了。这就叫做偷取。
剩下的id就是除了上面那么多cpu处理上下文以外的cpu时间片。当然在这些时间片上,cpu是空闲的。
3 steal time
如果你想要部署虚拟环境(例如:Amazon EC2), steal time就是你想要关注的性能指标之一。 如果这个指标的数值很高,那么说明机器状态非常糟糕。什么是steal time?什么会引发高steal time?多少才是警戒值(你需要做什么)?
你的虚拟机(VM)会与虚拟环境的宿主机上的多个虚拟机实例共享物理资源。其中之一共享的就是CPU时间切片。如果你的VM的物理机虚拟比是1/4, 那么它的CPU使用率不会限制于25%的CPU时间切片-它能够使用超过它设置的虚拟比。(有别于内存的使用,内存大小是严格控制的)。
cpu steal time 远高于0的原因:
这里有两种可能性:
-
你需要一个额定更多CPU资源的虚拟机(你的虚拟机
是
问题) -
物理机已经超卖了并且多个虚拟机之间在激烈的竞争资源(你的虚拟机
不是
问题)
提示:
你不能通过看当前被影响的虚拟机实例的CPU性能指标来判断你所遇到的场景。(1 or 2)
当你有很多的虚拟宿主机上分别都部署了相同职责的服务程序(可能作为集群)时,就比较容易知道自己遇到的问题了。
-
是否 %st(CPU Steal Time Percentage) 在所有机器上面都上涨了?
这个意味着你的虚拟机在使用更多的CPU资源。你需要为你的虚拟机增加更多的CPU资源的配额。
-
是否%st(CPU Steal Time Percentage) 只在一部分机器上面陡峭增长?
这个意味着物理机器被超卖了。把你自己的虚拟机挪到另一个物理机器去吧。
所以,什么时候你应该担心?
一般的参考标准-
如果steal time 超过了10%并且持续了20分钟,那么虚拟机就可能性能下降了
当这种情况发生:
-
关闭虚拟机并且挪到另一台物理机器上面
-
如果steal time维持在很高的数值, 那么增加CPU资源配额。
-
如果steal time维持在很高的数值, 联系你的虚拟机提供商。你的虚拟机提供商有可能在超卖物理机
参考文章:
https://blog.csdn.net/jessysong/article/details/73571878
https://www.cnblogs.com/yjf512/p/3383915.html