1.一篇讲解CPU性能指标提取及源码分析
2.在离线混部-Koordinator Cpu Burst 特性 源码调研
3.Linux /proc/cpuinfo代码的码查实现
4.linux查看cpu占用率的方法:
一篇讲解CPU性能指标提取及源码分析
这篇报告主要根据CPU性能指标——运行队列长度、调度延迟和平均负载,码查对系统的码查性能影响进行简单分析。
CPU调度程序运行队列中存放的码查是那些已经准备好运行、正等待可用CPU的码查轻量级进程。如果准备运行的码查云源码轻量级进程数超过系统所能处理的上限,运行队列就会很长,码查运行队列长表明系统负载可能已经饱和。码查
代码源于参考资料1中map.c用于获取运行队列长度的码查部分代码。
在系统压力测试前后,码查使用压力测试工具stress-ng,码查可以看到运行队列长度的码查明显变化,从3左右变化到了左右。码查
压力测试工具stress-ng可以用来进行压力测试,码查观察系统在压力下的码查表现,例如运行队列长度、调度延迟、平均负载等性能指标。
在系统运行队列长度超过虚拟处理器个数的1倍时,需要关注系统性能。当运行队列长度达到虚拟处理器个数的3~4倍或更高时,系统的响应就会非常迟缓。
解决CPU调用程序运行队列过长的方法主要有两个方面:优化调度算法和增加系统资源。
所谓调度延迟,是指一个任务具备运行的条件(进入 CPU 的 runqueue),到真正执行(获得 CPU 的执行权)的这段时间。通常使用runqlat工具进行测量。
在正常情况下使用runqlat工具,网站答题 源码可以查看调度延迟分布情况。压力测试后,调度延迟从最大延迟微秒变化到了微秒,可以明显的看到调度延迟的变化。
平均负载是对CPU负载的评估,其值越高,说明其任务队列越长,处于等待执行的任务越多。在系统压力测试前后,通过查看top命令可以看到1分钟、5分钟、分钟的load average分别从0.、1.、1.变化到了4.、3.、1.。
总结:当系统运行队列长度、调度延迟和平均负载达到一定值时,需要关注系统性能并进行优化。运行队列长度、调度延迟和平均负载是衡量系统性能的重要指标,通过监控和分析这些指标,可以及时发现和解决问题,提高系统的稳定性和响应速度。
在离线混部-Koordinator Cpu Burst 特性 源码调研
在离线混部场景下,Koordinator引入了Cpu Burst特性来优化CPU资源管理。这个特性源自Linux内核的转盘源码 cCPU Burst技术,旨在处理突发的CPU使用需求,减少CPU限流带来的影响。cgroups的参数如cpu.share、cpu.cfs_quota_us和cpu.cfs_burst,分别控制了CPU使用率、配额和突发缓冲效果。在Kubernetes中,资源请求(requests.cpu)和限制(limits.cpu)通过这些参数来实现动态调整,以保证容器间公平的CPU分配。
对于资源调度,Kubernetes的Bandwidth Controller通过时间片限制进程的CPU消耗,针对延迟敏感业务,如抖音视频服务,通过设置合理的CPU limits避免服务质量下降,同时也考虑资源的高效利用。然而,常规的限流策略可能导致容器部署密度降低,因为时间片间隔可能不足以应对突发的CPU需求。CPU Burst技术正是为了解决这个问题,通过收集未使用的CPU资源,允许在突发时使用,从而提高CPU利用率并减少throttled_time。
在Koordinator的配置中,通过configMap可以调整CPU Burst的百分比,以及在负载过高时的调整策略。例如,当CPU利用率低于阈值时,拼图 python源码允许动态扩展cfs_quota,以应对突发的CPU使用。源码中,会根据节点负载状态和Pod的QoS策略来调整每个容器的CPU Burst和cfs_quota。
总的来说,Cpu Burst特性适用于资源利用率不高且短作业较多的场景,能有效提升核心业务的CPU资源使用效率,同时对相邻容器的影响较小。在某些情况下,结合cpuset的核绑定和NUMA感知调度可以进一步减少CPU竞争。理解并灵活运用这些技术,有助于优化云计算环境中的资源分配和性能管理。
Linux /proc/cpuinfo代码的实现
为了获取系统中CPU的详细配置信息,Linux提供了一个名为/proc/cpuinfo的文件。这个文件可以被系统命令cat轻松查看。
对于ARM架构的芯片,其代码实现主要在arch/arm/kernel/head.S中,通过调用函数__lookup_processor_type来检查系统是否支持特定CPU,并获取相关procinfo信息。procinfo是一个proc_info_list类型的结构体,用于抽象表示每种处理器。
在Linux内核源代码中,/proc/cpuinfo的实现通常位于fs/proc/cpuinfo.c或类似文件中。这里定义了一个proc_dir_entry结构体实例来代表/proc/cpuinfo文件。不同类型的CPU芯片实现相同的接口但提供不同的内容,show_cpuinfo函数负责生成CPU信息,这些信息以序列化的ureport源码分析方式生成。
在ARM架构中,for_each_online_cpu宏用于遍历系统中所有在线的CPU,并在每次迭代中执行特定操作,对每个CPU执行特定的操作。这一宏在内核模块或内核代码中广泛使用,特别是在需要操作或收集每个CPU信息时。
在模块初始化函数fs_initcall(proc_cpuinfo_init)中,通过proc_create函数将/proc/cpuinfo条目注册到/proc文件系统中,并关联定义的file_operations结构体。内核编译与加载后,/proc/cpuinfo条目就会被创建,准备好在用户空间程序请求时提供CPU信息。
对于x架构,虽然函数名称可能不同,但实现原理类似,提供CPU信息的获取与展示。快捷查询命令如cat /proc/cpuinfo可快速查看系统CPU的详细配置。
linux查看cpu占用率的方法:
top
top是最常用的查看系统资源使用情况的工具,包括CPU、内存等等资源。这里主要关注CPU资源。
1.1 /proc/loadavg
load average取自/proc/loadavg。
9. 9. 8. 3/
前三个数字是1、5、分钟内进程队列中平均进程数,包括正在运行的进程+准备好等待运行的进程。
第四个数字分子表示正在运行的进程数,分母是进程总数。
最后一个数字是最近运行的进程ID号。
其中top取的是/proc/loadavg的前三个数。
1.2 top使用
打开top,可以指定更新的周期。
输入H,打开隐藏的线程;输入1,可以显示单核CPU使用情况。
top -H -b -d 1 -n > top.txt,每个1秒统计一次,共次,显示线程细节,并保存到top.txt中。
top采样来源你还依赖于/proc/stat和/proc//stat两个,这两个的详细介绍参考:/proc/stat和/proc//stat。
其中CPU信息对应的含义如下:
us是user的意思,统计nice小于等于0的用户空间进程,也即优先级为~。 ni是nice的意思,统计nice大于0的用户空间进程,也即优先级为~。 sys是system的意思,统计内核态运行时间,不包括中断。 id是idle的意思,几系统处于空闲态。 wa是iowait的意思,统计io等待时间。 hi是hardware interrupt,统计硬件中断时间。 si是software interrupt,统计软中断时间。 最后的st是steal的意思。
perf
通过sudo perf top -s comm,可以查看当前系统运行进程占比。
这里不像top一样区分idle、system、user,这里的占比是各个进程在总运行时间里面占比。
通过sudo perf record记录采样信息,然后通过sudo perf report -s comm。
sar、ksar
sar是System Activity Report的意思,可以用于实时观察当前系统活动,也可以生成历史记录的报告。
要使用sar需要安装sudo apt install sysstat,然后对sysstat进行配置。
sar用于记录统计信息,ksar用于将记录的信息图形化输出。
ksar下载地址在: github.com/vlsi/ksar/re...
sudo gedit /etc/default/sysstat--------------------------------将 ENABLED=“false“ 改为ENABLED=“true“。 sudo gedit /etc/cron.d/sysstat--------------------------------修改sar的周期等配置。 sudo /etc/init.d/sysstat restart--------------------------------重启sar服务 /var/log/sysstat/--------------------------------------------------sar log存放目录
使用sar记录开机到目前的统计信息到文件sar.txt。
LC_ALL=C sar -A > sar.txt
PS:这里直接使用sar -A,在ksar中无法正常显示。
如下执行java -jar ksar.jar,然后Data->Load from text file...选择保存的sar.txt文件。
得到如下的图表。
还可以通过sar记录一段时间的信息,指定采样周期和采样次数。
这些命令前加上LC_ALL=C之后保存到文件中,都可以在ksar中图形化显示。
collectl、colplot
collectl是一款非常优秀并且有着丰富的命令行功能的实用程序,你可以用它来采集描述当前系统状态的性能数据。
不同于大多数其它的系统监控工具,collectl 并非仅局限于有限的系统度量,相反,它可以收集许多不同类型系统资源的相关信息,如 cpu 、disk、memory 、network 、sockets 、 tcp 、inodes 、infiniband 、 lustre 、memory、nfs、processes、quadrics、slabs和buddyinfo等。
同时collectl还可以替代常用工具,比如top、vmstat、ps、iotop等。
安装collectl:
sudo apt-get install collectl
collectl的使用很简单,默认collectl显示cpu、磁盘、网络信息。
collectl还可以显示更多的子系统信息,如果选项存在对应的大写选项,大写选项表示更细节的设备统计信息。
b – buddy info (内存碎片) c – 所有CPU的合一统计信息;C - 单个CPU的统计信息。 d – 整个文件系统Disk合一统计信息;C - 单个磁盘的统计信息。 f – NFS V3 Data i – Inode and File System j – 显示每个CPU的Interrupts触发情况;J - 显示每个中断详细触发情况。 l – Lustre m – 显示整个系统Memory使用情况;M - 按node显示内存使用情况。 n – 显示整个系统的Networks使用情况;N - 分网卡显示网络使用情况。 s – Sockets t – TCP x – Interconnect y – 对系统所有Slabs (系统对象缓存)使用统计信息;Y - 每个slab使用的详细信息。
collectl --all显示所有子系统的统计信息,包括cpu、终端、内存、磁盘、网络、TCP、socket、文件系统、NFS。
collectl --top可以代替top命令:
collectl --vmstat可以代替vmstat命令:
collectl -c1 -sZ -i:1可以代替ps命令。
collectl和一些处理分析数据工具(比如colmux、colgui、colplot)结合能提供可视化图形。
colplot是collectl工具集的一部分,其将collectl收集的数据在浏览器中图形化展示。
colplot的介绍 在此,相关源码可以再 collectl-utils下载。
解压下载的colplot之后,sudo ./INSTALL安装colplot。
安装之后重启apache服务:
suod systemctl reload apache2 sudo systemctl restart apache2
在浏览器中输入 .0.0.1/colplot/,即可使用colplot。
通过Change Dir选择存放经过collectl -P保存的数据,然后设置Plot细节、显示那些子系统、plot大小等等。
最后Generate Plot查看结果。