极客时间-Linux性能优化实战

AntiTopQuark

2025-05-07 (Updated: 2025-06-27)

性能优化, 读书笔记

01 如何学习Linux性能优化

CPU 性能篇
- 02 基础篇，如何理解“平均负载”

01 如何学习Linux性能优化#

1. 性能指标是什么？#

两个核心指标——“吞吐”和“延时”。这两个指标是从应用负载的视角来考察性能，直接影响了产品终端的用户体验。

跟它们对应的，是从系统资源的视角出发的指标，比如资源使用率、饱和度等。

2. 性能分析的步骤#

性能分析，其实就是找出应用或系统的瓶颈，并设法去避免或者缓解它们，从而更高效地利用系统资源处理更多的请求。这包含了一系列的步骤，比如下面这六个步骤。

选择指标评估应用程序和系统的性能；
为应用程序和系统设置性能目标；
进行性能基准测试；
性能分析定位瓶颈；
优化系统和应用程序；
性能监控和告警。

3. 性能分析工具#

4. 性能优化知识图谱#

CPU 性能篇#

02 基础篇，如何理解“平均负载”#

1. uptime#

遇到性能问题通常会执行一下top或者uptime,

1
2
3

$ uptime
02:34:03 up 2 days, 20:14,  1 user,  load average: 0.63, 0.83, 0.88
当前时间    系统运行时间       正在登陆的用户数  平均负载  1min  5min  15min

2. 什么是平均负载#

平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，它和 CPU 使用率并没有直接关系。

CPU使用率是如何计算的？和平均活跃线程数的区别又是什么？

CPU使用率是时间维度的指标，表示CPU时间片被有效利用的比例。 CPU使用率 = (1 - ΔIdle / ΔTotal) × 100%

平均活跃进程数是并发数量维度的指标, 通过统计时间窗口内运行队列长度的瞬时值，计算其平均值。用来查看进程调度竞争是否严重。

2. 实际场景中的关系#
1. 高CPU使用率 + 低活跃进程数

现象：CPU使用率 > 90%，r < CPU核心数

原因：少量进程长期占用CPU（如单线程密集计算）

优化方向：

算法优化（降低计算复杂度）

增加并行化（多进程/线程）

2. 低CPU使用率 + 高活跃进程数

现象：CPU使用率 < 30%，r > 2 × CPU核心数

原因：进程频繁等待I/O或锁，而非CPU

优化方向：

检查磁盘I/O性能（iostat）

分析锁竞争（perf lock）

3. 高CPU使用率 + 高活跃进程数

现象：CPU使用率 ≈ 100%，r > CPU核心数

原因：CPU资源不足，进程在运行队列中堆积

优化方向：

扩容CPU资源

减少进程数量（合并任务）

3. 进程状态#

所谓可运行状态的进程，是指正在使用 CPU 或者正在等待 CPU 的进程，也就是我们常用 ps 命令看到的，处于 R 状态（Running 或 Runnable）的进程。

不可中断状态的进程则是正处于内核态关键流程中的进程，并且这些流程是不可打断的，比如最常见的是等待硬件设备的 I/O 响应，也就是我们在 ps 命令中看到的 D 状态（Uninterruptible Sleep，也称为 Disk Sleep）的进程。

实际上计算使用的是指数衰减平均值，可以消除瞬时峰值干扰，反映长期趋势。包括股票价格的EMA指标。

比如，当一个进程向磁盘读写数据时，为了保证数据的一致性，在得到磁盘回复前，它是不能被其他进程或者中断打断的，这个时候的进程就处于不可中断状态。如果此时的进程被打断了，就容易出现磁盘数据与进程数据不一致的问题。

因此不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

4. 平均负载多少为合理？#

平均负载最理想的情况是等于 CPU 个数。所以在评判平均负载时，首先你要知道系统有几个 CPU，这可以通过 top 命令或者从文件 /proc/cpuinfo 中读取

1 2	$ grep 'model name' /proc/cpuinfo \| wc -l 2

三个不同时间间隔的平均值，其实给我们提供了，分析系统负载趋势的数据来源，让我们能更全面、更立体地理解目前的负载状况。

如果 1 分钟、5 分钟、15 分钟的三个值基本相同，或者相差不大，那就说明系统负载很平稳。
但如果 1 分钟的值远小于 15 分钟的值，就说明系统最近 1 分钟的负载在减少，而过去 15 分钟内却有很大的负载。
反过来，如果 1 分钟的值远大于 15 分钟的值，就说明最近 1 分钟的负载在增加，这种增加有可能只是临时性的，也有可能还会持续增加下去，所以就需要持续观察。一旦 1 分钟的平均负载接近或超过了 CPU 的个数，就意味着系统正在发生过载的问题，这时就得分析调查是哪里导致的问题，并要想办法优化了。

当平均负载高于 CPU 数量 70% 的时候，你就应该分析排查负载高的问题了。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能。
但 70% 这个数字并不是绝对的，最推荐的方法，还是把系统的平均负载监控起来，然后根据更多的历史数据，判断负载的变化趋势。当发现负载有明显升高趋势时，比如说负载翻倍了，你再去做分析和调查。

5. 平均负载和CPU使用率#

平均负载是指单位时间内，处于可运行状态和不可中断状态的进程数。所以，它不仅包括了正在使用 CPU 的进程，还包括等待 CPU 和等待 I/O 的进程。

CPU 使用率，是单位时间内 CPU 繁忙情况的统计，跟平均负载并不一定完全对应。比如：

CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的；
I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高；
大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高。

6. 案例分析的工具介绍#

stress 是一个 Linux 系统压力测试工具，这里我们用作异常进程模拟平均负载升高的场景。

sysstat 包含了常用的 Linux 性能工具，用来监控和分析系统的性能。我们的案例会用到这个包的两个命令 mpstat 和 pidstat。

mpstat 是一个常用的多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有 CPU 的平均指标。

pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

案例1#

使用stress模拟一个CPU被打满的情况。

使用mpstat查看CPU使用率的情况, 可以看到5号cpu一直处于用户态，且没有iowait，说明是CPU密集型应用。

#-P ALL 表示监控所有CPU，后面数字5表示间隔5秒后输出一组数据
$mpstat -P ALL 5
Linux 5.15.167.4-microsoft-standard-WSL2 (AntiTopQuark)         05/07/25        _x86_64_        (16 CPU)

13:42:26     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
13:42:31     all    6.28    0.00    0.11    0.00    0.00    0.12    0.00    0.00    0.00   93.48
13:42:31       0    0.00    0.00    0.00    0.00    0.00    1.77    0.00    0.00    0.00   98.23
13:42:31       1    0.00    0.00    0.00    0.00    0.00    0.20    0.00    0.00    0.00   99.80
13:42:31       2    0.00    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00   99.80
13:42:31       3    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
13:42:31       4    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00
13:42:31       5  100.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00
13:42:31       6    0.00    0.00    0.60    0.00    0.00    0.00    0.00    0.00    0.00   99.40
13:42:31       7    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00  100.00

使用pidstat来查看是哪个进程把cpu打高了。

pidstat -u 5 1
Linux 5.15.167.4-microsoft-standard-WSL2 (AntiTopQuark)         05/07/25        _x86_64_        (16 CPU)

13:43:20      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
13:43:25     1000       203    0.20    0.00    0.00    0.00    0.20     1  node
13:43:25     1000      1162    0.60    1.40    0.00    0.00    2.00     7  node
13:43:25        0     11091  100.20    0.00    0.00    0.00  100.20     5  stress

Average:      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
Average:     1000       203    0.20    0.00    0.00    0.00    0.20     -  node
Average:     1000      1162    0.60    1.40    0.00    0.00    2.00     -  node
Average:        0     11091  100.20    0.00    0.00    0.00  100.20     -  stress

案例2#

使用stress来模拟单线程的IO压力

使用mpstat查看CPU使用率的情况, 可以看到3号cpu有大量io wait,说明是因为有IO的等待导致了平均负载高。

[root@AntiTopQuark AntiTopQuark]# mpstat -P ALL 5 1
Linux 5.15.167.4-microsoft-standard-WSL2 (AntiTopQuark)         05/07/25        _x86_64_        (16 CPU)

13:44:58     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
13:45:03     all    0.68    0.00    1.14    5.18    0.00    0.43    0.00    0.00    0.00   92.57
13:45:03       0    0.00    0.00    0.42    0.00    0.00    6.86    0.00    0.00    0.00   92.72
13:45:03       1    0.00    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00   99.80
13:45:03       2    0.00    0.00    1.00    6.22    0.00    0.00    0.00    0.00    0.00   92.77
13:45:03       3    0.20    0.00   14.52   77.71    0.00    0.20    0.00    0.00    0.00    7.36
13:45:03       4    1.80    0.00    0.20    0.40    0.00    0.00    0.00    0.00    0.00   97.60

使用pidstat可以看到陷入到了内核态的stress线程

pidstat -u 5 1
Linux 5.15.167.4-microsoft-standard-WSL2 (AntiTopQuark)         05/07/25        _x86_64_        (16 CPU)

13:46:17      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
13:46:22     1000      1162    0.40    1.40    0.00    0.00    1.80     7  node
13:46:22        0     11961    0.00   11.98    0.00    0.00   11.98     3  stress

Average:      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
Average:     1000      1162    0.40    1.40    0.00    0.00    1.80     -  node
Average:        0     11961    0.00   11.98    0.00    0.00   11.98     -  stress

案例3#

使用stress模拟多个进程争抢CPU的场景。

可以看到uptime中的平均负载明显上升

使用pidstat可以看到进程中有一半的时间在wait，一半的时间在CPU上执行。

pidstat -u 5 1
Linux 5.15.167.4-microsoft-standard-WSL2 (AntiTopQuark)         05/07/25        _x86_64_        (16 CPU)

13:51:28      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
13:51:33        0         1    0.00    0.20    0.00    0.00    0.20     5  systemd
13:51:33     1000      1162    1.00    1.20    0.00    1.40    2.20     6  node
13:51:33        0     13019   49.60    0.00    0.00   50.80   49.60     7  stress
13:51:33        0     13020   50.00    0.00    0.00   50.20   50.00     8  stress
13:51:33        0     13021   49.60    0.00    0.00   50.60   49.60     5  stress
13:51:33        0     13022   50.00    0.00    0.00   50.20   50.00     2  stress
13:51:33        0     13023   49.80    0.00    0.00   50.20   49.80    14  stress
13:51:33        0     13024   50.20    0.00    0.00   50.00   50.20    10  stress
13:51:33        0     13025   51.20    0.00    0.00   49.00   51.20     6  stress
13:51:33        0     13026   50.00    0.00    0.00   50.00   50.00     8  stress
13:51:33        0     13027   50.20    0.00    0.00   49.80   50.20    12  stress
13:51:33        0     13028   50.00    0.00    0.00   50.00   50.00     0  stress
13:51:33        0     13029   50.00    0.00    0.00   50.20   50.00     0  stress
13:51:33        0     13030   50.00    0.00    0.00   50.20   50.00    10  stress
13:51:33        0     13031   49.80    0.00    0.00   50.40   49.80     4  stress
13:51:33        0     13032   49.40    0.00    0.00   50.80   49.40     9  stress
13:51:33        0     13033   50.00    0.00    0.00   50.00   50.00    11  stress
13:51:33        0     13034   50.40    0.00    0.00   49.80   50.40     1  stress
13:51:33        0     13035   50.20    0.00    0.00   50.00   50.20    15  stress
13:51:33        0     13036   50.20    0.00    0.00   50.20   50.20     3  stress
13:51:33        0     13037   49.40    0.00    0.00   50.80   49.40     5  stress
13:51:33        0     13038   49.80    0.00    0.00   50.40   49.80     1  stress
13:51:33        0     13039   49.40    0.00    0.00   50.80   49.40     7  stress
13:51:33        0     13040   50.00    0.00    0.00   50.20   50.00     2  stress
13:51:33        0     13041   49.60    0.00    0.00   50.60   49.60    13  stress
13:51:33        0     13042   49.80    0.00    0.00   50.40   49.80    15  stress
13:51:33        0     13043   49.80    0.00    0.00   50.60   49.80     9  stress
13:51:33        0     13044   50.40    0.00    0.00   50.20   50.40    14  stress
13:51:33        0     13045   50.00    0.00    0.00   50.20   50.00     4  stress
13:51:33        0     13046   49.80    0.20    0.00   50.00   50.00     3  stress
13:51:33        0     13047   49.20    0.00    0.00   51.00   49.20     6  stress
13:51:33        0     13048   50.00    0.00    0.00   50.40   50.00    12  stress
13:51:33        0     13049   50.20    0.00    0.00   50.00   50.20    11  stress
13:51:33        0     13050   49.40    0.00    0.00   50.60   49.40    13  stress

7. 案例分析的工具介绍#

平均负载提供了一个快速查看系统整体性能的手段，反映了整体的负载情况。但只看平均负载本身，我们并不能直接发现，到底是哪里出现了瓶颈。所以，在理解平均负载时，也要注意：

平均负载高有可能是 CPU 密集型进程导致的；
平均负载高并不一定代表 CPU 使用率高，还有可能是 I/O 更繁忙了；
当发现负载高的时候，你可以使用 mpstat、pidstat 等工具，辅助分析负载的来源。