如何排查并解决Linux服务器CPU使用率持续过高的问题？ -

题目

如何排查并解决Linux服务器CPU使用率持续过高的问题？

性能监控工具使用,进程资源分析,问题定位流程,系统优化

排查CPU使用率过高的核心步骤：

## 解析

1. 实时监控系统状态：

使用top命令（按1查看各核心利用率，按P按CPU排序）：

top -c  # 显示完整命令
# 关键指标：%Cpu(s), RES(内存), COMMAND

进阶工具htop（需安装）：

htop --sort-key PERCENT_CPU  # 树状显示进程关系

2. 定位问题进程：

使用ps分析进程细节：

ps -eo pid,user,%cpu,%mem,cmd --sort=-%cpu | head -20

监控进程变化（每2秒刷新）：

pidstat -u 2 5  # 每2秒采样，共5次

3. 线程级分析：

查看进程的线程资源占用：

top -H -p <PID>  # 显示指定进程的所有线程
ps -T -p <PID>  # 查看线程详情（SPID列）

4. 深度诊断工具：

使用perf分析CPU周期：

perf top -p <PID>          # 实时函数级分析
perf record -p <PID> -g   # 记录调用栈
perf report               # 生成分析报告

使用strace跟踪系统调用：

strace -p <PID> -c         # 统计系统调用
strace -p <PID> -T        # 显示调用耗时

问题类型	解决方案
应用程序死循环	1. 分析堆栈（`pstack <PID>`） 2. 联系开发修复代码逻辑
配置不当（如线程池过大）	调整应用配置参数（如Tomcat的maxThreads）
系统级问题（如中断风暴）	检查`/proc/interrupts`，更新驱动
外部攻击（如挖矿病毒）	1. 检查异常进程 2. 分析`crontab -l` 3. 使用`rkhunter`扫描

CPU指标解读：
- us：用户进程时间
- sy：内核时间
- ni：优先级进程时间
- wa：I/O等待时间（>20%需警惕）
性能工具链：
- 基础：vmstat 2（查看上下文切换cs）
- 中级：mpstat -P ALL（每核利用率）
- 高级：bpftrace动态跟踪内核函数