服务调试命令
随着流量增大很多scf服务会出现问题,以下一些排查方式可以做为参考,虽然都是很简单的命令但当服务出问题的时候可以快速的定位(非scf服务也可以借鉴)
一.查看系统负载 cpu mem io load average ... 这些信息都可以通过 top, iostat, ifstat, jstat, xxstat... 命令来查看
二.查看服务进程情况
1.进程cpu占用情况:
按cpu占用率排序:
ps Hh -eo pid,tid,pcpu |sort -nk3|tail
定位哪个线程占用cpu
top -> shift + h 列出线程列表(这里看到的tid是10进制的)
shift + t 按照time排序
jstack pid(进程号) > 输出到文件
然后去找16进制的线程号
jstack命令
jstack 12345 > jstack_dump
pstree查看进程的所有线程
pstree 12345
2.mem使用情况
top命令
查看java进程占用内存情况
通过jmap输出的内容可以查看是否有内存"泄露"的问题,哪个实例占的资源多 jmap 还可以把整个进程的内存dump出来
jmap –histo 12345 > mem_dump
查看gc情况:
jstat –gcutil pid 时间间隔(详细使用见附件)
jstat –gcutil 12345 1000
3.文件打开情况(linux下所有东西都是文件)
lsof
例: lsof –p pid |wc –l 查看进程打开的文件数, 这条命令可以查看程序中是否有资源没有关闭如:socket file .... java服务中常用的httpclient很容易忘记关闭,通过该命令可以快速定位
lsof -p 12345 |wc -l
4.查看网络情况
netstat(详细使用见附件,这条命令很无敌)
例:查看16003端口的连接数:
netstat –na|grep 16003|wc –l
列出所有连接16003的每个ip的连接数
netstat -an|grep 16003|awk '{print $5}'|awk -F : '{print $4}'|sort|uniq -c
输出结果:
1 *
2 10.3.12.15
4 10.3.12.20
3 192.168.10.22
3 192.168.10.23
3 192.168.10.24
tcpdump
#只显示来源和目的端口为80的TCP分节
tcpdump 'tcp and port 80'
#只显示来源和目的端口为80,并且设置了SYN标志的TCP分节
tcpdump 'tcp and port 80 and tcp[13:1] & 2 != 0'
#只显示来源端口为7001~7005之间的TCP分节
tcpdump 'tcp and tcp[0:2]>7000 and tcp[0:2]<=7005'
telnet
#抓http包
telnet 10.58.120.118 80 > http_dump
GET /test/n_16170701962244.jpg HTTP/1.1
Host: pic.58.com
Connection: Keep-Alive
#scf状态监控
#交互式
telnet 10.58.120.110 26003 > 26003_dump
count
#管道式
(echo -e "count";sleep 10)|telnet 10.58.120.110 26003
#通过linux的fd进行网络通讯
exec 6<>/dev/tcp/10.58.120.110/26003 #连接10.58.120.110:26003关联的fd=6
echo -e "count">&6 #写count
cat<&6 #查看接收的结果
exec 6>&- #关闭输入输出流
exec 6<&-