上个课时我们讲解了日志分析的一些 Linux 命令,如果想对一些偏大型或复杂场景进行分析,而又缺乏系统的日志收集检索系统,此时就需要借助脚本(Shell、Python、PhP 等)来帮助我们进行日志分析,本课时我们就讲解如何通过 Shell 来进行日志分析,并介绍一些比较高效的方法。

grep 命令

首先为你讲解一个常用命令 grep , grep 是 Linux 常用对日志文件进行筛选查找的命令。它的常用使用方式是这样的:

1
grep [选项] PATTERN filename

grep 后面加具体的执行选项,然后加上要查找的内容(PATTERN),PATTERN 可以是模式匹配的关键文字内容或正则表达式,filename 就是查找的目标文件名称。

这是 grep 的一种典型使用方式,除此之处 grep 也支持使用(command1|grep [选项] PATTERN)使用方式,这个在前面的课时我们多次应用到。

接下来我们主要讲一讲,grep 对文件的查找都有哪些具体的选项?

-i,表示可以忽略大小写,也就是可以忽略查找的文字的大小写,不管大写还是小写,只要匹配这个字符串的文字都可以被筛选出来。

-l(小写字母 l),它表示结果中只显示含有匹配内容的文件名称或路径。

-R,递归查询,查找在某一级目录下,有多少个文件内容里含有指定的内容字符串时,它可以在一个目录层级下发起递归性查询。

-o,表示结果中打印匹配出的内容。

-B,表示查找在匹配关键字符串之前,有多少行内容。

-A,表示匹配关键字的这一行之后有多少行内容。如果我们把 -B 和 -A 都同时加上,比如 -B2 和 -A2,就会把匹配关键字的前 2 行和后 2 行内容整体打印显示出来。

以上这就是 grep 里的一些常见选项,我们来看一个 grep 的正则匹配,需要使用 grep -E 或 egrep 命令,可以直接进行正则的匹配。

这里有一个匹配正则表达式的样例:

1
egrep ‘[^0][0-9]{0,2}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}’ ./test -c

如上的 egrep 命令,单引号里是具体的正则表达式([^0][0-9]{0,2}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}),‘./test’ 表示需要查找的目标文件,接下来我们分析正则表达式是什么作用。

从左到右分析,首先拆开分析这样的一段[^0][0-9]{0,2}\,第一个方括号中的 ^0,它表示匹配第一个数值是非零开头的任意数字,后面是 [0-9],表示第 2 个数开始,数值需要 0~9 之间,而 {0,2} 表示限制了第二个数字开始后面数字次数(可以不出现、或出现第二数、或出现到第三个数) ,它表述允许[0-9]数值出现的范围。

通过一个小数点分割后,是这样的一段 [0-9]{1,3}\,匹配原理也是一样。

通过整个这样的一串表达式,查找 test 文件里是否有 IP 地址,并把匹配 IP 地址的行信息全部都打印出来。

awk 命令

第 2 个介绍命令就是 awk,它是一个非常强大的文件分析工具和编程语言,可以逐行扫描文件,从第一行到最后一行寻找匹配的特定模式的行,并在这些行上进行想要的操作。

具体的使用方式是这样的:

1
awk ‘pattern’ filename

awk 后面加想要匹配的文件内容,然后再加这个文件的路径或者名称。

示例:awk -F: ‘/root/’ /etc/passwd

如上有一个使用事例,awk -F:,它表示查找 /etc 下的 passwd 文件,这里会以冒号进行内容上按列分割,然后前面加了一个匹配的内容(pattern),/root/ 表示是查找 /etc/ passwd 文件内容是否包含 root 这个关键字,然后打印对应的行打印。

第 2 个使用方式是:

1
awk ‘{action}’ filename

示例:awk -F: ‘{print $1}’ /etc/passwd

我们同样看一下这个示例,这里的 {print $1},$1 表示打印 /etc/passwd 文件中每行的第 1 列(及系统上的用户名)。

第3种使用方式是:

1
awk ‘pattern {action}’ filename

我们看到它既做了查找,后面又做了 action。这个方式会更加全面。这里同样有一个例子:

1
awk -F: ‘/root/{print $1,$3}’ /etc/passwd

首先它会做一个查找,匹配有 root 关键字的这一行,然后打印它的第 1 列和第 3 列,这里 awk 在这里既做关键词的匹配,也做了 action({print $1,$3})。

经验来看,awk 的强大主要体现在它的 action (动作指令),它可以对文件内容进行丰富灵活的处理,关于action的使用格式可以细分如下:

1
格式1:BEGIN{} {} END{}

BEGIN{} 表示在 awk 处理行前,需要执行的动作。中间的 {} 表示在 awk 执行过程中,所需要执行的动作,END{} 表示处理完所有内容以后的动作。

值得注意的是:实际使用 action 这种格式中,BEGIN{} 和 END{} 我们可以选择不加。

我们来看一下这个案例:

1
awk -F: 'length($1)==5{count++;print $1}END{print "count is: "count}' /etc/passwd

它只加了中间括号 {} 和 END{},在这个样例的 awk 里面,它对 passwd 文件做了一个操作,用来匹配 /etc/passwd 里每一行第 1 列的内容(Linux 系统用户名)长度是否等于 5,如果是等于 5,则说明匹配到要求的条件(length($1)==5)。条件成立以后在处理过程中会做一个计数(count++),并把第 1 列的内容打印出来,执行完 awk 以后,再把 count 的结果打印出来,我们就知道总体的匹配有多少个。

这就是 awk 的技术样例。那么再来看一下这样的一个样例:

1
2
3
4
5
6
7
Cat xxx.log|awk 'BEGIN{max=0;min=1} 
{if ($4 ~ /jeson/ && $8==200){ 
sum+=$NF; count+=1; 
if($9 > max) max=$9 fi;if($9 < min) min=$9 fi; 
}
}
END {print "Average = ", sum/count;print "Max = ", max;print "Min", min}'

我们上一课时的内容里面讲到过进行性能分析时,通常需要对 Nginx 的 access 日志进行响应时间的分析,如果我们想了解某一个接口它总体的情况,如最大响应时间是多久,最小的响应时间是多久,或者它的平均响应时间是多久,这时就可能需要通过 awk 来对日志进行整体分析,这里来看一下。

补充:xxx.log的日志格式:

1
2
3
log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      ‘“$http_user_agent” “$http_x_forwarded_for” $upstream_response_time';

这里的使用方式是这样的:

首先 cat 一个日志,把日志整打印出来,然后通过管道符给 awk 处理,这里就用到了 BEGIN{} 这个 action 行为,然后还有中间的括号行为,以及 END{}。

接下来 BEGIN action(max=0;min=1) 表示的是在执行 awk 之前所需要进行预处理的部分,这里先设置变量 max 等于 0,还有一个最小的值 min 等于 1。在进行处理中的括号里会有一个整体的语句进行判断,判断 $4(也就是 Cat xxx.log 这个文件的第 4 列是否匹配关键字 jeson),同时还要满足另外一个条件 $8==200(也就是 Nginx log 里面的返回状态码是否满足 200)。如果这两个条件都成立,这个时候就会用 sum 进行计数,$NF 表示日志里面最后一列的内容,sum+=$NF 表示 upstream_response_time 的数值进行累加,得到整体 upstream_response_time 的时间,也就是将 Nginx 转发到后端所有请求响应时间求和,赋值给 sum 变量。count+=1 表示 count 同时做一个计数器来自增。

if($9 > max) max=$NF fi;if($NF < min) min=$NF ,接下来会做一个判断,判断 $NF(也就是最后的响应时间)是否大于 max(第一次是默认值 0),如果大于 0 的话,那么它会把 max 的值重新替换。同样,也会和最小值进行比较,如果它小于最小值,就又会把最小变量 min 做一个替换,从而循环的去进行判断,通过每一个请求拿到整体最大请求和最小请求的时间,并且都赋值到对应的变量里去,分别是 count、sum、max 和 min。

END {print “Average = “, sum/count;print “Max = “, max;print “Min”, min}‘最后再整体把它的结果输出,这里就用到了 END 后面的括号了。它会把这个文件内容里面的平均响应时间求出来,通过 sum 变量,用整体的响应时间除以请求个数(sum/count),这样就得到了一个平均的响应时间。然后把 max 变量打印出来,得到了最大响应时间。min 这个时变量打印出来就是最小打印时间。

ag 命令

接下来还要为你介绍一个文件分析命令 ag,ag 命令相比 awk 和 grep 命令来我们感觉会更加新鲜,它的优势是性能比 grep 和 awk 做文件查找会更高效,并它默认支持正则方式,而不用通过 egrep 这种在里面加一些 -e 的选项,可以直接进行正则匹配。

ag 使用选项,跟 grep 命令基本上都是一致的。我们可以看一下:

-A 表示查找指定行的后多少行。

-B 表示查找指定行的前面有多少行。

-context 表示匹配特定行的前后多少行。

等等,基本上和 grep 的命令选项的功能是几乎一致的。

接下来我们演示一个 Shell 作日志分析的脚本,它用到了 ag 命令的使用方式,Shell 脚本里,大部分对于文件关键字的查找都是基于 ag 命令来实现的。

这个Shell 脚本主要可以实现这样的一些功能:

统计 Top 20 地址

SQL 注入分析

SQL 注入 FROM 查询统计

扫描器/常用黑客工具

漏洞利用检测

敏感路径访问

文件包含攻击

Web Shell

寻找响应长度的 URL Top 20

寻找罕见的脚本文件访问

寻找 302 跳转的脚本文件

整体 Nginx 的日志进行分析,接下来登录到一台测试机上面,然后 cd t21 目录下,有一个 nginx_check.sh 的 Shell 脚本。

我们首先来介绍一下 Shell 脚本的整体结构,最上面的这一段语句是做一个文件路径(/tmp/logs)的判断,如果存在的话,就会先把之前的文件做一个清空。

这是因为执行日志分析的脚本时,会把每一项的功能得到的统计结果,输出到 tmp 路径下面的 logs 目录下,并且以对应的文件名进行归纳。当我们执行完脚本以后,想要了解每一项结果内容的时候,就可以到该路径下面去查看对应的结果。

这里需要填写 Nginx 的 access 日志目录,用于分析的文件 access 日志路径。接下来做日志路径判断,如果日志路径不存在,那么脚本执行就会中断退出。

再往下看的话,这里就是做系统版本检测,这个脚本需要在 Debian 操作系统或者 Ubuntu 、Centos 这样的操作系统上,如果操作系统不能满足的话也会退出。

接下来就要用到我们刚刚讲到的 ag 命令。在没有 ag 命令情况下,脚本会先提示并进行安装,对应的使用 Yu m 或者是 apt get 包管理器安装。

下面就具体每一项的功能分析:

这里分析的就是访问 Top20 的 IP 地址,那么 ag 命令就做一个正则匹配,把所有的地址打印出来,然后通过 sort 来进行排序,uniq 来进行统计,然后再得到由大到小的结果,并且过滤出前 20 行数,然后同时把内容给到 tee 这个命令,它会把输出内容重定向到日志结果目录(/tmp/logs/top20.log),整体执行完毕后,如果我们想要看这一项分析结果的话,那么就可以在 log 目录下 Top20.log 文件里查看。另外 tee 命令还可以支持在终端输出,也就是既把结果放在终端输出。

所以这样就完成了第 1 项的日志功能分析,分析出访次数问前 20 的 IP 地址,并且打印。后面的每一项功能分析其实都是类似的原理,通过 ag 命令来对文件进行关键字查找,并且进行分析和统计。

好了,最后执行 sh nginx_check.sh,就可以开始 nginx access 日志来分析,我们在控制台终端关注它的执行过程和进度,并且在结果目录中详细分析日志得到的结果内容。

-– ### 精选评论