我将 Web 服务移至新服务器。我发现,在旧服务器中,以下给出的命中数大致相同awstats
(例如,对于给定的一天,以下给出 5537,而awstats
表示 5557 命中):
grep -v bot myaccess.log| # file contains given vhost for given date range \
grep -v rss2email|\
grep -v Slurp|\
grep -v pider| # Ignore spiders \
egrep 'HTTP/.... (200|304) '| # Catch only 200 and 304 responses \
grep -v Wget|\
grep -v Bot|\
grep -v rawler| # Ignore crawlers \
grep -v favicon.ico|\
grep -v robots.txt|\
grep -v HTTrack|\
grep -v simplepie|\
grep -v BingPreview|\
wc -l
将以下内容添加到链的末尾会产生与(3042)grep
大致相同的页面数(例如,给定日期为 2916 ):awstats
egrep -v '(css)|(js)|(class)|(gif)|(jpg)|(jpeg)|(png)|(bmp)|(ico)|(swf) HTTP'
现在,我移动了服务器。很多东西都变了:apache
变成了nginx
;日志格式改变;配置awstats
已被重写;Debian 挤压变得喘不过气来,awstats
6.9.5 变成了 7.0。
上面的大管道仍然awstats
很好地接近 ' 的命中(例如 5521 与 5541),但添加egrep
排除NotPageList
不:对于给定的一天,我得到 2948,而awstats
给出 1580。(排除列表是否包含rss
并且xml
不显着差异。)确实,自移动服务之日起,点击量大致保持不变,而页面和访问量大约减少了一半。我不知道为什么。
主要区别似乎是
awstats
7.0 中的一个新功能:下载。它假定某些文件扩展名(pdf
、zip
、txt
、mp3
、doc
、ppt
等)是“下载”。旧awstats
版本认为这些是“页面”。我也理解每个新版本
awstats
都有一个更完整的过滤列表(例如更完整的 bot 列表),导致每个新版本报告的页面更少(高估总是存在并且可能无法完全消除);但这一定会产生较小的影响。