大多数网站建设及SEO优化过程中,百度蜘蛛日志是不被重视的存在,只有当网站发现问题的时候才去查看。今天全程技术就帮大家分析,我们可以从蜘蛛日志文件中获取到的各种数据及信息,以及容易被大家忽略的一些站点问题,SEO应该重点注意的内容。

蜘蛛日志是什么

简单理解,百度蜘蛛又名百度爬虫,主要的工作职能是抓取互联网上现有的URL,并对页面质量进行评估,给出基础性的判断。而蜘蛛日志就是爬虫在抓取过程的记录文件。

举例说名:我们的站点使用了nginx做反向代理,一旦有请求到达网站服务器nginx会生成相应的日志文件。蜘蛛日志就是当搜索引擎向服务器发送请求时产生的访问记录文件。

怎么找爬虫日志

首先我们的空间要支持网站日志下载,这一点是很重要的,在购买空间时候需事先了解下是否支持日志下载,因为有的服务商是不提供这项服务的,如果支持的话空间后台一般都有日志WebLog日志下载这个功能把它下载到根目录在用FTP传到本地就可以,服务器的话可以设置将日志文件下载到指定路径。

举例说明:nginx会生成名为access.log的日志文件,蜘蛛产生的浏览记录就保存在这里。这个文件默认记录了一天内的访问记录,之前的日志会被自动分割压缩,当然,这个分割时间是可以自己手动修改的,需要根据自己的日访问量做决定。 使用find / -name access.log命令可以找到访问日志文件所在的位置。这条命令的意思是从根目录里查找名为access.log的文件。

使用命令查找网站日志所在文件地址

我这里的日志位于/var/log/nginx/目录下,使用命令cd /var/log/nginx/进入该文件夹


这里有个很重要的问题,网站日志建议设置成每小时生成一次,小型的企业站和页面内容较少的网站可以设置成一天,它默认是一天,如果内容多或者大型站设置成一天生成一次,那么一天只生成一个文件,这个文件会相当的大,因为分析日志需要的一些命令比较占用资源,很可能会因此影响生产环境中的正常业务,设置的话找空间商协调设置即可。

正确分析日志内容

我们首先看一下日志的组成部分。日志的格式和内容是可以通过配置自己定义的,我们在这里只分析默认情况下的日志格式。

221.221.153.47 - - [25/Jun/2018:11:39:13 +0800] "GET / HTTP/1.1" 200 19285 "https://www.baidu.com/from=844b/bd_page_type=1/ssid=0/uid=0/pu=usm%401%2Csz%401320_2001%2Cta%40iphone _1_11.3_3_604/baiduid=6EC3CDA4AF6......" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) CriOS/67.0.3396.87 Mobile/15E216 Safari/604.1"


1.客户端的IP地址 - 221.221.153.47

2.请求方式 - [25/Jun/2018:11:39:13 +0800] - GET

3.请求地址 - /news/7fcfca6a-0e14-42a0-a9f8-c0ffca0d8ab5 -

4.请求协议 - HTTP/1.1

5.HTTP状态码,关于状态码的内容请搜索查阅,这里不再赘述 - 200

6.请求的页面大小 - 19285

7.来源地址 - https://www.baidu.com/from=844b/bd_...

8.客户端浏览器的相关信息,我们简称为Agent - Mozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) App... -

这里列出一些常见的搜索引擎Agent信息,这部分的内容来源于网络,且与时效性有关,仅供参考,建议在使用的时候查找最新的Agent信息。

Google蜘蛛 :Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Baidu蜘蛛 :Baiduspider+(+http://www.baidu.com/search/spider.html)

Yahoo!蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

Yahoo!中国蜘蛛 :Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

微软Bing蜘蛛 :msnbot/2.0b (+http://search.msn.com/msnbot.htm)

Google Adsense蜘蛛 :Mediapartners-Google

有道蜘蛛 :Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/)

Soso搜搜博客蜘蛛 :Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)

Sogou搜狗蜘蛛 :Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Twiceler爬虫程序 :Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)

Google图片搜索蜘蛛 :Googlebot-Image/1.0

俄罗斯Yandex搜索引擎蜘蛛 :Yandex/1.01.001 (compatible; Win16; I)

Alexa蜘蛛 :ia_archiver (+http://www.alexa.com/site/help/webmasters)

Feedsky蜘蛛 :Mozilla 5.0 (compatible; Feedsky crawler /1.0)

韩国Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

看到这里,我们就可以通过客户端Agent来过滤掉我们不想要看到的日志。由上面的列表我们知道,百度的Agent信息为

Baiduspider+(+http://www.baidu.com/search/spider.html),因此我们可以根据

Baiduspider关键词来对日志进行过滤,以此来筛选百度蜘蛛的访问记录。

百度蜘蛛日志怎么看

在这里总结一些常用的分析命令。

1.cat access.log | grep Baiduspider 统计百度蜘蛛的详细爬取记录

2.cat access.log | grep Baiduspider | wc -l 获取百度蜘蛛的爬取次数

3.cat access.log | grep Baiduspider | grep "GET url" 记录百度蜘蛛爬取某个页面的行为,命令中的url为页面的相对地址

4....... 上述命令中的grep是个比较强大的文字搜索工具,我们可以使用这个工具来匹配搜索文本,精确找出我们想要看的日志内容,减少筛选时间,提升工作效率。所以,可以根据实际的场景,输入关键词来过滤日志,灵活地进行拓展。

如何利用网络爬虫日志


1.分析蜘蛛日志,我们可以知晓蜘蛛是否对站点进行了抓取,以及抓取是否成功。我们可以以此来判断我们的网站程序是否符合搜索引擎的抓取规范,发现抓取失败的原因。

2.分析网站日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。

3.分析日志文件,我们可以分析蜘蛛的访问路径,优化我们在网站建设中的站点结构。

深度挖掘日志文件

1.发现网站错误。可以通过日志中的状态码分析网站是否存在问题,例如存在死链、程序错误、页面失效等;

2.了解用户行为习惯。通过日志文件,我们可以发现用户对整站页面的访问次数、访问时间和访问路径。以此得出用户的行为习惯和关注点;

3.记录用户画像。通过分析日志,可以知道用户的地理区域、来源地址、浏览设备以及搜索引擎等信息;

4.排查恶意攻击。对日志中高频访问的用户进行鉴定,阻止非正常的高频度访问,避免不必要的资源浪费。

今日总结

全程技术只是介绍了百度蜘蛛日志的分析教学和操作详解,深入的剖析需要站长们综合性的去挖掘细节。网站建设和网站推广过程中对于seo而言,分析蜘蛛日志是最为直观的优化方式,所以大家需要去实践中摸索更极致的技巧及实用方案。