之前全程技术已经为各位读者概述了网站日志(百度爬虫日志)的查看和分析方法,对于许多seo新手来说,如何用正确的方法分析并以此调高网站排名,可能还不是太理解,以记事本的形式查看,因为格式非常乱,导致看不懂。下面全程技术就分享下如何用excel表格整理日志并清晰的看到相关数据。

蜘蛛日志的基本参数信息:

分析之前我们需要对日志的一些基本参数信息做了解,不然的话,你打开日志也看不懂是吧。

date:发出请求时候的日期。

time:发出请求时候的时间。注意:默认情况下这个时间是格林威治时间,比我们的北京时间晚8个小时,下面有说明。

c-ip:客户端IP地址。

cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。

s-computername:服务器的名称。

s-ip:服务器的IP地址。

s-port:为服务配置的服务器端口号。

cs-method:请求中使用的HTTP方法,GET/POST。

cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-query:URI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

sc-substatus:协议子状态,记录HTTP子状态代码。

sc-win32-status:Win32状态,记录Windows状态代码,即http状态码。

sc-bytes:服务器发送的字节数。

cs-bytes:服务器接受的字节数。

time-taken:记录操作所花费的时间,单位是毫秒。

cs-version:记录客户端使用的协议版本,HTTP或者FTP。

cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Cookie):记录发送或者接受的Cookies内容,没有的话则以连接符-表示。

cs(Referer):引用站点,即访问来源。

以上是日志一些基本参数。

日志整理步骤:

那么当我们用代码编辑器打开解压好的日志文件,会发现里面的数据很乱,怎么办?我个人比较喜欢用(Microsoft Excel 工作表.xlsx)整理,有些朋友可能会问:为什么不用“爱站”等工具直接来分析呢?搞得这么麻烦,我想说的是,麻烦又麻烦的好处,这个方法可以比爱站查询更明确全面。 第一步:以数据导入日志文件到Excel 工作表。下载好日志——打开Excel 工作表——点击数据——点击导入数据——导入数据——选择所有的数据源——下一步——分隔符号——下一步——勾选空格——下一步——下一步——点击完成。下面请继续看日志查看。

如何用数据导入网站爬虫日志excel表格分析数据



如何查看日志:

大家可以根据下图说明,ip地址、时间、时区、访问路径、http状态码、字节数访问页面、客户端浏览信息等进行对照。大家也可以使用快速查找

利用表格分析网站日志数据信息图示


内链的日志分析:

技巧:重点分析方向:

[1] cs(User-Agent)蜘蛛抓取量:用户代理,客户端浏览信息、操作系统等情况。

[2] cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

[3] c-ip:客户端IP地址。

[4] sc-substatus:协议子状态,记录HTTP子状态代码。

一:蜘蛛抓取量(客户端查看)、访问次数、以及停留时间。可以从客户端浏览信息cs(User-Agent)这里寻找查看。具体查看方法步骤:在Excel 工作表最左边鼠标左键点击——点击开始——选择筛选——找到客户端浏览信息栏目——点击小三角——输入BaiduSpider(注意英文字母中间不要含有空格)——表格底部会显示蜘蛛的所有的抓取数量。

利用excel表格统计蜘蛛抓取量

这些数据中有可能存在假的蜘蛛,那么我们有必要识别一下。

识别蜘蛛真假:

步骤:电脑左下方鼠标右键运行——输入cmd——输入命令:nslookup(空格)xxx.xxx.xxx.xxx ip地址——如图显示找不到说明该蜘蛛ip是假的。

利用ip地址识别百度蜘蛛真假性

从这些数据我们可以看出蜘蛛对本站点的友好程度、抓取次数等,总访问数量、以及停留时间。抓取量越高、停留时长越长越好,代表网站越受搜索引擎欢迎。而单页抓取停留时间代表着打开该页面的时间,时间越长,表明速度越慢,对搜索引擎抓取收录越不利,我们就需要提高网页的加载速度,减少单页加载时间,让搜索引擎爬虫更方便去抓取收录。

以下查找方法同上

二:被访问的页面:页面收录的前提示需要蜘蛛抓取过的,看看网站有没有问题。接下来查看访问页面,(cs-uri-stem)即访问的页面文件。可以知道是否存在恶意访问的情况。例如:我们用robots屏蔽的还来访问的。

三:异常状态码sc-substatus:例如404、301、502等等。404发现的话需要提交百度处理。

四:异常ip:是否出现频繁访问,例如是不是有人恶意刷网站。阿帕奇 Apache环境的可以用.htaccess文件书写规则上传到站点根目录下进行屏蔽,规则如下。 Order Allow,Deny Allow from all Deny from 195. 66. 199.158. 192.168.2.154

结言

市场上的在线分析工具及平台,虽然更加便捷,但数据过于单一并且不够详细,全程技术还是推荐使用excel表格来整理分析,这里还要强调一个之前文章中提到过的问题,网站日志生成的时间要把握好,如果生成的日志文件过大,会导致数据过大而无法在excel表格中全部显示完全,并且会占用大量资源导致卡死。-更好用的工具推荐来至全程技术网站建设使用帮助