秋式网站日志分析器是一款功能强大的网站日志分析工具,原版2.0版本名为点格网站日志分析器,现更名为秋式网站日志分析器。通过它,用户可分析爬虫抓取页面有效性,并可通过日志分析蜘蛛返回的状态码及时发现网站里面是否存在错误或者蜘蛛无法爬取的页面,同时通过这些返回的信息用户还可排查网站页面中存在的404错误页面、500服务器错误等这些噪音内容上噪音页面上的错误信息,并以此可减少搜索引擎在一些噪音页面上,如重复页面、低质量页面、空内容页面、404页面、不排名页面等的抓取频率。全新的秋式网站日志分析器3.0进行了整体的全面升级,着重修正了“避免线程冲突引发导致软件自动退出”的问题,同时支持Linux下的IIS日志,并增加了IP分析和对360搜索引擎的支持。
新功能:
1、整体升级,避免线程冲突引发导致软件自动退出的问题。
3、支持Linux下的IIS日志
4、增加IP分析
5、增加360搜索引擎的支持
功能特色:
1、可分析爬虫抓取页面有效性,并可通过日志分析蜘蛛返回的状态码及时发现网站里面是否存在错误或者蜘蛛无法爬取的页面
2、通过程序提供的返回的信息用户还可排查网站页面中存在的404错误页面、500服务器错误等这些噪音内容上噪音页面上的错误信息
3、通过秋式网站日志分析器的日志查看,用户还可减少搜索引擎在一些噪音页面上,如重复页面、低质量页面、空内容页面、404页面、不排名页面等的抓取频率
网站日志分析介绍作为一名seoer,对网站日志分析是必需要掌握的一项基本的技能,通过日志分析可以分析爬虫抓取页面有效性,通过日志分析蜘蛛返回的状态码能及时发现网站里面是否存在错误或者蜘蛛无法爬取的页面,排查网站页面中存在的404错误页面,500服务器错误等这些噪音内容上噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面等)
一、网站日志可以为我们做什么?
1.可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面的抓取频率)
2.排查网站页面中存在的404错误页面,500服务器错误等
3.页面重要内容是否被爬虫完整爬到并且快速遍历
4.正确分辨蜘蛛爬虫
二、常见HTTP状态码解读
1.200代码,表示蜘蛛爬取正常
2.404代码,访问的这个链接是错误链接
3.301代码,永久重定向
4.302代码,表示临时重定向
5.304代码,客户端已经执行了GET,但文件未变化
6.500代码,表示网站内部程序或服务器有错
三、日志代码解读
从日志文件当中可以解读出两个部分内容:
【搜索引擎抓取情况】
1.从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重负页面(噪音行为)
PS:可以通过nslookup ip 识别蜘蛛的真假
★/date-2016-01.html(低质量重负页面)
★/author-1.html(低质量重负页面)
★/downloads/(低质量页面)
★/contact.html(死链接接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题
2.所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。爬虫纠偏,让爬虫花更多的精力放在我的详情页面上
【用户访问网站情况】
关于用户网站访问情况, 主要分析用户访问网站行为轨迹及用户属性,在这就不进行讲述