网站SEO优化过程中不免会分析网站日志,网站日志的分析与诊断就像为网站看病一样,我们通过网站日志的分析,可以更清楚地了解网站的健康状况,利用这些数据更有利于网站SEO优化。
通过网站日志,可以清楚的知道用户在什么IP、什么时间、使用什么操作系统、浏览器、分辨率显示器的情况下访问了你网站的哪个页面,是否成功。对于专门从事搜索引擎优化的人来说,网站日志可以记录每个搜索引擎蜘蛛机器人爬行网站的细节,比如哪个IP的百度蜘蛛机器人哪天访问了网站多少次,访问了哪些页面,访问页面时返回的HTTP状态码。
常见的蜘蛛名称:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度图片蜘蛛
Googlebot:谷歌机器人
Googlebot-Image:谷歌图片机器人
360Spider:360蜘蛛
sogouspider:搜狗蜘蛛
第一,网站日志的作用。
1.通过网站日志,可以了解蜘蛛对网站的基本爬行情况,了解蜘蛛的爬行轨迹和爬行量。
2.网站的更新频率也与网站日志中蜘蛛抓取的频率有关。一般来说,更新频率越高,蜘蛛抓取的频率越高。我们网站的更新不仅是新内容的添加,也是我们的微调操作。
3.我们可以根据网站日志的反应提前预警我们空间中的一些事情和问题,因为如果服务器有问题,它会在网站日志中第一时间反映出来,要知道服务器的稳定速度和打开速度会直接影响我们的网站。
4.通过网站日志,我们可以知道网站的那些页面很受蜘蛛的欢迎,哪些页面是蜘蛛甚至不碰的。同时,我们也可以发现,有些蜘蛛因为过度爬行而损失了我们的服务器资源,所以我们必须进行屏蔽工作。
第二,怎样下载网站日志呢?
1.首先,我们的空间应该支持网站日志下载,这非常重要。购买空间时,我们需要提前知道是否支持日志下载,因为一些服务提供商不提供这项服务。如果支持,空间背景通常有日志WebLog日志下载功能,可以用FTP将其下载到根目录并传输到本地。如果服务器支持,可以设置将日志文件下载到指定路径。
2.这里有一个非常重要的问题。网站日志强烈建议每小时生成一次。小企业站和页面内容少的网站可以设置为一天。默认情况下是一天。如果内容多或大站设置为一天生成一次,那么一天只生成一个文件,这个文件会相当大。有时候打开电脑会导致死机。如果设置了,找空间提供商协调设置。
第三,网站日志数据分析。
1.网站日志中的数据量太大,所以我们通常需要使用网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、网络标志、WPS表格等。
117.26.203.167-[02/May/2011:01:57:44-0700]"GET/index.phpHTTP/1.1"50019967"-"Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar"
分析:
117.26.203.167访问ip;
2011:01:57:44-0700访问日期-时区;
GET/index.phpHTTP/1.1根据HTTP/1.1协议捕获(域名下)/index.php页面(GET代表服务器动作);
服务器响应状态码500;
一般情况下,服务器响应状态码有以下几种:200,301,302,304,404,500等。200代表用户成功地获得了所需的文件,如果是搜索引擎,则证明蜘蛛在这次爬行中顺利地发现了一些新的内容。而且301代表用户访问的某一页url已经进行了301重定向(永久)处理,而302则是暂时重定向。而且404代表所访问的网页已不存在,或者所访问的网址完全是错误的。五百是服务器的错误。
19967表示抓取了19967字节;
Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar表示,访问者使用火狐浏览器、AlexaToolbar等访问端信息;
2.如果您的日志格式不是这样,则意味着日志格式设置不同。
3.很多日志中都能看到20000和200064则代表正常抓取。
4.抓取频率是通过查看日志中百度蜘蛛的抓取次数来知道的。抓取频率没有标准的时间表或频率数字。我们通常通过比较日志来判断。当然,我们希望百度蜘蛛每天抓取的次数越多越好。
5.有时我们的路径不统一,会出现带斜杠和没有斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们发现搜索引擎可以判断我们的目录,所以我们要统一我们的目录。
6.我们分析日志分析时间长了,我们可以看到蜘蛛的抓取规律,同一目录下单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看到,这些抓取频率间隔是蜘蛛根据网站的权重和更新频率自动确定的。
7.蜘蛛对我们网页的抓取是分等级的,是按权重依次递减的,一般顺序是首页,目录页,内页。
第四,通过网站日志我们可以知道些什么?
1.我们买的空间能稳定吗?
2.蜘蛛喜欢我们的页面,不喜欢什么?
3.蜘蛛什么时候经常抓取我们的网站,什么时候需要更新内容?
总结:因此,无论是新站还是老站,无论你做百度还是Google,我们都可以通过网站日志来分析搜索引擎蜘蛛抓取的情况;如果网站长期收录有问题,那么我们也可以对比网站日志中的搜索引擎蜘蛛行为,了解网站哪方面出了问题;如果网站被封或被K,我们都可以通过观察网站日志网站日志的情况来了解原因出在哪里。所以对于真正的SEO高手来说,分析蜘蛛日志是最直观、最有效的。