切换城市 [ 北京 武汉 ]24小时联系电话:
24小时联系电话: 010-62346005-808
切换城市 [ 北京 武汉 ]

有事点这里 有事点这里  有事点这里 有事点这里

新闻资讯NEWS

怎么分析网站的日志日期:2012/12/7 13:17:00  

在阐发日记时,对付单日日记文件我们必要阐发的内容有:访问次数、停马上间、抓取量、目次抓取统计、页面抓取统计、蜘蛛访问IP、HTTP状态码、蜘蛛活泼时段、蜘蛛爬取路径等;对付多日日记文件我们必要阐发的内容有:蜘蛛访问次数趋向、停马上间趋向、团体抓取趋向、各目次抓取趋向、抓取时间段、蜘蛛活泼周期等。
下面我们来看看网站日记怎样阐发?
网站日记数据阐发解读:
1、访问次数、停马上间、抓取量
从这三项数据中我们可以得知:均匀每次抓取页面数、单页抓取停马上间和均匀每次停马上间。
均匀每次抓取页面数=总抓取量/访问次数
单页抓取停顿=每次停顿/每次抓取
均匀每次停马上间=总停马上间/访问次数http://www.wxlykj.com
从这些数据我们可以看出蜘蛛的活泼水平、亲和水平、抓取深度等,总访问次数、停马上间、抓取量越高、均匀抓取页面、均匀停马上间,评释网站越受搜刮引擎喜好。而单页抓取停马上间评释网站页面访问速率,时间越长,评释网站访问速率越慢,对搜刮引擎抓取收录较倒霉,我们应只管即便进步网页加载速率,淘汰单而立停马上间,让爬虫资源更多的去抓取收录。
别的,凭据这些数据我们还可以统计出一段时间内,网站的团体趋向体现,如:蜘蛛访问次数趋向、停马上间趋向、抓取趋向。
2、目次抓取统计
通过日记阐发我们可以看到网站哪些目次受蜘蛛喜好、抓取目次深度、紧张页面貌次抓取状态、无效页面貌次抓取状态等。通过比拟目次下页面抓取及收录环境,我们可以发明更多题目。对付紧张目次,我们必要通过表里调解增长权重及爬取;对付无效页面,在robots.txt中举行屏蔽。
别的,通过多日日记统计,我们可以看到站表里举动给目次带来的结果,优化是否公道,是否到达了预期结果。对付统一目次,以恒久时间段来看,我们可以看到该目次下页面体现,凭据举动推测体现的缘故原由等。
3、页面抓取
在网站日记阐发中,我们可以看到详细被蜘蛛爬取的页面。在这些页面中,我们可以阐发出蜘蛛爬取了哪些必要被克制爬取的页面、爬取了哪些无收录代价页面、爬取了哪些重复页面url等,为充实使用蜘蛛资源我们必要将这些地点在robots.txt中克制爬取。
别的,我们还可以阐发未收录页面缘故原由,对付新文章,是由于没有被爬取到而未收录抑或爬取了但未放出。对付某些阅读意义不大的页面,大概我们必要它作为爬取通道,对付这些页面,我们是否应该做Noindex标签等。但从另一方面讲,蜘蛛会弱智到靠这些偶然义的通道页爬取页面吗,蜘蛛不懂sitemap?【对此,笔者有迷惑,求分享履历】
4、蜘蛛访问IP
曾经有人提出过通过蜘蛛的ip段来果断网站的降权环境,笨鸟觉得这个意义不大,由于这个后知性太强了。并且降权更多应该从前三项数据来果断,用单单一个ip段来果断意义不大。IP阐发的更多用途应该是果断是否存在收罗蜘蛛、假蜘蛛、恶意点击蜘蛛等。
5、访问状态码
蜘蛛常常出现的状态码如301、404等,出现这些状态码要实时处置处罚,以制止对网站造成坏的影响。
6、抓取时间段
通太过析比拟多个单日蜘蛛小时爬取量,我们可以相识到特定蜘蛛对付本网站在特定时间的活泼时段。通过比拟周数据,我们可以看到特定蜘蛛在一周中的活泼周期。相识这个,对付网站内容更新时间有肯定引导意义,而之前所谓小三大四等均为不科学说法。
7、蜘蛛爬取路径
在网站日记中我们可以跟踪到特定IP的访问路径,要是我们跟踪特定蜘蛛的访问路径则能发明对付本网站布局下蜘蛛的爬取路径偏好。由此,我们可以得当的引导蜘蛛的爬取路径,让蜘蛛更多的爬取紧张、有代价、新更新页面。此中爬取路径中我们双可以阐发页面物理布局路径偏好以及url逻辑布局爬取偏好。通过这些,可以让我们从搜刮引擎的视角去审视本身的网站。

咨询总机:010-62346005

地 址:北京市海淀区西三旗建材城东路2号1层101
武汉分公司地址:湖北省武汉市洪山区南国雄楚广场A4栋2011室
郑州分公司地址:河南郑州金水区东风路科技市场对面米兰阳光6号楼917室
邮 箱:haidanet@163.com
24小时联系电话: 15201609116 13651084380