鹿泽鹿泽  2023-07-17 14:03:07 鹿泽笔记 隐藏边栏  0 

如果服务器返回状态,比如200表示正常访问。404表示页面不存在。304代表网页还没更新。这些都可以通过网站日志里面的代码直接看出来的。如果大量的出现404的话,那么非常有必要对这些404的页面进行采取措施。我们可以用robots.txt协议来屏蔽这些页面,不让搜索引擎来爬行这个页面。

自从从事SEO网站优化以来,自己慢慢的去关注网站日志。网站日志分析成为自己每天工作的第一件事情,每天一到公司第一时间就是对昨天的网站日志进行分析。也许部分站长们还不会分析网站日志,也有少部分觉得分析网站日志就是在浪费时间,天天看着那些数据有什么作用。这里小编觉得至少有四点我们可以了解到。

一、确定是否有蜘蛛过来爬行

如何确定是否有蜘蛛过来爬行:

1、通过观看网站日志代码进行观看,这个针对分析高手

2、通过网站日志分析工具进行观看,这个比较适合新手使用

通过网站日志分析工具可以直接查看站点有哪些页面已经被蜘蛛爬行抓取了。

二、客户ip便知蜘蛛类型。

1、220.181.108.*ip段的百度蜘蛛(提高权重蜘蛛)

2、123.125.71.*ip段的百度蜘蛛(劣质文章捉取蜘蛛)

3、123.125.68.*ip段的百度蜘蛛(考察蜘蛛)

4、117.28.255.*ip段的百度蜘蛛(假冒蜘蛛)

三、检测页面状态正常与否

通过网址日志我们可以直接的服务器响应代码看出我们的页面哪些有问题,哪些正常的。一般情况下返回的状态码是200的话说明正常,出现404的话,说明页面出现问题。

四、搜索引擎对站点的友好程度

从网站日志,我们可以直接的看出蜘蛛来我们站点的爬行次数,爬行次数越多说明蜘蛛对我们的站点越友好。

我们可以直接的看出蜘蛛对我们站点的爬行次数了,但是这里面的爬行次数里面也存在冒牌的蜘蛛,所以我们还需要通过客户ip进行确认哪些是真正的蜘蛛,哪些是冒牌的。

下面再对以上四点进行进一步的探知:

针对上面一我们可以直接的查看哪些页面被爬行抓取了,哪些没有。随着算法的不断更新,新站的考察期越来越长了,以至于好多新站长更新的文章通过site:域名,查收录都没有显示。这大部分是因为搜索引擎滞留了没有及时释放。

针对上面二我们可以通过客户ip辨别站点安全信息及文章内容质量怎样

根据不同的IP我们可以分析网站是个怎样的状态,以下常见的百度蜘蛛IP:

1、123.125.68.*常来,别的来的少,那么站点进入沙盒,或被者降权的可能性非常高。

2、220.181.68.*每天只增加没有减少,则是进入沙盒或者被降权的预兆。

3、220.181.7.、123.125.66. 搜索引擎开始要抓取东西。

4、121.14.89.*摆脱了新站考察期。

5、203.208.60.*站点开始不正常。

6、210.72.225.*这个ip段不间断抓取各站。

7、220.181.108.*高质量文章内容页或首页抓取。

一般成功抓取返回代码都是200返回,若返回状态显示304代表网站没更新,蜘蛛来过,但没抓取。如果是200,那么也别担忧,这只不过是一些动态页面的抓取。

1、文章版权归作者所有,未经允许请勿转载。
2、本站所有文章,如无特殊说明或标注,均为本站原创发布。任何在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们邮箱:526009505@qq.com进行处理。
3、咨询请联系QQ:526009505