鹿泽鹿泽  2024-07-09 15:30:34 鹿泽笔记 隐藏边栏  1 

Crawl-delay是一个指令,用来告诉搜索引擎爬虫在抓取网站时应该等多久,例如,Crawl-delay:30意味着每次爬虫抓取一个页面,都要等30秒才能抓取下一个页面(每次抓取之间至少要等30秒),这样可以减轻服务器的压力,避免频繁请求网站资源。

当搜索引擎抓取一个页面时,它会请求该页面的HTML内容,以及该页面引用的CSS、JavaScript和图片等资源。Crawl-delay指令只影响搜索引擎抓取页面的时间间隔,而不影响它抓取单个页面所需的时间。也就是说,当搜索引擎抓取一个页面时,它会在很短的时间内连续请求该页面的HTML内容和相关资源,而不会在请求每个资源之间都等待Crawl-delay指定的时间。

User-agent: *
Crawl-delay: 30

User-agent: Bing
Crawl-delay: 10

上面的robots.txt代码表示对于所有的爬虫,都要等待30秒;但是对于必应的爬虫,只要等待10秒。

哪些搜索引擎支持Crawl-delay?

目前,只有Bing、DuckDuckGo、Yandex等少数搜索引擎承认这个指令。但Yandex建议使用Yandex.Webmaster控制台设置抓取频率。

谷歌则完全忽略它,而是根据网站的性能和流量来自动调整爬取速率。百度spider则明确表示不支持Crawl-delay,建议通过百度站长平台的抓取压力反馈工具定义首选抓取频率。

1、文章版权归作者所有,未经允许请勿转载。
2、本站所有文章,如无特殊说明或标注,均为本站原创发布。任何在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们邮箱:526009505@qq.com进行处理。
3、咨询请联系QQ:526009505