请选择 进入手机版 | 继续访问电脑版
设为首页 收藏本站
注册 找回密码
猎马网 首页 技术教程 其它教程 查看内容

Robots.txt限制百度蜘蛛爬行的-Crawl-delay目前还有用吗?

2018-9-19 01:15| 发布者: admin| 查看: 142| 评论: 0

摘要: 什么是站点抓取压力?站点抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数。什么是抓取压力反馈工具:1. 此工具主要是为了让站长在网站抓取压力出现问题时,可以向百度及时反馈网站抓取压力问题 ...

什么是站点抓取压力?

站点抓取压力即搜索引擎在单位时间内对一个网站服务器访问的频率和总次数。


什么是抓取压力反馈工具:

1.   此工具主要是为了让站长在网站抓取压力出现问题时,可以向百度及时反馈网站抓取压力问题,同时还提供给站长近一个月的站点抓取量趋势图,站长可以了解站点抓取压力是否存在异常并符合预期。

2.   为保证您网站的正常抓取,百度会将您的调整压力和网站实际情况综合考虑,因此并不能保证完全按照您的反馈进行调整。这个反馈是个参考值,我们会根据实际情况综合调整,避免因压力调整造成不必要的抓取异常.


在网站robots里限制百度蜘蛛的抓去频率!

如:

User-agent:Baiduspider 

crawl-delay: 3600

意思是限制百度蜘蛛抓去网站频率间隔为3600秒。

楼主也可以根据日志,分析出蜘蛛爬去时间频率最高和抓去哪些页面是否具有价值,在robots.txt进一步限制

如下可以限制蜘蛛的访问时间:

Visit-time:0930-1630

意思:制定百度蜘蛛每天开始访问和结束访问网站的时间。



**************************************************************************************************

国内的搜索引擎蜘蛛

百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

国外的搜索引擎蜘蛛

google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

bing蜘蛛(MSN):msnbot

robots.txt内容格式非常简单,用文本文件的每一行代表一个约定。


• User-Agent: 适用下列规则的漫游器

• Allow: 充许被抓取的网页

• Disallow: 要拦截的网页

Robots.txt的两个常用符号

“*”: 匹配0或多个任意字符(也有所有的意思)

“$”:匹配行结束符。

禁止某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介绍得有)

Disallow: /

只充许某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介绍得有)

Disallow:

User-agent: *

Disallow: /

robots.txt扩展协议

robots协议中除allow,disallow外,其扩展协议中还有Request-rate,Crawl-delay,Visit-time等,可以通过率这些协议来限制蜘蛛访问的频率,访问的时间等。

一、Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。

语法:Crawl-delay:XX

"XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。


二、Visit-time 指定蜘蛛的访问时间。

语法:Visit-time:0930-1630

开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630


三、Request-rate 指定采集的频率

语法:Request-rate:1/5 0600-0845

指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。


四、禁止指定类型后缀的文件抓取


Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$ 

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

Disallow: .jpg$ 禁止抓取的格式

Disallow: .jpeg$ 

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

另外,在网页中增加名字为“robots”的meta标签,也可以让某些网络蜘蛛不采集这一页。不过,这也只是某些网络蜘蛛认同,不是大家都认同的标准。示例如下。

==============================================================

实例

例1.禁止所有搜索引擎访问网站的任何部分

User-agent: * 

Disallow: /

例2.允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt")

User-agent: * 

Allow: / 

另一种写法是 

User-agent: * 

Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider 

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider 

Allow: /

例5. 禁止spider访问特定目录 

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: * 

Disallow: /cgi-bin/ 

Disallow: /tmp/ 

Disallow: /~joe/

例6. 允许访问特定目录中的部分url

User-agent: * 

Allow: /cgi-bin/see 

Allow: /tmp/hi 

Allow: /~joe/look

例7. 使用"*"限制访问url 

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: * 

Disallow: /cgi-bin/*.htm

例8. 使用"$"限制访问url 

仅允许访问以".htm"为后缀的URL。

User-agent: * 

Allow:/ .htm$

例9. 禁止访问网站中所有的动态页面

User-agent: * 

Disallow: /*?*

例10. 禁止Baiduspider抓取网站上所有图片 

仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider 

Disallow: /.jpg$ 

Disallow: / .jpeg$ 

Disallow:/ .gif$ 

Disallow:/ .png$ 

Disallow: /.bmp$

例11. 仅允许Baiduspider抓取网页和。gif格式图片 

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider 

Allow: .gif$ 

Disallow: /.jpg$ 

Disallow:/ .jpeg$ 

Disallow:/ .png$ 

Disallow: /.bmp$

例12. 仅禁止Baiduspider抓取。jpg格式图片

User-agent: /Baiduspider 

Disallow:/ .jpg$

******************************************************************************


鲜花

握手

雷人

路过

鲜花
  • 中国移动互联网简史,移动互联网风云录

    admin 发布于 2018-09-27 147人查看, 0 条点评

    中国移动互联网简史,移动互联网风云录

    2011年8月16日,北京798艺术中心。台上,雷军每公布一项技术参数,台下就传来一阵几乎要掀翻屋顶的声浪。一位记者问:“这都是哪请来的托,太敬业了!”工作人员只得实话实说:“都是自己来的,我们也没想到。”这一 ...

    > 继续阅读

  • 美团8年终上市,市值超过京东,市值超500亿美元

    admin 发布于 2018-09-20 261人查看, 0 条点评

    美团8年终上市,市值超过京东,市值超500亿美元

    9月20日,成立8年的美团正式在香港上市。9点30分,代号为“03690”的美团股票开始交易。美团IPO发行价定在每股69港元,扣除相关发行开支后共计募集资金325.6亿港元(约合41.5亿美元)。美团开盘价为每股72.9港元,较 ...

    > 继续阅读

  • 永安行收购哈罗单车 共享单车中小企业“抱团取暖”

    admin 发布于 2017-10-26 3251人查看, 0 条点评

    永安行收购哈罗单车 共享单车中小企业“抱团取暖”

      据中国之声《新闻晚高峰》报道,被冠以“共享单车第一股”名号的永安行,近日又在行业里“创第一”了。永安行公司官方网站日前宣布,其参股的公司永安行低碳科技与哈罗单车运营公司上海钧正网络科技有限公司签署 ...

    > 继续阅读


  • 联系我们

    手机版|站点地图|站点导航|粤公网安备 44030302000019号|工商网监标识| ( 粤ICP备15042858号 )   

    猎马网 Powered by 猎马网

    © 2012-2017 www.iliema.com

    返回顶部