百度知道

SEO高手为什么要懂robots?

字号+ 作者:admin 来源:seo博客 2019-12-12 22:22 我要评论( )

robots协议书就是指收索引擎与网站中间的协议书文档,也就是说爬虫协议书,用以特定spider在网站上的抓取范畴。其功效是能够屏蔽掉对网站对收索引擎不友善的连接,......

  robots协议书就是指收索引擎与网站中间的协议书文档,也就是说爬虫协议书,用以特定spider在网站上的抓取范畴。其功效是能够屏蔽掉对网站对收索引擎不友善的连接,例如动态性和静态数据连接另外存有时屏蔽掉每日任务一切不愿被引用的网页。
 
  robots协议书是正确引导蛛蛛抓取网站地形图,也用于维护网站信息和比较敏感信息内容,保证客户私人信息和隐私保护不被侵害。存有于网站根目录正,以文件格式存有,留意robots文件夹名称不可以随意变更。
 
SEO高手为什么要懂robots?
 
  书写::表达对于某一爬虫,
 
  :表达禁止抓取
 
  :容许抓取
 
  .*通配符,表达全部
 
  .$结束符,表达以哪些末尾
 
  /根域下就是指网站根目录
 
  注:灶具显示英文情况下的,而且后边有一个空格符,首写必须小写。
 
  例:
 
  1、User-agent:*Disallow:/对于全部爬虫禁止抓取根目录下的全部连接
 
  2、User-agent:BaiduspiderDisallow:/禁止百度爬虫抓取网站全部联接
 
  3、User-agent:*Disallow:/a/对于全部的爬虫禁止抓取网站根目录下的a目录
 
  4、User-agent:*Disallow:/a对于全部的爬虫禁止抓取网站根目录下为“a”开始的文档5、User-agent:*Disallow:/*?*(?表达动态性符)禁止抓取网站根目录下带?号的动态性连接
 
  6、User-agent:*Disallow:/*.js$禁止抓取网站根目录下边以.js末尾的文档
 
  7、User-agent:*Disallow:/a/Allow:/a/b/禁止抓取网站根目录下边“a”,容许抓取“a”目录下边的“b”目录。
 
  8、User-agent:*Disallow:/a/Allow:/a/b禁止抓取网站根目录下边“a”目录,容许抓取“a”目录中以“b”开始的文档。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。转载请注明seohttp://www.hkxiaopan.com

网友点评
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片
  • 排名咨询
  • 国际伟德手机版1946咨询
  • 回到顶部