机器人的功能和写法?
  • 更新时间:2024-11-24 06:27:42
  • 网站优化
  • 发布时间:3年前
  • 1642

今天,推来客与你分享当你开始建立一个网站时应该理解的第一件事,也就是在访问一个网站时应该访问的第一件事。肯定有人猜到是什么了。没错,就是机器人的功能和写法。

 



一、什么是机器人?有什么用?

“机器人”被一些同行称为“萝卜丝“,是搜索引擎的机器协议。全称是“网络爬虫排除协议”。该网站通过机器人协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。

因为网站的很多目录如果被抓取的话是有风险的,或者是因为盈利原因无法抓取的,所以有必要告诉蜘蛛侠你的网站是否被允许。

Robots放在网站根目录下,名字叫robots.txt


二、机器人有哪些指令?

机器人的指令很简单。只有三个说明。一般我们也会把地图放在上面,这样蜘蛛抓到机器人后就可以直接沿着地图爬了。

用户代理:该指令定义了该指令的下列内容对哪些蜘蛛有效。默认情况下,所有蜘蛛都可以爬行。如果此指令指定了特定的蜘蛛,则此指令后面的内容对特定的蜘蛛有效。

Disallow:这个指令定义了哪些蜘蛛是禁止爬行的,因为有些人可能认为网站肯定想被爬行。不对,如果是背景或者私人文件,我相信没有人愿意被抢。

Allow:该指令定义允许蜘蛛捕捉什么内容。如果某些内容被允许,而其他内容被拒绝,则可以使用该指令。大多数网站只使用禁止说明。

Sitemap:顾名思义,就是我们常说的站点地图。这里就不详细介绍站点地图了,推来客的WEO会在下一节详细介绍站点地图的功能和用法。我们把站点地图放在Robots下面,方便蜘蛛直接访问Robots的时候访问你的地图。


第三,机器人的书写方式

1.用户代理:用于定义蜘蛛名称:常见的蜘蛛名称包括Baiduspider、Googlebot、MSNBot、Baiduspider-image、YoudaoBot、搜狗网蜘蛛、搜狗inst  spider、搜狗蜘蛛2、搜狗博客、搜狗新闻蜘蛛、搜狗猎户座蜘蛛、Sosospider、盘古蜘蛛、JikeSpider、yisouspider、EasouSpider。

2、禁止:

用来定义什么是不允许蜘蛛爬行的。在机器人中最难使用的东西,也是最常见的问题就是allow命令。或者整个机器人的本质在于不允许。如果你很好地学习了这个指令的用法,你就能写出完美的机器人。这里我将列出一些最常用的不允许用法。

严禁抢全站:

不允许: /

禁止woniuseo目录在根目录下爬行:

Disallow: /woniuseo/

禁止在根目录下的woniuseo目录中抓取单个页面的woniuseo.html:

不允许:/woniuseo/woniuseo.html

禁止全站遏制?已爬网的页面:

不允许: /*?*

禁止包含woniuseo的页面在全站被抓取;

不允许: /*woniuseo*

带后缀的页面。禁止对整个站点中的aspx进行爬网:

Disallow: /*。aspx$

禁止对带后缀的文件进行爬网。全站jpg:

Disallow:/*。jpb$

3.Allow:

Allow命令通常不会单独使用。Allow命令通常允许首先对目录进行爬网,然后禁止对所有其他页面进行爬网。

允许对所有页面进行爬网:

Allow: /

允许对woniuseo目录进行爬网:

Allow: /woniuseo/

允许爬行。html页面:

Allow: /*。html$

允许抓取。jpg图片:

Allow: /*。jpg$

第四,机器人的应用

推来客

自己的网站的robots文件是这样写的:

  User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /tag/Disallow: /wp-config.phpAllow: /

  sitemap:http://www.woniuseo.com/sitemap.xml

  禁止所有搜索引擎抓取所有页面:

  User-agent: *

  Disallow: /

  这种情况一般用在新站建好还没正式上线,不希望蜘蛛抓取时。

  禁止百度蜘蛛抓取所有页面:

  User-agent: Baiduspider

  Disallow: /

  淘宝就因为与百度的利益关系,从2008年就禁止百度抓取它所有页面了。

  仅允许百度蜘蛛抓取所有页面:

  User-agent: Baiduspider

  Allow: /

  User-agent: *

  Disallow: /

  禁止所有蜘蛛抓取特定的目录和页面,允许其它所有:

  User-agent: *

  Disallow: /sys-admin/

  Disallow: /aboutwoniu.html

  Allow: /

  仅允许蜘蛛抓取.html的页面与.jpg的图片:

  User-agent:*

  Allow: /*.html$

  Allow: /*.jpg$

  Disallow:/

  禁止所有动态的页面的抓取,允许其它:

  User-agent: *

  Disallow: /*?*

  Allow: /

  允许某个目录下某个目录被抓取,禁止其它

  User-agent: *

  Allow: /woniuseo/woniuseo/

  Disallow:/woniuseo/

  五、 关于robots的网络大事件

  淘宝封杀

  2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀

  京东封杀

  2011年10月25日,京东商城正式将一淘网的搜索爬虫屏蔽,以防止一淘网对其的内容抓取。

  BE违规抓取Evay

  美国BE拍卖公司无视Ebey公司网站 robots协议,终于2000年2月被告上法庭,最终被判Be侵权。

  360搜索无视robots协议

  2012年8月,360综合搜索被指违反robots协议,被业内指为“违规”警告。


  如果大家看完上面的指令还有疑问一话,请大家访问“推来客SEO博客”留言或者直接加入 推来客SEO博客 的官方群,找博主来看大家的Disallow应该怎么写才对。关于Robots的用法还有很多很多,推来客SEO 在这里没法一一列举出来,如果大家对Robots还有疑问。请大家访问“推来客SEO博客”。在这里,我会给大家量解答大家的疑问。另外我也会在自己的博客里面分享更多SEO相关的知识,希望能够对大家SEO的道路有一点帮助。

我们专注高端建站,小程序开发、软件系统定制开发、BUG修复、物联网开发、各类API接口对接开发等。十余年开发经验,每一个项目承诺做到满意为止,多一次对比,一定让您多一份收获!

本文章出于推来客官网,转载请表明原文地址:https://www.tlkjt.com/cdseo/2868.html
推荐文章

在线客服

扫码联系客服

3985758

回到顶部