我们专注互联网高端深度定制

2023我们与您携手共赢,改变企业互联网的影响力!

Robots协议用法详解及robots.txt问题汇总

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,Robots.txt 对于任何一个从事SEO优化工作的人都是至关重要,因为透过 Robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,方便搜索引擎抓取网站内容,设置网站地图连接,方便引导蜘蛛爬取页面。

Robots协议用法详解及 robots.txt 问题汇总

(1)为什么设置 Robots.txt?

在进行SEO操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。

(2)一些常见的问题和知识点

蜘蛛在发现一个网站的时候,第一步是抓取网站的 Robots.txt 文件(当然官方上是这么说的,有时候也会出现不遵守的情况);

建议所有的网站都要设置 Robots.txt 文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的 robots.txt 文件;

(3)在robots.txt 文件中设置网站地图

你可以在 robots.txt 中添加网站的地图,告诉蜘蛛网站地图所在的地址。

(4)Robots.txt 的顺序

在蜘蛛协议中,Disallow 与 Allow 是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。

引擎蜘蛛程序会根据第一个匹配成功的 Allow 或 Disallow 行确定是否访问某个 URL,一个例子可以让你更清楚明白:

User-agent: * 2.Allow: /seojc/bbs 3.Disallow: /seojc/ 这个情况下,蜘蛛 /seojc/bbs 目录可以正常抓取,但 /seojc/ 目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分 url。

我们对调下位置观察一下。

User-agent: * 2.Disallow: / 根目录下的文件夹/ 3.Allow: /seojc/bbs /seojc/ 目录出现在第一行,禁止抓取目录下的所有文件,那么第二行的 Allow 就无效,因为第一行中已经禁止抓取seojc目录下的所有文件,而bbs目录正好位于seowhy目录下。因此匹配不成功。

(5)Robots.txt路径问题

在蜘蛛协议中,Allow 和 Disallow 后面可以跟两种路径形式,即绝对链接、相对链接。绝对链接就是完整的 URL 形式,而相对链接只针对根目录。这是重点记住。

(6)斜杠问题

Disallow: /seojc 表示禁止抓取 seoic 这个目录下的所有文件,如:seojc.1.html、seojc/rmjc.php 都不允许抓取;

Disallow: /seojc/ 表示禁止抓取 seojc 这个目录下的文件,即允许抓取 seojc.1.html,但是不允许抓取 seojc/rmjc.php。

免责声明

本文章部分图片素材及文字内容等均来源于网络,仅供学习参考,如有侵犯您的版权,请联系我们,本站核实后将尽快删除或改正。

我们凭借多年的高端网站定制建设经验,坚持以“帮助中小企业改变互联网的影响力”为宗旨,累计为4000多家客户提供高品质建站服务,得到了客户的一致好评。若您有网站建设、网站改版、网站维保、域名注册、主机空间、网站ICP备案、手机网站建设、微信网站/小程序开发制作等方面的需求,请立即点击在线咨询,我们详细为您解答问题,提供最佳解决方案。项目经理在线咨询

17年不忘初心,专注网站建设

2023我们与您携手共赢,为您的企业改变互联网的影响力!

在线客服
联系方式

在线客服QQ

2256959986

联系邮箱

niaorenit@163.com

工作时间

周一至周六 9:00-17:00

官方微信公众号
线