一分钟搞懂 robots.txt


什么是 robots.txt?

robots.txt 是网站的"门卫",用来告诉搜索引擎:


简单来说,它控制着搜索引擎的"爬虫"(Spider/Bot)是否可以访问你的网站某些页面。


robots.txt 放哪里?

必须放在 网站根目录,例如:

https://www.yourwebsite.com/robots.txt

放错地方?爬虫会假装没看到!


robots.txt 基础语法

一个 robots.txt 文件一般长这样:

User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.yourwebsite.com/sitemap.xml

语法解析:


常见写法案例


1. 禁止所有爬虫访问整个网站

User-agent: *
Disallow: /

⚠️ 慎用!你的网站会完全消失在搜索引擎中!


2. 允许所有爬虫访问所有内容

User-agent: *
Disallow:

默认情况下一般无需 robots.txt,就等于这个规则。


3. 只允许 Google 爬虫访问,禁止其他爬虫

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

4. 禁止爬虫访问某些文件类型

User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$

* 表示匹配任意内容,$ 表示匹配结尾。


5. 禁止特定爬虫

User-agent: Baiduspider
Disallow: /

这样百度蜘蛛就进不来了!


robots.txt 进阶技巧


1. 通配符的使用


2. Sitemap 让爬虫更聪明

Sitemap: https://www.yourwebsite.com/sitemap.xml

搜索引擎会更容易找到你的网站内容!


robots.txt 不能做什么?


总结


快去检查你的 robots.txt,别让它挡错了爬虫!




生成该文档的提示词:

“写一个 Markdown 文件,向初学者解释 robots.txt 的作用。包含以下内容:

1. 介绍 robots.txt,描述它作为搜索引擎爬虫的“门卫”,控制是否允许访问网站的某些页面。

2. 说明 robots.txt 文件应该放在网站根目录(如:https://www.yourwebsite.com/robots.txt)。

3. 介绍 robots.txt 的基本语法,提供示例:

4. 提供常见用法示例:

5. 介绍进阶技巧:

6. 说明 robots.txt 无法做到的事情,包括不能确保内容不被索引或用作安全手段。

7. 总结:关键点包括 Disallow: 阻止访问、Allow: 允许访问、Sitemap: 帮助爬虫索引。并强调 robots.txt 只是建议,爬虫不一定会遵守。


让该文件易于理解,适合初学者,内容要清晰且有示例。”