一分钟搞懂 robots.txt
什么是 robots.txt?
robots.txt 是网站的"门卫",用来告诉搜索引擎:
- 这里能进!欢迎光临!
- 这里禁止入内!请绕行!
简单来说,它控制着搜索引擎的"爬虫"(Spider/Bot)是否可以访问你的网站某些页面。
robots.txt 放哪里?
必须放在 网站根目录,例如:
https://www.yourwebsite.com/robots.txt
放错地方?爬虫会假装没看到!
robots.txt 基础语法
一个 robots.txt 文件一般长这样:
User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.yourwebsite.com/sitemap.xml
语法解析:
User-agent: *
适用于所有爬虫。Disallow: /admin/
禁止爬虫访问/admin/
目录。Allow: /public/
允许访问/public/
目录。Sitemap:
指定网站地图,帮助爬虫更好地索引内容。
常见写法案例
1. 禁止所有爬虫访问整个网站
User-agent: *
Disallow: /
⚠️ 慎用!你的网站会完全消失在搜索引擎中!
2. 允许所有爬虫访问所有内容
User-agent: *
Disallow:
默认情况下一般无需 robots.txt,就等于这个规则。
3. 只允许 Google 爬虫访问,禁止其他爬虫
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
4. 禁止爬虫访问某些文件类型
User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$
*
表示匹配任意内容,$
表示匹配结尾。
5. 禁止特定爬虫
User-agent: Baiduspider
Disallow: /
这样百度蜘蛛就进不来了!
robots.txt 进阶技巧
1. 通配符的使用
*
代表任意字符,例如Disallow: /private*
,表示禁止/private
开头的所有路径。$
代表结尾匹配,例如Disallow: /*.jpg$
只禁止.jpg
结尾的文件。
2. Sitemap 让爬虫更聪明
Sitemap: https://www.yourwebsite.com/sitemap.xml
搜索引擎会更容易找到你的网站内容!
robots.txt 不能做什么?
- 不能绝对保证内容不被索引(别人可以直接链接到页面)。
- 不能用于安全目的(不要把敏感数据放在 robots.txt)。
总结
Disallow:
阻止爬虫访问。Allow:
允许爬虫访问。Sitemap:
帮助爬虫更好地索引网站。- robots.txt 只是建议,爬虫不一定听话!
快去检查你的 robots.txt,别让它挡错了爬虫!
生成该文档的提示词:
“写一个 Markdown 文件,向初学者解释 robots.txt 的作用。包含以下内容:
1. 介绍 robots.txt,描述它作为搜索引擎爬虫的“门卫”,控制是否允许访问网站的某些页面。
2. 说明 robots.txt 文件应该放在网站根目录(如:https://www.yourwebsite.com/robots.txt)。
3. 介绍 robots.txt 的基本语法,提供示例:
User-agent: *
适用于所有爬虫。Disallow:
用于禁止某些路径。Allow:
用于允许访问某些路径。Sitemap:
用于指定网站地图位置。
4. 提供常见用法示例:
- 禁止所有爬虫访问整个网站。
- 允许所有爬虫访问所有内容。
- 只允许 Google 爬虫访问,禁止其他爬虫。
- 禁止特定文件类型的访问(如
.pdf
和.zip
)。 - 禁止特定爬虫(如 Baiduspider)。
5. 介绍进阶技巧:
- 使用通配符
*
和$
匹配路径或文件类型。 - 使用 Sitemap 提升爬虫索引效率。
6. 说明 robots.txt 无法做到的事情,包括不能确保内容不被索引或用作安全手段。
7. 总结:关键点包括 Disallow:
阻止访问、Allow:
允许访问、Sitemap:
帮助爬虫索引。并强调 robots.txt 只是建议,爬虫不一定会遵守。
让该文件易于理解,适合初学者,内容要清晰且有示例。”