一分钟搞懂 robots.txt

什么是 robots.txt？

robots.txt 是网站的"门卫"，用来告诉搜索引擎：

简单来说，它控制着搜索引擎的"爬虫"（Spider/Bot）是否可以访问你的网站某些页面。

必须放在 网站根目录，例如：

https://www.yourwebsite.com/robots.txt

放错地方？爬虫会假装没看到！

一个 robots.txt 文件一般长这样：

User-agent: *
Disallow: /admin/
Allow: /public/
Sitemap: https://www.yourwebsite.com/sitemap.xml

User-agent: *
Disallow: /

⚠️ 慎用！你的网站会完全消失在搜索引擎中！

User-agent: *
Disallow:

默认情况下一般无需 robots.txt，就等于这个规则。

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$

* 表示匹配任意内容，$ 表示匹配结尾。

User-agent: Baiduspider
Disallow: /

这样百度蜘蛛就进不来了！

Sitemap: https://www.yourwebsite.com/sitemap.xml

搜索引擎会更容易找到你的网站内容！

快去检查你的 robots.txt，别让它挡错了爬虫！

“写一个 Markdown 文件，向初学者解释 robots.txt 的作用。包含以下内容：

1. 介绍 robots.txt，描述它作为搜索引擎爬虫的“门卫”，控制是否允许访问网站的某些页面。

2. 说明 robots.txt 文件应该放在网站根目录（如：https://www.yourwebsite.com/robots.txt）。

3. 介绍 robots.txt 的基本语法，提供示例：

4. 提供常见用法示例：

5. 介绍进阶技巧：

6. 说明 robots.txt 无法做到的事情，包括不能确保内容不被索引或用作安全手段。

7. 总结：关键点包括 Disallow: 阻止访问、Allow: 允许访问、Sitemap: 帮助爬虫索引。并强调 robots.txt 只是建议，爬虫不一定会遵守。

让该文件易于理解，适合初学者，内容要清晰且有示例。”