robots.txt怎么写?百度爬虫抓取配置教程

新站一上线,有人急着在 robots.txt 里写满规则,结果把整站拦在门外,百度爬虫进不来。也有人从来不写,后台路径被随便抓取。本文讲 robots.txt 怎么写才适合百度爬虫(Baiduspider),新手能直接套用。

说明:robots.txt 管的是抓取许可,不保证收录;收录还看内容质量与站点状态。

一、robots.txt 是干什么的?

它放在网站根目录(如 https://你的域名/robots.txt),告诉搜索引擎爬虫:

  • 哪些路径允许抓取;
  • 哪些路径禁止抓取;
  • Sitemap 文件在哪里(可选,但强烈建议写)。

对百度来说,常见爬虫标识是 Baiduspider。配置好后,可配合
百度站长工具怎么用里的抓取诊断、Sitemap 提交一起检查。

二、新站推荐模板(可直接改域名)

User-agent: *
Allow: /

User-agent: Baiduspider
Allow: /

Sitemap: https://www.seohut.cn/sitemap_index.xml

备案前用 IP 建站时:Sitemap 一行先改成你当前能访问的地址,或暂时注释;备案通过、域名与 Rank Math 生成 Sitemap 后再改为正式域名(见 AGENTS.md 备案清单)。

三、常用指令怎么理解

写法 含义 注意
User-agent: Baiduspider 只对百度爬虫生效 大小写需准确
Allow: / 允许抓取全站 新站默认建议开放
Disallow: /wp-admin/ 禁止抓取后台 WordPress 常见,减少无效抓取
Sitemap: … 声明站点地图位置 与站长平台提交地址一致

四、WordPress 站点怎么配

  1. Rank Math:SEO 设置里可编辑 robots.txt,保存后访问 /robots.txt 看是否生效。
  2. 物理文件:若根目录已有 robots.txt,以实际返回内容为准(插件与文件不要互相矛盾)。
  3. 不要对新站写 Disallow: / 再忘记改——会导致整站不可抓取。

若发现长期不收录,先查是否误拦爬虫,再结合
百度不收录怎么办逐项排查,不要只改 robots 一项。

五、3 个常见错误

  • 新站全封闭:测试环境写了 Disallow: /,上线忘记删。
  • Sitemap 地址错了:仍是 IP 或 http,与正式 https://www 域名不一致。
  • 以为 robots 等于收录:Allow 只代表可抓取,收录还需内容与站点信任。

robots 与站内优化、TDK、内链同属
百度SEO怎么做里的基础环节,建议一起做,而不是单改一个文件。

六、发布前检查清单

  • 浏览器打开 /robots.txt 能访问、无 404;
  • 未误用 Disallow: /
  • Baiduspider 规则符合预期;
  • Sitemap 行与 Rank Math、站长平台一致(备案后更新域名)。

后期可拓展方向

(权重提升后可补充:不同目录分级 Disallow 案例、抓取预算与日志分析、与 noindex 标签配合、多子域 robots 拆分示例。)

常见问题(FAQ)

robots.txt 必须写吗?

不强制,但建议写。至少声明 Sitemap,并对 WordPress 后台等路径做 Disallow,减少无效抓取。

写了 Allow 百度就一定会收录吗?

不一定。robots 只控制抓取权限;是否收录取决于页面质量、重复度、站点整体状况等。

Disallow 和 noindex 有什么区别?

Disallow 在 robots.txt 里限制爬虫进入路径;noindex 在页面 Meta 里要求不收录。需要「不收录但可抓取分析」时用 noindex,不要只靠 Disallow 混用搞混。

修改 robots.txt 后多久生效?

百度会重新抓取 robots,通常几天内更新理解。可在百度搜索资源平台用抓取诊断查看是否能访问关键 URL。