robots.txt怎么写?百度爬虫抓取配置教程
新站一上线,有人急着在 robots.txt 里写满规则,结果把整站拦在门外,百度爬虫进不来。也有人从来不写,后台路径被随便抓取。本文讲 robots.txt 怎么写才适合百度爬虫(Baiduspider),新手能直接套用。
说明:robots.txt 管的是抓取许可,不保证收录;收录还看内容质量与站点状态。
一、robots.txt 是干什么的?
它放在网站根目录(如 https://你的域名/robots.txt),告诉搜索引擎爬虫:
- 哪些路径允许抓取;
- 哪些路径禁止抓取;
- Sitemap 文件在哪里(可选,但强烈建议写)。
对百度来说,常见爬虫标识是 Baiduspider。配置好后,可配合
百度站长工具怎么用里的抓取诊断、Sitemap 提交一起检查。
二、新站推荐模板(可直接改域名)
User-agent: *
Allow: /
User-agent: Baiduspider
Allow: /
Sitemap: https://www.seohut.cn/sitemap_index.xml
备案前用 IP 建站时:把 Sitemap 一行先改成你当前能访问的地址,或暂时注释;备案通过、域名与 Rank Math 生成 Sitemap 后再改为正式域名(见 AGENTS.md 备案清单)。
三、常用指令怎么理解
| 写法 | 含义 | 注意 |
|---|---|---|
User-agent: Baiduspider |
只对百度爬虫生效 | 大小写需准确 |
Allow: / |
允许抓取全站 | 新站默认建议开放 |
Disallow: /wp-admin/ |
禁止抓取后台 | WordPress 常见,减少无效抓取 |
Sitemap: … |
声明站点地图位置 | 与站长平台提交地址一致 |
四、WordPress 站点怎么配
- Rank Math:SEO 设置里可编辑 robots.txt,保存后访问
/robots.txt看是否生效。 - 物理文件:若根目录已有
robots.txt,以实际返回内容为准(插件与文件不要互相矛盾)。 - 不要对新站写
Disallow: /再忘记改——会导致整站不可抓取。
若发现长期不收录,先查是否误拦爬虫,再结合
百度不收录怎么办逐项排查,不要只改 robots 一项。
五、3 个常见错误
- 新站全封闭:测试环境写了
Disallow: /,上线忘记删。 - Sitemap 地址错了:仍是 IP 或 http,与正式 https://www 域名不一致。
- 以为 robots 等于收录:Allow 只代表可抓取,收录还需内容与站点信任。
robots 与站内优化、TDK、内链同属
百度SEO怎么做里的基础环节,建议一起做,而不是单改一个文件。
六、发布前检查清单
- 浏览器打开
/robots.txt能访问、无 404; - 未误用
Disallow: /; Baiduspider规则符合预期;- Sitemap 行与 Rank Math、站长平台一致(备案后更新域名)。
后期可拓展方向
(权重提升后可补充:不同目录分级 Disallow 案例、抓取预算与日志分析、与 noindex 标签配合、多子域 robots 拆分示例。)
常见问题(FAQ)
robots.txt 必须写吗?
不强制,但建议写。至少声明 Sitemap,并对 WordPress 后台等路径做 Disallow,减少无效抓取。
写了 Allow 百度就一定会收录吗?
不一定。robots 只控制抓取权限;是否收录取决于页面质量、重复度、站点整体状况等。
Disallow 和 noindex 有什么区别?
Disallow 在 robots.txt 里限制爬虫进入路径;noindex 在页面 Meta 里要求不收录。需要「不收录但可抓取分析」时用 noindex,不要只靠 Disallow 混用搞混。
修改 robots.txt 后多久生效?
百度会重新抓取 robots,通常几天内更新理解。可在百度搜索资源平台用抓取诊断查看是否能访问关键 URL。