robots.txt怎么写？百度爬虫抓取配置教程

2026年5月25日

新站一上线，有人急着在 robots.txt 里写满规则，结果把整站拦在门外，百度爬虫进不来。也有人从来不写，后台路径被随便抓取。本文讲 robots.txt 怎么写才适合百度爬虫（Baiduspider），新手能直接套用。

说明：robots.txt 管的是抓取许可，不保证收录；收录还看内容质量与站点状态。

一、robots.txt 是干什么的？

它放在网站根目录（如 https://你的域名/robots.txt），告诉搜索引擎爬虫：

对百度来说，常见爬虫标识是 Baiduspider。配置好后，可配合
百度站长工具怎么用里的抓取诊断、Sitemap 提交一起检查。

User-agent: *
Allow: /

User-agent: Baiduspider
Allow: /

Sitemap: https://www.seohut.cn/sitemap_index.xml

备案前用 IP 建站时：把 Sitemap 一行先改成你当前能访问的地址，或暂时注释；备案通过、域名与 Rank Math 生成 Sitemap 后再改为正式域名（见 AGENTS.md 备案清单）。

若发现长期不收录，先查是否误拦爬虫，再结合
百度不收录怎么办逐项排查，不要只改 robots 一项。

robots 与站内优化、TDK、内链同属
百度SEO怎么做里的基础环节，建议一起做，而不是单改一个文件。

（权重提升后可补充：不同目录分级 Disallow 案例、抓取预算与日志分析、与 noindex 标签配合、多子域 robots 拆分示例。）

不强制，但建议写。至少声明 Sitemap，并对 WordPress 后台等路径做 Disallow，减少无效抓取。

不一定。robots 只控制抓取权限；是否收录取决于页面质量、重复度、站点整体状况等。

Disallow 在 robots.txt 里限制爬虫进入路径；noindex 在页面 Meta 里要求不收录。需要「不收录但可抓取分析」时用 noindex，不要只靠 Disallow 混用搞混。

百度会重新抓取 robots，通常几天内更新理解。可在百度搜索资源平台用抓取诊断查看是否能访问关键 URL。