作为站长/博主,你是否遇到过这些糟心情况❓
👉 后台页面被搜索引擎公开收录…
👉 重复内容抢走核心页面的流量…
👉 服务器被爬虫频繁访问,拖慢网站速度…
其实,只要一个小小的 robots.txt 文件,就能轻松解决这些问题!
它是放在网站根目录的纯文本文件,相当于给搜索引擎爬虫的 “访问须知” ,告诉它们:
✅ 哪些页面可以抓取
❌ 哪些页面必须避开
既能保护敏感内容,又能引导爬虫优先抓取重要页面,提升收录效率!
User-agent:指定规则对谁生效(* 代表所有爬虫,也可单独设置百度/谷歌)。
Disallow:禁止抓取的路径(例如 /admin/ 表示屏蔽后台目录)。
Allow:允许抓取的路径(优先级高于 Disallow)。
通配符 * :匹配任意字符(例如 /*?* 可屏蔽所有带参数的动态页面)。
通配符 $ :匹配URL结尾(例如 /*.pdf$ 可屏蔽所有PDF文件)。
新建文件:创建一个纯文本文件,严格命名为 robots.txt(全小写,无多余后缀!)。
编写规则:根据需求选择模板(见下文),修改其中的路径。
上传文件:通过FTP或网站后台,将文件上传到 网站根目录(放错位置无效!)。
验证效果:浏览器访问 你的域名/robots.txt,能打开说明上传成功!
⚠️ 文件名错误:必须是 robots.txt,不是 Robot.txt 或 robots.txt.txt!
⚠️ 路径格式:/admin/(带斜杠)屏蔽整个目录;/admin(无斜杠)可能屏蔽所有包含 “admin” 的URL。
⚠️ 语法顺序:Allow 需写在 Disallow 之前才生效(例如先允许子目录,再禁止父目录)。
⚠️ 勿屏蔽CSS/JS:否则搜索引擎无法识别页面样式和功能,影响收录!
⚠️ 非万能工具:Robots.txt 只能规范正规爬虫,敏感内容建议额外设置密码保护!
设置好后记得定期审计,比如网站改版后更新路径,避免无效规则影响SEO~
相关推荐

