Robots.txt测试器

根据robots.txt规则测试URL是否可爬取

分享:

测试您的Robots.txt

部署前测试您的Robots.txt

验证爬取规则是否正确运行,防止意外阻止重要页面被搜索引擎访问

在上传robots.txt文件之前,测试规则是否按预期工作至关重要。一个错误可能会阻止Google访问您的整个网站或重要部分。此工具允许您粘贴robots.txt内容并测试多个URL。

为什么要测试Robots.txt?

robots.txt文件使用包含通配符和模式的特定语法,可能难以正确配置。测试确保您的Allow和Disallow规则对不同的用户代理正确工作。这可以防止常见错误,如意外阻止CSS/JS文件、整个目录或站点地图。

功能

多URL测试

同时针对robots.txt规则测试多个URL。

用户代理选择

为特定机器人(如Googlebot、Bingbot)或所有机器人(*)测试规则。

即时结果

即时获取URL是被允许还是被阻止的反馈。

客户端处理

所有测试在您的浏览器中进行。robots.txt内容不会发送到任何地方。

测试技巧

  • 始终使用您正在定位的特定用户代理进行测试(例如Googlebot、Bingbot)。
  • 测试边缘情况,如带有查询参数(?page=2)和尾部斜杠的URL。
  • 验证CSS、JS和图片文件未被意外阻止。
  • 测试站点地图URL以确保其可访问。
  • 检查管理员、登录和私有页面是否正确阻止。
  • 请记住robots.txt规则对路径是区分大小写的。

常见问题

robots.txt匹配如何工作?

Robots.txt使用基于路径的匹配。Disallow: /private/ 阻止所有以 /private/ 开头的URL。通配符 * 匹配任何字符序列,$ 将匹配锚定到URL末尾。

Allow是否优先于Disallow?

Google的实现优先考虑更具体的规则。如果Allow和Disallow都匹配,更长(更具体)的模式获胜。如果长度相同,Allow优先。

robots.txt区分大小写吗?

User-agent字段不区分大小写,但路径匹配(Allow/Disallow)区分大小写。Disallow: /Private/ 不会阻止 /private/。