Trình kiểm tra Robots.txt

Kiểm tra xem URL có thể thu thập dữ liệu theo quy tắc robots.txt của bạn không

Chia sẻ:

Kiểm tra Robots.txt của bạn

Kiểm tra Robots.txt trước khi triển khai

Xác minh quy tắc thu thập dữ liệu hoạt động chính xác để tránh vô tình chặn các trang quan trọng khỏi công cụ tìm kiếm

Trước khi tải lên tệp robots.txt, điều quan trọng là kiểm tra xem quy tắc của bạn có hoạt động như mong đợi không. Một sai sót duy nhất có thể chặn Google truy cập toàn bộ trang web hoặc các phần quan trọng. Công cụ này cho phép bạn dán nội dung robots.txt và kiểm tra nhiều URL.

Tại sao phải kiểm tra Robots.txt?

Tệp robots.txt sử dụng cú pháp đặc biệt với ký tự đại diện và mẫu có thể khó cấu hình chính xác. Kiểm tra đảm bảo quy tắc Allow và Disallow hoạt động đúng cho các tác nhân người dùng khác nhau. Điều này ngăn chặn các lỗi phổ biến như vô tình chặn tệp CSS/JS, toàn bộ thư mục hoặc sơ đồ trang web.

Tính năng

Kiểm tra nhiều URL

Kiểm tra nhiều URL cùng lúc theo quy tắc robots.txt của bạn.

Chọn User-Agent

Kiểm tra quy tắc cho bot cụ thể như Googlebot, Bingbot hoặc tất cả bot (*).

Kết quả tức thì

Nhận phản hồi ngay lập tức về việc URL được phép hay bị chặn.

Phía máy khách

Mọi kiểm tra diễn ra trong trình duyệt. Nội dung robots.txt không bao giờ được gửi đi đâu cả.

Mẹo kiểm tra

  • Luôn kiểm tra với tác nhân người dùng cụ thể bạn đang nhắm mục tiêu (vd: Googlebot, Bingbot).
  • Kiểm tra các trường hợp biên như URL có tham số truy vấn (?page=2) và dấu gạch chéo cuối.
  • Xác minh rằng tệp CSS, JS và hình ảnh không bị chặn vô tình.
  • Kiểm tra URL sơ đồ trang web để đảm bảo có thể truy cập.
  • Kiểm tra rằng trang quản trị, đăng nhập và riêng tư được chặn đúng cách.
  • Nhớ rằng quy tắc robots.txt phân biệt chữ hoa chữ thường cho đường dẫn.

Câu hỏi thường gặp

Cơ chế khớp robots.txt hoạt động như thế nào?

Robots.txt sử dụng khớp dựa trên đường dẫn. Disallow: /private/ chặn tất cả URL bắt đầu bằng /private/. Ký tự đại diện * khớp với bất kỳ chuỗi ký tự nào, và $ neo khớp vào cuối URL.

Allow có ưu tiên hơn Disallow không?

Triển khai của Google ưu tiên quy tắc cụ thể hơn. Nếu cả Allow và Disallow đều khớp, mẫu dài hơn (cụ thể hơn) thắng. Nếu cùng độ dài, Allow được ưu tiên.

robots.txt có phân biệt chữ hoa chữ thường không?

Trường User-agent không phân biệt chữ hoa chữ thường, nhưng khớp đường dẫn (Allow/Disallow) có phân biệt. Disallow: /Private/ sẽ không chặn /private/.