Robots.txt là gì?
Robots.txt là một file văn bản nằm trong thư mục gốc của website (ví dụ: https://example.com/robots.txt). Nó đóng vai trò như một hướng dẫn cho các công cụ tìm kiếm (như Googlebot, Bingbot...) về việc nên hoặc không nên truy cập vào phần nào của website.
Mặc dù nó không thể bắt buộc bot tuân theo, nhưng hầu hết các bot “có trách nhiệm” đều sẽ đọc và làm theo nội dung của file này.
Robots.txt hoạt động như thế nào?
Khi một bot (robot) của công cụ tìm kiếm truy cập vào website, bước đầu tiên là nó sẽ tìm file robots.txt để biết “đi đâu, tránh đâu”.
Nội dung trong file thường bao gồm:
- User-agent: Chỉ định loại bot (Googlebot, Bingbot, … hoặc dấu * để áp dụng cho tất cả).
- Disallow: Đường dẫn không cho bot truy cập.
- Allow: Đường dẫn được phép truy cập (thường dùng trong trường hợp có thư mục bị chặn toàn bộ nhưng vẫn muốn bot index một phần bên trong).
Tại sao robots.txt quan trọng trong SEO?
Dưới đây là những lý do khiến robots.txt trở thành một phần không thể thiếu trong SEO kỹ thuật:
1. Ngăn index những trang không cần thiết
Bạn có thể chặn bot truy cập vào các trang như:
- /admin/
- /cart/
- /thank-you/ Những trang này không có giá trị SEO và không nên xuất hiện trên kết quả tìm kiếm.
2. Tối ưu crawl budget (ngân sách thu thập dữ liệu)
Google không crawl toàn bộ website mỗi lần. Nếu bạn có một site lớn, robots.txt giúp hướng bot vào những nội dung quan trọng, tránh lãng phí tài nguyên.
3. Giảm nội dung trùng lặp
Bạn có thể chặn các URL có tham số không cần thiết, giúp tránh tình trạng nội dung trùng lặp gây ảnh hưởng đến thứ hạng.
Ví dụ file robots.txt và cách hiểu
Ví dụ file robots.txt cơ bản:
User-agent: *
Disallow: /admin/
Allow: /public/
Giải thích:
- User-agent: * → áp dụng cho tất cả các bot.
- Disallow: /admin/ → cấm bot truy cập thư mục /admin/.
- Allow: /public/ → cho phép bot vào thư mục /public/.
Bạn có thể viết riêng cho từng loại bot, ví dụ:
User-agent: Googlebot
Disallow: /private/
Lưu ý quan trọng khi sử dụng robots.txt
Không dùng để bảo mật
Robots.txt chỉ ngăn bot truy cập, nhưng không ngăn người dùng truy cập thủ công. Nếu bạn cần bảo vệ nội dung nhạy cảm, hãy dùng xác thực hoặc password, không dựa vào robots.txt.
Kiểm tra với Google Search Console
Google cung cấp công cụ để kiểm tra xem file robots.txt của bạn có hoạt động đúng không. Hãy sử dụng để tránh chặn nhầm nội dung quan trọng.
Đừng chặn trang cần SEO
Một sai lầm phổ biến là chặn nhầm các trang như /blog/ hoặc /product/, khiến Google không thể index, ảnh hưởng trực tiếp đến SEO.
Kết luận
Robots.txt là một công cụ đơn giản nhưng có ảnh hưởng lớn đến khả năng index và xếp hạng của website. Việc hiểu rõ và sử dụng đúng robots.txt sẽ giúp bạn:
- Kiểm soát nội dung được thu thập
- Tối ưu hóa tài nguyên của công cụ tìm kiếm
- Tránh lỗi SEO kỹ thuật gây mất thứ hạng
👉 Hãy kiểm tra ngay file robots.txt của website bạn và tối ưu nó để đảm bảo mọi thứ đang hoạt động đúng hướng!