Đăng nhập

Robots.txt là gì? Cách sử dụng đúng để tối ưu SEO cho website

Tìm hiểu robots.txt là gì, cách hoạt động và best practices để tối ưu crawl budget, hạn chế trùng lặp và tăng hiệu quả index. Kèm ví dụ, checklist, FAQ.
Robots.txt là gì? Cách sử dụng đúng để tối ưu SEO cho website

Robots.txt là gì?

Robots.txt là một tệp văn bản đặt tại thư mục gốc của website, ví dụ: https://example.com/robots.txt. Nó giống như “nội quy cổng” cho các bot tìm kiếm: chỗ nào được vào, chỗ nào nên né.

  • User-agent: chỉ định bot nào (Googlebot, Bingbot…). Dấu * nghĩa là tất cả.

  • Disallow: những đường dẫn không cho phép crawl.

  • Allow: ngoại lệ được phép trong vùng đang bị chặn chung.

  • Sitemap: để bot tìm nhanh danh sách trang quan trọng.

Note nhỏ: Các bot “ngoan” sẽ tôn trọng robots.txt. Bot xấu thì… có thể lơ đẹp.

Robots.txt hoạt động thế nào?

Khi bot ghé website, bước đầu gần như luôn là đọc robots.txt để biết đi đâu trước. Từ đó, bot quyết định crawl các URL nào, bỏ qua gì, và có thể ghé qua sitemap để khám phá sâu hơn.

Vì sao robots.txt quan trọng cho SEO?

  1. Tránh index trang không có giá trị SEO

  • Ví dụ: /admin/, /cart/, /checkout/, /thank-you/.

  1. Tối ưu crawl budget

  • Với site lớn, hướng bot vào nội dung “có ăn” giúp tăng tần suất crawl và index hiệu quả.

  1. Giảm trùng lặp

  • Hạn chế các URL có tham số rác, đường dẫn lọc, session… gây loãng index.


Cú pháp cơ bản và ví dụ

Ví dụ tối thiểu (không chặn gì):

User-agent: *
Disallow:

Ví dụ kiểm soát truy cập + khai báo sitemap:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Allow: /blog/
Sitemap: <https://example.com/sitemap.xml>

Chỉ định theo từng bot:

User-agent: Googlebot
Disallow: /private/

User-agent: Bingbot
Disallow: /temp/

Mở ngoại lệ trong thư mục bị chặn:

User-agent: *
Disallow: /assets/
Allow: /assets/styles/main.css

Chặn theo mẫu tham số:

User-agent: *
Disallow: /*?ref=
Disallow: /*utm_*

Best practices (để đỡ “tá hoả” về sau)

  • Khai báo Sitemap trong robots.txt, cực kì đáng giá.

  • Chỉ chặn những gì thực sự không cần crawl. Đừng “mạnh tay” quá.

  • Cấu trúc thư mục rõ ràng để viết Allow/Disallow dễ, ít nhầm.

  • Dùng Allow để mở đúng ngoại lệ cần thiết.

  • Thử nghiệm trên staging nếu có. Khi đẩy production, kiểm tra lại ngay.

  • Phân biệt đúng: noindex kiểm soát index ở cấp trang. Disallow kiểm soát crawl.


Lỗi phổ biến (tránh nhé!)

  • Chặn nhầm thư mục cần SEO như /blog/, /product/, /category/.

  • Dùng robots.txt để bảo mật. Không có tác dụng với người dùng hoặc bot xấu.

  • Quên bỏ chặn toàn site sau khi kết thúc giai đoạn phát triển.

  • Chặn CSS/JS khiến Google render không đúng, đánh giá chất lượng tụt.


Checklist triển khai nhanh

  • [ ] Liệt kê khu vực công khai cần SEO và khu vực nội bộ cần chặn

  • [ ] Xác định tham số URL gây trùng lặp cần hạn chế

  • [ ] Viết robots.txt theo nguyên tắc “chặn tối thiểu cần thiết”

  • [ ] Thêm dòng Sitemap: <https://domain/sitemap.xml>

  • [ ] Đẩy file lên /robots.txt

  • [ ] Kiểm tra lại tại https://example.com/robots.txt

  • [ ] Dùng Google Search Console để theo dõi lỗi và phạm vi index


Câu hỏi thường gặp (FAQ)

Robots.txt có bắt buộc mọi bot phải tuân thủ không?

Không. Đây là “giao ước lịch sự” giữa site và bot. Bot xấu có thể bỏ qua.

Noindex và Disallow khác nhau thế nào?

  • noindex: yêu cầu không lập chỉ mục trang.

  • Disallow: ngăn bot crawl. Có thể kết hợp tùy mục tiêu.

Có nên chặn trang tìm kiếm nội bộ?

Thường là nên, vì các trang này dễ mỏng nội dung hoặc trùng lặp.

Có cần chặn file tĩnh (CSS/JS)?

Không nên, trừ khi có lý do đặc biệt. Google cần render đúng để đánh giá trang.


Kết luận

Robots.txt tuy nhỏ nhưng quyền lực. Viết đúng, test kỹ là bạn đã “dọn đường” cho bot vào đúng chỗ, index đúng trang, và hạn chế rủi ro SEO kỹ thuật. Nếu đang chưa chắc robots.txt của bạn “ổn áp” chưa, kiểm tra lại ngay nhé!

Bài tiếp theo

GSAP miễn phí 100%: Thư viện animation hàng đầu

Để lại bình luận của bạn

Email của bạn sẽ không được công khai. Các trường bắt buộc được đánh dấu *

Đăng ký nhận bản tin

Đăng ký bản tin email để nhận những bài viết mới nhất trực tiếp trong hộp thư của bạn.
Cảm hứng mỗi ngày, nói không với spam ✨