Có nên cài file robots.txt cho website
File robots.txt là nơi để quản trị website cấu hình hướng dẫn robot web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ.
Show
Trong thực tế, các tệp robots.txt cho biết liệu một số user-agent (công cụ thu thập dữ liệu web) có thể hoặc không thể thu thập dữ liệu các phần của website. Các hướng dẫn này được chỉ định bởi cú pháp không cho phép(Disallow) các user-agents thu thập dữ liệu. File robots.txt là gì?robots.txt là một file văn bản để quan trị website khai báo cho phép hay không cho phép các user-agent của search engine (BOT) thu thập dữ liệu(crawl) trong tài nguyên một website. Tệp này cũng dùng để ngăn trình thu thập dữ liệu request trang web của bạn quá nhiều, nó không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex (ngăn lập chỉ mục) với thẻ meta robots hoặc bảo vệ trang của bạn bằng mật khẩu cho một trang web. Tại sao bạn cần robots.txt?Các tệp robots.txt kiểm soát truy cập trình thu thập thông tin đến các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của bạn, có một số tình huống trong đó tệp robots.txt có thể rất tiện dụng. Một số trường hợp sử dụng phổ biến bao gồm:
Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng(User-agent), bạn hoàn toàn không cần một tệp robots.txt. Định dạng cơ bản:
2 dòng này được coi là một tệp robots.txt hoàn chỉnh - mặc dù một tệp robots có thể chứa nhiều dòng User-agent và chỉ thị của người dùng (nghĩa là Disallow(không cho phép), Allown(cho phép), thu thập dữ liệu trễ, v.v.). Trong file robots.txt, mỗi bộ chỉ thị User-agent xuất hiện dưới dạng một bộ riêng biệt, được phân tách bằng dấu ngắt dòng: Thiết lập 3 bộ user-agent riêng biệt cách nhau bởi 1 dòng trống Đây là một ví dụ: Msnbot, Discobot và Slurp đều được gọi cụ thể, vì vậy những user-agent đó sẽ chỉ chú ý đến các chỉ thị trong các phần của tệp robots.txt. Tất cả các User-agent khác sẽ tuân theo các chỉ thị trong nhóm User-agent: *.
Các user-agent phổ biến của công cụ tìm kiếmTại đây, một danh sách các user-agent bạn có thể sử dụng trong tệp robots.txt của mình để khớp với các công cụ tìm kiếm được sử dụng phổ biến nhất: Ví dụ robots.txt:Dưới đây là một số ví dụ về robots.txt hoạt động cho trang web www.example.com: URL tệp robots.txt: www.example.com/robots.txt Chặn tất cả các trình thu thập dữ liệu web từ tất cả nội dung
Sử dụng cú pháp này (Disallow: /) trong tệp robots.txt sẽ cho tất cả các trình thu thập dữ liệu web không thu thập dữ liệu bất kỳ trang nào trên www.example.com, bao gồm cả trang chủ. Cho phép tất cả các trình thu thập dữ liệu web truy cập vào tất cả nội dung
Sử dụng cú pháp này trong tệp robots.txt sẽ cho trình thu thập dữ liệu web thu thập dữ liệu tất cả các trang trên www.example.com, bao gồm cả trang chủ. Chặn một trình thu thập dữ liệu web cụ thể từ một thư mục cụ thể
Cú pháp này chỉ yêu cầu trình thu thập thông tin của Google (User-agent: Googlebot) không thu thập dữ liệu bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subipes ... một trình thu thập thông tin web cụ thể từ một trang web cụ thể
Cú pháp này chỉ cho trình thu thập thông tin của Bing (User-agent: Bingbot) để tránh thu thập thông tin trang cụ thể tại www.example.com/example-subipes ... robots.txt có hoạt động không? Công cụ tìm kiếm có hai công việc chính:
Để thu thập dữ liệu trang web, công cụ tìm kiếm theo liên kết để đi từ trang này sang trang khác - cuối cùng, thu thập dữ liệu qua nhiều tỷ liên kết và trang web. Hành vi thu thập thông tin này đôi khi được gọi là spidering. Sau khi đến một trang web nhưng trước khi xem nó, trình thu thập thông tin tìm kiếm sẽ tìm tệp robots.txt. Nếu nó tìm thấy một, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm nên thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn thêm hành động của trình thu thập thông tin trên trang web cụ thể này. Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web. Một số lưu ý khác về robots.txt phải biết:
Các thuật ngữ/cú pháp dùng trong robots.txtCú pháp robots.txt có thể được coi là ngôn ngữ của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn có thể gặp trong một tệp robots.txt Chúng bao gồm:
Khớp mẫuKhi nói đến các URL thực tế để chặn hoặc cho phép, các tệp robots.txt có thể khá phức tạp vì chúng cho phép sử dụng khớp mẫu để bao quát một loạt các tùy chọn URL có thể. Google và Bing đều sử dụng hai biểu thức chính quy có thể được sử dụng để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự này là dấu hoa thị (*) và ký hiệu đô la ($).
Google cung cấp một danh sách tuyệt vời các cú pháp và ví dụ phù hợp với mẫu có thể có ở đây . robots.txt ở đâu trên một trang web?Bất cứ khi nào các công cụ tìm kiếm và các robot thu thập dữ liệu đến một trang web (như trình thu thập thông tin của Facebook , Facebot) đều tìm kiếm tệp robots.txt. Nhưng, họ sẽ chỉ tìm tệp đó ở một nơi cụ thể: thư mục gốc (thường là tên miền gốc hoặc trang chủ của bạn). Nếu một user-agent truy cập seothetop.com/robots.txt và không tìm thấy tệp robots ở đó, nó sẽ cho rằng trang web không có và tiến hành thu thập mọi thứ trên trang (và thậm chí trên toàn bộ trang web). Ngay cả khi trang robots.txt tồn tại tại, ví dụ: example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không được phát hiện bởi các user-agent và do đó trang web sẽ được xử lý như thể nó không có tập tin robots nào cả. Để đảm bảo tìm thấy tệp robots.txt của bạn, hãy luôn đưa nó vào thư mục chính hoặc tên miền gốc. Kiểm tra xem bạn có tệp robots.txt khôngKhông chắc chắn nếu bạn có tệp robots.txt? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Chẳng hạn, tệp robots của Seothetop được đặt tại seothetop.com/robots.txt. Nếu không có trang .txt xuất hiện, bạn hiện không có trang robots.txt (trực tiếp). Thực hành tốt nhất về SEO
robots.txt vs meta robot vs x-robotSự khác biệt giữa ba loại hướng dẫn robot này là gì? Trước hết, robots.txt là một tệp văn bản thực tế, trong khi meta và x-robot là các chỉ thị meta. Chúng phục vụ các chức năng khác nhau. robots.txt ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi đó meta và x-robot có thể ra lệnh cho hành vi lập chỉ mục từng trang riêng lẻ. Hạn chế của meta robots
Thiết lập file robots đúng cách là cần thiết trong Technical SEO, để tối ưu các thành phần quan trọng khác của SEO kỹ thuật tham khảo: 17 yếu tố SEO kỹ thuật quan trọng và cách tối ưu |