Hướng dẫn chi tiết cách tạo file robots.txt cho Website chuẩn SEO

Hướng dẫn chi tiết cách tạo file robots.txt cho Website chuẩn SEO

Robots.txt là một công cụ vô cùng hữu ích giúp bạn quản lý website của mình một cách hiệu quả. Nếu bạn sở hữu một trang web, việc tạo file Robots.txt và chỉnh sửa file robots.txt là điều cần thiết.

Nhưng bạn có biết robots.txt là gì? Nó được cấu tạo như thế nào và làm sao để tạo và chỉnh sửa một tệp robots.txt? Trong bài viết này, chúng ta sẽ cùng tìm hiểu và giải đáp những thắc mắc đó, giúp bạn có được kiến thức bổ ích và lựa chọn tốt nhất cho công cuộc quản lý website của mình.

Hướng dẫn tạo mới tệp robots.txt cho website

Hướng dẫn tạo mới tệp robots.txt cho website
Hướng dẫn tạo mới tệp robots.txt cho website

Khi bạn muốn tạo tệp robots.txt, trước tiên hãy kiểm tra xem nó đã tồn tại trên trang web của bạn chưa. Để làm điều này, hãy truy cập vào liên kết https://www.tênmiền.com/robots.txt trên trình duyệt. Nếu bạn thấy một cấu trúc tương tự như dưới đây, thì có nghĩa là tệp robots.txt đã có sẵn trên trang web của bạn.

User-agent: *
Allow: /

Nếu bạn đã có tệp robots.txt, bạn không cần phải làm mới mà chỉ cần chỉnh sửa. Tuy nhiên, nếu trang web của bạn chưa có tệp robots.txt, hãy tạo một tệp mới. Quá trình tạo tệp này không phức tạp. Điều đầu tiên bạn cần làm là sử dụng một trình soạn thảo văn bản, ví dụ như Notepad, để tạo tệp robots.txt mới. Câu lệnh cơ bản trong tệp robots.txt là:

# Nhóm 1

User-agent: Googlebot
Disallow: /nogooglebot/

# Nhóm 2

User-agent: *
Allow: /

Cấu trúc cơ bản của file robots.txt

Tệp Robots.txt có cấu trúc đơn giản và dễ hiểu. Nó sử dụng các từ khóa và giá trị đã được xác định trước để lập trình, bao gồm User-agent, Allow, Disallow, Crawl-delay và Sitemap.

User-agent: chỉ định cho các trình thu thập dữ liệu biết được những chỉ thị nào áp dụng cho chúng. Bạn có thể sử dụng dấu * để cho phép tất cả các trình thu thập thông tin hoặc chỉ định tên trình thu thập cụ thể.

Disallow: chỉ thị cho biết những tệp, URL hoặc thông tin cụ thể nào không được phép thu thập bởi các trình thu thập thông tin.

Allow: chỉ thị cho phép truy cập vào các tệp, thư mục con hoặc thông tin cụ thể. Điều này chỉ áp dụng cho Googlebot.

Crawl-delay: thời gian chờ đợi trước khi các trình tìm kiếm thu thập thông tin của trang tiếp theo trong trang web của bạn. Thông thường, thời gian này được tính bằng mili giây. Chỉ có Googlebot bị ràng buộc bởi chỉ thị này, các trình tìm kiếm khác không chịu sự ràng buộc này. Crawl-delay thường được sử dụng cho các trang web lớn với hàng ngàn trang để tránh quá tải.

Sitemap: chỉ thị này hỗ trợ các trang tìm kiếm xác định vị trí của sơ đồ XML. Tuy nhiên, ngay cả khi không có chỉ thị này trong tệp robots.txt, các trang tìm kiếm vẫn có thể tìm thấy sơ đồ XML.

Một số quy tắc lập lệnh của file robots.txt

Không cho phép thu thập dữ liệu từ toàn bộ trang web

User-agent: *
Disallow: /

Không cho phép công cụ tìm kiếm thu thập dữ liệu của một thư mục cụ thể và nội dung bên trong thư mục đó.

User-agent: *
Disallow: /calendar/
Disallow: /junk/

Cho phép công cụ tìm kiếm thu thập dữ liệu truy cập

User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /

Cho phép thu thập tất cả các trình dữ liệu ngoại trừ một trình cụ thể nào đó

User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /

Khóa truy cập vào dữ liệu của một trang web

User-agent: *
Disallow: /private_file.html

Chặn 1 bức hình từ GG hình ảnh – GG Image

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Chặn tất cả các hình ảnh từ GG Image

User-agent: Googlebot-Image
Disallow: /

Không cho phép truy cập các tệp thuộc cùng một loại

User-agent: Googlebot
Disallow: /*.gif$

Không cho phép truy cập dữ liệu nhưng cho phép hiện trình quảng cáo

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

Khớp lệnh với URL

User-agent: Googlebot
Disallow: /*.xls$

Một số lưu ý khi thiết lập chỉ lệnh trong tệp robots.txt

Việc tuân thủ những nguyên tắc này giúp cho các công cụ tìm kiếm hiểu rõ hơn về cách trang web của bạn hoạt động và giúp nâng cao khả năng hiển thị của trang web trên kết quả tìm kiếm.

1. Phân biệt chữ hoa và chữ thường:

Trong tệp robots.txt, chữ hoa và chữ thường được coi là khác nhau. Vì vậy, hãy chắc chắn rằng bạn sử dụng chính xác viết hoa và viết thường cho từng từ khóa trong chỉ lệnh. Nếu không, các công cụ tìm kiếm có thể không hiểu được ý định của bạn và có thể không thực hiện chỉ lệnh một cách chính xác.

2. Sử dụng cấu trúc câu lệnh chính xác:

Chỉ lệnh trong tệp robots.txt thường có cấu trúc đơn giản, bao gồm từ khóa “User-agent” và “Disallow”. Hãy đảm bảo rằng bạn sử dụng cấu trúc câu lệnh này một cách chính xác và không thêm bất kỳ ký tự hoặc từ không cần thiết vào câu lệnh. Một câu lệnh đúng cấu trúc sẽ giúp cho các công cụ tìm kiếm hiểu rõ hơn về ý định của bạn.

3. Tránh sử dụng ký tự đặc biệt:

Khi viết chỉ lệnh trong robots.txt, hãy tránh sử dụng bất kỳ ký tự đặc biệt nào như dấu chấm, dấu chấm than, dấu ngoặc đơn, dấu ngoặc kép, v.v. Điều này có thể gây hiểu lầm và làm cho các công cụ tìm kiếm không hiểu rõ ý định của bạn. Hãy sử dụng chỉ các ký tự alphanumerical (bảng chữ cái và số) trong các câu lệnh của bạn.

4. Mỗi câu lệnh nên viết trên một dòng:

Để tăng tính rõ ràng và dễ đọc, hãy viết mỗi câu lệnh trong tệp robots.txt trên một dòng riêng biệt. Điều này giúp cho người đọc và các công cụ tìm kiếm dễ dàng nhận biết và hiểu rõ hơn về từng câu lệnh.

5. Không sử dụng khoảng trắng phía trước câu lệnh:

Khi viết chỉ lệnh trong robots.txt, hãy đảm bảo rằng không có khoảng trắng phía trước câu lệnh. Điều này giúp cho các công cụ tìm kiếm hiểu rõ hơn về ý định của bạn và tránh nhầm lẫn. Nếu có khoảng trắng phía trước câu lệnh, các công cụ tìm kiếm có thể không hiểu được câu lệnh và không thực hiện chỉ lệnh một cách chính xác.

Đó là một số lưu ý quan trọng khi thiết lập chỉ lệnh trong tệp robots.txt. Tuân thủ những nguyên tắc này sẽ giúp cho trang web của bạn được tối ưu hóa tốt hơn trên các công cụ tìm kiếm và cải thiện khả năng hiển thị của nó trên kết quả tìm kiếm.

Các thông tin cần thiết về file Robots.txt

Robots.txt là gì?

Robots.txt là một tệp tin văn bản quan trọng nằm trong thư mục gốc của một trang web. Chức năng chính của nó là cung cấp hướng dẫn cho các công cụ tìm kiếm về cách thu thập thông tin trên trang web đó.

Tệp tin này xác định các chỉ mục và quy định cho phép hoặc không cho phép việc thu thập dữ liệu từ các tài nguyên trên trang web. Nó có thể được xem như một công cụ quản lý truy cập, giúp ngăn chặn các phương tiện truy cập lấy quá nhiều thông tin từ trang web của bạn.

Hướng dẫn chỉnh sửa tệp, file robots.txt

Để chỉnh sửa, bạn có thể sử dụng ứng dụng khách FTP để kết nối với thư mục gốc trên trang web của bạn. Tiếp theo, tải tập tin robots.txt về máy tính và mở nó bằng bất kỳ trình soạn thảo nào bạn muốn sử dụng.

Bạn có thể chỉnh sửa các lệnh theo ý muốn của mình, tuân theo cấu trúc đã nêu ở trên. Sau khi hoàn thành chỉnh sửa, đảm bảo kiểm tra xem lệnh đã được đúng cú pháp hay chưa.

Hướng dẫn kiểm tra sự hợp lệ cho robots.txt

Bạn có thể tăng cường hiệu quả và tiện lợi hơn trong việc thực hiện điều này thông qua tính năng tester của Google Search Console. Hướng dẫn thực hiện như sau:

1. Đăng nhập vào tài khoản Google Search Console.

2. Truy cập vào mục “Crawl” và chọn “robots.txt Tester“.

3. Nhấp vào nút “TEST“.

4. Nếu tệp robots.txt của bạn hợp lệ, nút test sẽ chuyển sang màu xanh và hiển thị chữ “ALLOWED“. Ngược lại, nếu tệp robots.txt chưa hợp lệ, những phần gây lỗi sẽ được đánh dấu.

5. Mặc dù bạn có thể xem nội dung của tệp robots.txt bằng cách truy cập URL robots.txt, tuy nhiên, cách tốt nhất để kiểm tra và xác nhận nó là thông qua tính năng robots.txt Tester của Google Search Console.

6. Sau khi kiểm tra thành công, bạn chỉ cần tải lên tệp vào thư mục gốc trên trang web của mình.

7. Để thông báo cho Google rằng bạn đã thay đổi tệp robots.txt, hãy nhấp vào nút “Submit” theo hướng dẫn của Google, và nhấp vào nút “Submit” lần thứ hai để hoàn tất quy trình.

Kết luận

Trên đây là những câu lệnh cơ bản mà bạn thường gặp trong file robots.txt. Bạn có thể dựa vào đây để tự tạo ra một file hoàn chỉnh. Với những kiến thức đã được chia sẻ qua bài viết này, bạn hoàn toàn có thể tự tin quản lý trang web của mình từ nay trở đi.