Wordpress

Robots.txt Là Gì? Mẫu Tệp Robots.txt Cơ Bản

Tác giả: admin

Cập nhật: 17/07/2023 - Ước tính: 9 phút đọc

Đánh giá bài đăng

5/5 - (291)

Tìm hiểu chi tiết về tệp robots.txt?

robots.txt là gì?

Tệp robots.txt là một tệp văn bản đơn giản được sử dụng để hướng dẫn các robots của công cụ tìm kiếm về cách tìm kiếm nội dung trên trang web. Tệp này được đặt trong thư mục gốc của trang web và được các robots của công cụ tìm kiếm đọc trước khi quét trang web.

Dưới đây là một số điểm chi tiết về tệp robots.txt:

Cấu trúc cơ bản:
- Tệp robots.txt là một tệp văn bản đơn giản, có thể được mở và đọc bằng bất kỳ trình soạn thảo văn bản nào.
- Các quy tắc trong tệp thường được xác định bằng cách sử dụng các từ khóa như “User-agent” và “Disallow”.
User-agent:
- Được sử dụng để xác định robot cụ thể mà quy tắc áp dụng cho nó.
- Có thể sử dụng dấu sao (*) để chỉ định tất cả các robots.
Disallow:
- Một chỉ thị cho biết các phần của trang web mà robot không nên quét.
- Nếu giá trị là “/”, nghĩa là tất cả các trang đều bị cấm.
Allow:
- Chỉ định các phần cụ thể của trang web mà robot được phép quét, bất chấp các chỉ thị cấm khác.
Sitemap:
- Dòng này có thể được sử dụng để chỉ định nơi mà sitemap của trang web được lưu trữ, giúp công cụ tìm kiếm hiểu rõ hơn về cấu trúc trang web.
Thứ tự ưu tiên:
- Các robots.txt được đọc theo thứ tự từ trên xuống, do đó, quy tắc xuất hiện trước sẽ được ưu tiên hơn.
Bảo mật:
- Tuy nhiên, robots.txt không phải là một cách bảo mật thực sự, vì nó chỉ là một khuyến cáo đối với robots tìm kiếm và không phải tất cả các robots đều tuân thủ nó.

Các cú pháp cần biết bên trong tệp robots.txt

Google có giải thích một số cú pháp lệnh trong tệp robots.txt mà bạn cần biết, nhưng để dễ hiểu thì chúng tôi đã tóm tắt ngắn gọn:

1. User-agents: Mỗi công cụ tìm kiếm tự nhận dạng nó là một tác nhân người dùng (User-agents) khác nhau vì không chỉ có Googlebot hay Bingbot mà còn có hàng trăm User-agents khác, vậy nên bạn cần chỉ định rõ trình thu thập dữ liệu web cụ thể mà bạn muốn áp dụng các quy tắc. Ví dụ:

User-agent: Googlebot

Hoặc để áp dụng cho tất cả các bot:

Xem thêm: Cách Tăng Kích Thước Tệp Tải Lên Tối Đa Trên WordPress

User-agent: *

2. Disallow: Lệnh Disallow sẽ đưa ra quy tắc, yêu cầu các User-agents không truy cập và thu thập dữ liệu trên URL cụ thể. Chỉ cho phép một dòng “Disallow:” cho mỗi URL. Ví dụ:

Trường hợp chặn thu thập dữ liệu một thư mục hoặc tệp cụ thể:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php

Trường hợp chặn tất cả các công cụ tìm kiếm thu thập dữ liệu trang web của bạn:

User-agent: *
Disallow: /

Trường hợp chặn User-agents thu thập dữ liệu thẻ tag:

User-agent: *
Disallow: /tag/

Hoặc trường hợp chặn quyền thu thập dữ liệu các tệp PDF, DOC và ZIP.

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
Disallow: /*.zip$

Hoặc chặn User-agents thu thập dữ liệu kết quả tìm kiếm trang web trên WordPress:

User-agent: *
Disallow: /search/
Disallow: /?s=

3. Allow: Là lệnh cho phép các User-agents truy cập và thu thập dữ liệu thư mục con hoặc trang cụ thể ngay cả khi bạn đã Disallow toàn bộ một thư mục.

Ví dụ: Nếu bạn muốn ngăn công cụ tìm kiếm truy cập vào mọi bài đăng trên blog của mình ngoại trừ một bài đăng, thì tệp của bạn sẽ như thế này:

User-agent: *
Disallow: /news/
Allow: /news/example-post-1

4. Sitemap: Lệnh Sitemap dùng để cho biết vị trí của sitemap XML của trang web. Sitemap giúp công cụ tìm kiếm hiểu cấu trúc của trang web và tìm thấy các trang quan trọng hơn. Ví dụ:

User-agent: *
Disallow: /news/
Allow: /news/example-post-1

Sitemap: https://domain.com/sitemap_index.xml

Cách kiểm tra trang web có tệp robots.txt không?

Nếu không chắc chắn liệu trang web của bạn có tệp robots.txt hay không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL.

Xem thêm: Hướng Dẫn Tăng Tốc Độ, Hiệu Suất Website WordPress Hiệu Quả

Lưu ý: Tệp robots.txt khi viết trên URL và khi đặt tên tệp cần phải đúng là robots.txt. Vì tệp có phân biệt chữ hoa và chữ thường, nếu sai nó sẽ không hoạt động được

Tại sao robots.txt quan trọng với SEO website?

tại sao robots.txt lại quan trọng với SEO website

robot.txt đóng một vai trò quan trọng trong SEO. Nó cho các công cụ tìm kiếm biết cách có thể thu thập dữ liệu trang web của bạn một cách tốt nhất.

Bằng cách sử dụng tệp robots.txt, bạn có thể các ngăn công cụ tìm kiếm truy cập vào một số phần nhất định trên trang web của bạn, ngăn chặn nội dung trùng lặp và cung cấp cho công cụ tìm kiếm những quy tắc để họ hiểu nhằm thu thập dữ liệu trang web của bạn hiệu quả hơn.

Tuy nhiên, hãy cẩn thận khi thực hiện các chỉnh sửa của bạn vì tệp này có khả năng khiến các công cụ tìm kiếm không thể truy cập được phần lớn trang web của bạn.

Cách tạo và kiểm tra tệp robots.txt

Tạo tệp robots.txt thủ công

Bạn có thể tạo một tệp có tên “robots.txt” trong các trình soạn thảo văn bản (ví dụ như Notepad có mặc định trên máy tính Windows) như trong hình bên dưới. Lưu ý hình ảnh bên dưới là chỉ là ví dụ, nếu bạn tạo như ảnh dưới thì nhớ sửa đổi địa chỉ Sitemap của trang web bạn.

Cách tạo tệp robots.txt

Khi bạn đã cung cấp các thư mục trong tệp robots.txt và lưu chúng trên máy tính của mình. Bây giờ, bạn hãy tải tệp này lên thư mục gốc trang web của bạn. Bạn có thể thực hiện các sửa đổi cho tệp robots.txt của mình bằng cách chỉnh sửa tệp qua SFTP hoặc trong trình quản lý tệp CPanel máy chủ trang web của bạn.

robots.txt nằm ở đâu trong thư mục gốc website

Nếu không chắc chắn về cách tải tệp lên, hãy liên hệ với nhà cung cấp dịch vụ lưu trữ web của bạn và họ sẽ có thể trợ giúp bạn.

Tạo robots.txt với plugin Yoast SEO trong WordPress

Plugin Yoast SEO trên WordPress hỗ trợ tạo và duy trì file robots.txt:

Đăng nhập vào wp-admin của bạn.
Trong thanh bên, hãy đi đến Yoast SEO plugin> Tools. (Hoặc Yoast SEO plugin > Công cụ)
Đi đến File editor. (Hoặc Trình chỉnh sửa tập tin)

Tạo robots.txt với plugin Rank Math SEO trong WordPress

Để tạo và duy trì tệp robots.txt trong plugin Rank Math SEO:

Đăng nhập vào wp-admin của bạn.
Trong thanh bên, hãy đi tới Rank Math> General Settings.
Đi đến Edit robots.txt.

Chỉnh sửa robots.txt trong Rank Math SEO

Cách kiểm tra hợp lệ tệp robots.txt

Sau khi bạn đã tải tệp robots.txt lên trang web của mình, bước tiếp theo là kiểm tra tệp để đảm bảo tệp hoạt động chính xác hay không?. Google cung cấp một công cụ miễn phí có tên là Trình kiểm tra robots.txt trong Google Search Console mà bạn có thể sử dụng để kiểm tra tệp của mình. Nó chỉ có thể được sử dụng cho các tệp robots.txt nằm trong thư mục gốc của trang web của bạn.

Để kiểm tra, bạn hãy truy cập vào Google Search Console, sau đó chọn mục Cài đặt và ở bên phải bạn sẽ thấy phần thu thập thông tin của robots.txt.

Kiểm tra tệp robots.txt có hoạt động không

Các mẫu tệp robots.txt chuẩn cho WordPress

Tệp robots.txt bên dưới được tối ưu chuẩn đặc biệt cho WordPress, trong các trường hợp:

Bạn không muốn phần quản trị của mình được thu thập thông tin.
Bạn không muốn các trang kết quả tìm kiếm nội bộ trên website được thu thập thông tin.
Bạn không muốn các thẻ tag và trang tác giả được thu thập thông tin.
Bạn không muốn trang 404 của mình được thu thập thông tin.

User-agent: *

Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search/
Disallow: *?s=*
Disallow: *?p=*
Disallow: *&p=*
Disallow: *&preview=*
Disallow: /tag/
Disallow: /author/
Disallow: /404-error/

Sitemap: https://www.example.com/sitemap_index.xml

Bạn hãy nhớ thay đổi địa chỉ Sitemap thành địa chỉ Sitemap của trang web của bạn.

Lưu ý: Tệp robots.txt này sẽ hoạt động trong các trường hợp, nhưng bạn phải luôn điều chỉnh và kiểm tra tệp để đảm bảo tệp áp dụng cho trường hợp chính xác của bạn.

Hoặc mẫu tệp robots.txt cơ bản

User-agent: *

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /readme.html
Disallow: /license.txt

Sitemap: https://www.example.com/sitemap_index.xml

Giải thích:

User-agent: *: Áp dụng quy tắc cho tất cả các bot.
Disallow: Chỉ định các thư mục và tập tin không được thu thập thông tin.
/wp-admin/, /wp-includes/: Ngăn các bot thu thập dữ liệu các thư mục cốt lõi của WordPress.
/wp-content/plugins/, /wp-content/themes/: Chặn thư mục plugin và theme WordPress.
/readme.html, /license.txt: Không cho phép thu thập thông tin tệp.
Sitemap: Thông báo cho công cụ tìm kiếm về vị trí của sơ đồ trang web XML.

Hoặc mẫu tệp robots.txt cho phép tất cả các bot thu thập dữ liệu đầy đủ

User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap_index.xml

Các lỗi phổ biến của tệp Robots.txt và cách khắc phục chúng

Dưới đây là một số lỗi phổ biến nhất và cách khắc phục các sự cố mà mọi người mắc phải với tệp robots.txt:

Thiếu tệp robots.txt

Lỗi tệp robots.txt phổ biến nhất đó là không có tệp nào cả. Nếu bạn không có tệp robots.txt, trình thu thập thông tin của các công cụ tìm kiếm sẽ cho rằng chúng được phép thu thập dữ liệu toàn bộ trang web của bạn.

Để khắc phục điều này, bạn cần tạo tệp robots.txt và thêm tệp đó vào thư mục gốc của trang web.

Tệp Robots.txt không có trong thư mục gốc

Nếu bạn không có tệp robots.txt trong thư mục gốc của trang web thì trình thu thập thông tin của công cụ tìm kiếm sẽ không thể tìm thấy tệp đó. Do đó, họ sẽ cho rằng họ được phép thu thập dữ liệu toàn bộ trang web của bạn.

Nó phải là một tên tệp văn bản duy nhất không được đặt trong các thư mục con mà nên đặt trong thư mục gốc.

Không có URL sơ đồ trang web (Sitemap)

Tệp robots.txt của bạn phải luôn bao gồm liên kết tới sơ đồ trang web (Sitemap) của trang web của bạn. Viẹc này giúp trình thu thập thông tin của công cụ tìm kiếm tìm và lập chỉ mục các trang của bạn.

Bỏ URL sơ đồ trang web khỏi tệp robots.txt của bạn là một lỗi phổ biến có thể không ảnh hưởng đến SEO trang web của bạn nhưng việc thêm nó sẽ cải thiện nó.

Chặn CSS và JS

Theo John Mueller, bạn phải tránh chặn các tệp CSS và JS vì trình thu thập thông tin tìm kiếm của Google phải có khả năng xem toàn bộ trang, bao gồm HTML, CSS, JS và tất cả các thành phần khác. Việc này giúp Google hiểu rõ hơn về trang và xác minh trang đó thân thiện với thiết bị di động cho người dùng.

Đương nhiên, nếu bot không thể hiển thị trang của bạn thì chúng sẽ không được lập chỉ mục.

Sử dụng NoIndex trong robots.txt

Kể từ năm 2019, thẻ meta robot noindex đã không còn được dùng nữa và Google không còn hỗ trợ nữa. Do đó, bạn nên tránh sử dụng nó trong tệp robots.txt của mình.

Nếu vẫn đang sử dụng thẻ meta robot noindex, bạn nên xóa thẻ này khỏi trang web của mình càng sớm càng tốt.

Sử dụng ký tự đại diện không đúng cách

Sử dụng ký tự đại diện không chính xác sẽ chỉ dẫn đến việc hạn chế quyền truy cập vào các tệp và thư mục mà bạn không mong muốn.

Khi sử dụng ký tự đại diện, hãy càng cụ thể càng tốt. Điều này sẽ giúp bạn tránh mắc phải bất kỳ sai lầm nào có thể ảnh hưởng đến SEO trang web của bạn. Ngoài ra, hãy tuân theo các ký tự đại diện được hỗ trợ, đó là dấu hoa thị và ký hiệu đô la.

Phần đuôi mở rộng tệp sai

Tệp robot.txt phải là tệp văn bản có kết thúc bằng.txt. Nó không thể là tệp HTML, hình ảnh hoặc bất kỳ loại tệp nào khác. Nó phải được tạo ở định dạng UTF-8.

Các câu hỏi thường gặp

Tệp robots.txt là gì?

robots.txt là một tệp văn bản, ở bên trong thư mục gốc của trang web, chứa các lệnh quy tắc hướng dẫn cho bot các công cụ tìm kiếm như Google, Bing, Baidu, Yandex,… biết nơi nào nên và không nên thu thập dữ liệu trên website.

Robots.txt có cho phép Google thu thập dữ liệu không?

robots.txt có thể cho phép hoặc ngăn Google và các công cụ tìm kiếm khác thu thập dữ liệu trên trang web bằng cách xác định các quy tắc trong tệp này.

Robots.txt nên chứa những gì?

Trong robots.txt, bạn nên chứa các quy tắc như:

User-agent: Xác định bot nào áp dụng quy tắc (ví dụ: Googlebot).
Disallow: Chỉ định các đường dẫn hoặc thư mục không cho phép bot truy cập.
Allow: Đặt quy tắc để cho phép bot truy cập vào các phần cụ thể.
Sitemap: Cho biết vị trí của sitemap XML.

robots.txt nằm ở đâu?

Tệp thường nằm trong thư mục gốc của trang web. Địa chỉ URL để truy cập robots.txt sẽ là tên miền của bạn, sau đó thêm “/robots.txt” (ví dụ: https://www.example.com/robots.txt).

Kích thước của tệp robots.txt là bao nhiêu?

Giới hạn kích thước tệp robots.txt khoảng 500 kibibyte (KiB).

Tầm quan trọng của robots.txt trong SEO là gì?

Hướng dẫn thu thập thông tin : Chỉ định phần nào của trang web sẽ được thu thập thông tin hay không bởi các bot công cụ tìm kiếm.
Kiểm soát lập chỉ mục: Hướng dẫn các công cụ tìm kiếm về việc có lập chỉ mục nội dung của các trang hoặc thư mục cụ thể hay không.
Ngăn chặn nội dung trùng lặp: Giúp ngăn các công cụ như google lập chỉ mục nhiều phiên bản của cùng một nội dung.
Kiểm soát SEO nâng cao: Cung cấp cho chủ sở hữu trang web một công cụ để thuyết phục cách các công cụ tìm kiếm tương tác với trang web của họ để nâng cao SEO.
Quyền riêng tư và bảo mật: Bảo vệ các phần nhạy cảm hoặc riêng tư của trang web khỏi bị các công cụ tìm kiếm truy cập, tăng cường các biện pháp bảo mật và quyền riêng tư.

Trang web có hoạt động bình thường khi không có tệp robots.txt không?

Trang web của bạn vẫn sẽ hoạt động tốt. Tuy nhiên, bạn sẽ không thể chặn các công cụ tìm kiếm lập chỉ mục toàn bộ trang web. Có thể bao gồm các trang đăng nhập, hình ảnh được tải lên và các kết quả tìm kiếm nội bộ trong trang không mong muốn khác. Ngoài ra, các thẻ /tag/ hoặc tương tự, nhóm các bài đăng hoặc sản phẩm của bạn theo danh mục cũng có thể gây ra sự cố trùng lặp khi được lập chỉ mục trong Google.

Kết luận

Robots.txt là một tệp đơn giản nhưng mạnh mẽ, bạn có thể sử dụng nó để thêm các quy tắc cụ thể nhằm định hình cách các công cụ tìm kiếm và các bot khác tương tác với trang web của bạn. Khi chỉnh sửa tệp, cần phải được thực hiện cẩn thận và kiểm tra kỹ vì nó có thể có tác động tích cực đến SEO.

5/5 - (291)

#Cú pháp cụ thể và quy tắc khi viết tệp robots.txt #Tệp Robots.txt

Để lại một bình luận Hủy