Cách tạo file robots.txt lên website cho SEOer từ A-Z
- Bí Quyết Để AI Xây Dựng Kênh Tự Động Cho Dân Bán Hàng
- 10 Ứng Dụng Trí Tuệ Nhân Tạo Đang Làm Chủ Nền Công Nghệ Hiện Nay
- Atom - Trình soạn thảo mã nguồn mở mạnh mẽ cho lập trình viên
- Botpress là gì? Xây dựng Chatbot AI cho doanh nghiệp dễ dàng
- Orange3 - Công cụ lập trình trực quan kéo thả dễ dàng
Trong lĩnh vực tối ưu hóa công cụ tìm kiếm (SEO), việc hiểu và quản lý các yếu tố kỹ thuật của website đóng vai trò quan trọng trong việc nâng cao thứ hạng trang web trên các công cụ tìm kiếm. Một trong những yếu tố quan trọng nhưng lại thường bị bỏ qua là file robots.txt. Mặc dù có vẻ là một tệp đơn giản, nhưng việc sử dụng đúng cách robots.txt có thể giúp trang web của bạn cải thiện SEO, bảo vệ dữ liệu quan trọng và tránh bị lập chỉ mục các nội dung không mong muốn. Trong bài viết này, chúng ta sẽ tìm hiểu về file robots.txt, cách tạo và tối ưu hóa nó từ A-Z cho SEO.
1. File robots.txt là gì?


File robots.txt là một tệp văn bản đơn giản, có chức năng giao tiếp với các công cụ tìm kiếm (search engines) như Google, Bing, Yahoo, … để chỉ dẫn chúng cách thu thập và lập chỉ mục nội dung trên website của bạn. Đây là một phương thức giúp bạn kiểm soát bot của công cụ tìm kiếm có quyền truy cập vào các trang nào trên trang web của bạn.
Khi một công cụ tìm kiếm quét trang web của bạn, nó sẽ tìm thấy file robots.txt trong thư mục gốc của website (ví dụ: www.yourwebsite.com/robots.txt). Dựa vào các quy tắc trong file này, công cụ tìm kiếm sẽ quyết định những nội dung nào được phép truy cập và lập chỉ mục.
>>>Xem thêm: Cách cài sitemap lên website cho SEO mới
2. Tầm quan trọng của file robots.txt đối với SEO


File robots.txt không phải là yếu tố quyết định trực tiếp đến thứ hạng trang web trên công cụ tìm kiếm, nhưng nó có ảnh hưởng lớn đến việc lập chỉ mục và thu thập dữ liệu. Dưới đây là những lý do chính mà SEOer cần chú ý đến file này:
- Ngăn chặn lập chỉ mục những trang không cần thiết: Nếu bạn không muốn các trang nội bộ hoặc các trang thử nghiệm được lập chỉ mục, bạn có thể chỉ định rõ trong robots.txt.
- Tăng cường bảo mật: Một số trang web có thể chứa dữ liệu nhạy cảm mà bạn không muốn công cụ tìm kiếm truy cập. Bạn có thể chặn quyền truy cập của bot đối với các thư mục chứa thông tin nhạy cảm.
- Cải thiện tốc độ thu thập dữ liệu: Nếu bạn có một website lớn với nhiều trang, việc sử dụng robots.txt có thể giúp bot chỉ thu thập dữ liệu từ những trang quan trọng, giúp tiết kiệm tài nguyên và cải thiện tốc độ quét.
- Quản lý tài nguyên: Nếu bạn có nhiều tài nguyên tĩnh như hình ảnh hoặc CSS không cần thiết để lập chỉ mục, bạn có thể ngăn chặn bot thu thập những tài nguyên đó.
>>> Xem thêm: Xem báo cáo trên công cụ Google Search Console cho dân SEO
3. Cấu trúc của file robots.txt
Một file robots.txt đơn giản bao gồm các chỉ thị cho các bot của công cụ tìm kiếm về việc truy cập hoặc không truy cập vào các thư mục và tệp cụ thể. Cấu trúc của file này rất dễ hiểu và chỉ gồm các dòng hướng dẫn dưới đây:
- User-agent: Định nghĩa bot cụ thể mà bạn muốn áp dụng các quy tắc.
- Disallow: Chỉ thị cho bot không được truy cập vào một đường dẫn cụ thể.
- Allow: Chỉ thị cho bot có thể truy cập vào một đường dẫn cụ thể, mặc dù thư mục cha có thể bị “Disallow”.
- Sitemap: Chỉ ra vị trí của file sitemap của bạn (tệp này liệt kê tất cả các URL quan trọng trên website để công cụ tìm kiếm dễ dàng lập chỉ mục).
Ví dụ cấu trúc đơn giản của robots.txt:
txt
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /public/
Sitemap: https://www.yourwebsite.com/sitemap.xml
Trong ví dụ trên:
- **User-agent: ***: Các quy tắc này áp dụng cho tất cả các bot tìm kiếm.
- Disallow: /admin/: Ngăn bot truy cập vào thư mục “/admin”.
- Disallow: /login/: Ngăn bot truy cập vào trang đăng nhập.
- Allow: /public/: Cho phép bot truy cập vào thư mục “/public”.
- Sitemap: https://www.yourwebsite.com/sitemap.xml: Cung cấp đường dẫn tới tệp sitemap của website.
>>> Xem thêm: Cách dùng công cụ Ahref trong SEO hiệu quả
4. Các chỉ thị cơ bản trong file robots.txt
Dưới đây là những chỉ thị phổ biến trong file robots.txt mà SEOer cần phải nắm:
4.1. User-agent
- User-agent chỉ định bot nào sẽ áp dụng quy tắc sau. Ví dụ, Googlebot cho Google, Bingbot cho Bing. Dấu sao * có nghĩa là tất cả các bot.
4.2. Disallow
- Disallow là chỉ thị bạn dùng để yêu cầu bot không được phép quét một đường dẫn hoặc thư mục cụ thể trên website.
4.3. Allow
- Allow là chỉ thị cho phép bot truy cập vào một đường dẫn cụ thể ngay cả khi thư mục cha của nó bị “Disallow”.
4.4. Sitemap
- Sitemap là chỉ thị cung cấp URL của tệp sitemap để các bot có thể dễ dàng tìm thấy và lập chỉ mục tất cả các trang quan trọng của website.
4.5. Crawl-delay
- Crawl-delay giúp bạn chỉ định thời gian chờ giữa mỗi lần bot truy cập một trang của website, giúp giảm tải cho server.
>>> Xem thêm: Hướng dẫn cách đọc số trên Semrush cho dân SEO mới
5. Cách tạo file robots.txt từ A-Z


Để tạo file robots.txt cho website của bạn, bạn có thể làm theo các bước đơn giản sau:
>>>Xem thêm: LLaMA Của Facebook: Có Gì Nổi Trội Thu Hút Người Dùng?
5.1. Bước 1: Mở một tệp văn bản mới
- Mở một trình soạn thảo văn bản như Notepad trên Windows hoặc TextEdit trên macOS.
5.2. Bước 2: Viết nội dung file robots.txt
- Bắt đầu viết các chỉ thị cho bot theo cấu trúc đã nêu ở trên. Ví dụ:
User-agent: *
Disallow: /private/
Allow: /public/
Sitemap: https://www.yourwebsite.com/sitemap.xml
- User-agent: *: Điều này có nghĩa là tất cả các công cụ tìm kiếm đều sẽ tuân theo các quy tắc này.
- Disallow: /private/: Chỉ thị này ngăn các công cụ tìm kiếm truy cập vào thư mục “private”.
- Allow: /public/: Chỉ thị này cho phép các công cụ tìm kiếm truy cập vào thư mục “public”.
- Sitemap: Đảm bảo rằng bạn cung cấp liên kết đến sitemap của website.
5.3. Bước 3: Lưu file
- Lưu file này với tên robots.txt. Đảm bảo rằng tên file phải chính xác và không có phần mở rộng nào khác như .txt.txt.
5.4. Bước 4: Tải file robots.txt lên thư mục gốc của website
- Đưa file robots.txt lên thư mục gốc của website của bạn, nơi nó có thể truy cập qua URL như www.yourwebsite.com/robots.txt. Đây là vị trí mặc định mà các công cụ tìm kiếm sẽ tìm thấy và đọc file này.
>>> Xem thêm: Google analytics – Hướng dẫn cách đọc số real time anh em SEOer
6. Hướng dẫn tạo file robots.txt cho website
Hiện tại các công cụ SEO như RankMath, YoastSEO đã hỗ trợ bạn tạo file, nhưng bạn sẽ không thể tìm thấy file này trong thư mục mã nguồn của bạn, và bạn sẽ không thể chủ động sửa file. Vì vậy tốt hơn hết hạn hãy tạo thủ công và viết các quy tắc cho riêng bạn.
Cách thức tạo rất đơn giản, bên trong host hoặc VPS. Bạn di chuyển vào vị trí chứa mã nguồn vào tạo mới một file và đặt tên là robots.txt


Sau đó bạn nhập vào nội dung mẫu cơ bản sau trong file robots.txt vừa tạo.
Lưu ý: Đây là một mẫu cơ bản cho website WordPress. Không có mẫu chuẩn áp dụng toàn bộ hệ thống website vì mỗi web đều khác nhau. Vì vậy bạn hãy thiết lập một cấu hình theo nhu cầu sử dụng và phù hợp với web của bạn.
Đây là mẫu riêng của tôi sử dụng cho website cá nhân của tôi. Bạn có thể dựa vào cấu hình này và viết lại quy tắc riêng cho bạn.
Sau đó bạn hãy truy cập đường dẫn https://my-domain/robots.txt. Nếu kết quả hiển thị như bạn nhập thì đã thành công.
7. Lưu ý khi sử dụng robots.txt
- Robots.txt không phải là một phương pháp để ẩn trang web khỏi các công cụ tìm kiếm. Các công cụ tìm kiếm có thể bỏ qua các chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lệ hoặc có hại.
- Robots.txt chỉ là một hướng dẫn cho các trình thu thập thông tin. Các trình thu thập thông tin có thể bỏ qua các chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lý hoặc không có lợi cho người dùng.
File robots.txt là công cụ quan trọng giúp bạn quản lý việc lập chỉ mục và thu thập dữ liệu của các công cụ tìm kiếm. Việc tạo ra một file robots.txt đúng cách có thể giúp bạn tối ưu hóa SEO và bảo vệ nội dung không mong muốn trên website. Với hướng dẫn này, bạn đã có đầy đủ kiến thức từ A-Z về cách tạo và tối ưu hóa file robots.txt cho website của mình. Hãy đảm bảo kiểm tra và duy trì file robots.txt một cách thường xuyên để đảm bảo chiến lược SEO của bạn luôn hiệu quả.
>>>Xem thêm: Hướng Dẫn Đọc Số Trên Seoquake Cụ Thể Từ A-Z
Nguyễn Cúc
Bình luận (0
)