Google Bot và những điều cần biết

17 Th 11, 2017 - Xem: 1470

Nếu bạn muốn trang web của mình được tìm thấy trong Google và để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot.

Googlebot tìm kiếm các thông tin trên mạng trong tất cả các trang như: Facebook, Twitter,… về máy tính của Google cập nhật Google index. Đó cũng là nơi mà các trang web được so sánh và xếp hạng. 

1/    Googlebot là gì ?

 
Googlebot chính là Web Crawler được sử dụng bởi Google để tìm và lấy các trang web và cập nhật Google index. Mỗi Googlebot có một địa chỉ IP riêng và thường được thay đổi.
 

    2/    Googlebot kết nối với các trang web như thế nào ?

 
Googlebot tìm kiếm các thông tin trên mạng trong tất cả các trang như: Facebook, Twitter,… về máy tính của Google cập nhật Google index. Đó cũng là nơi mà các trang web được so sánh và xếp hạng. 
Mỗi lần Googlebot đi qua trang web của bạn cũng là 1 lần tải bản sao tại thời điểm đó. Nếu bạn muốn trang web của mình được tìm thấy trong Google và để xếp hạng tối ưu, tất cả trang web tài nguyên phải được truy cập bằng Googlebot. Đặc biệt, bất kỳ nội dung nào, trang web nào Googlebot cũng có thể truy cập vào và lấy thông tin trong đó.
 
 
 

    3/    Cách nhận biết Googlebot đang truy cập vào web của bạn

 
Googlebot phát hiện các website theo đường dẫn từ page sang page khác. Nhưng bot không thể nhìn thấy toàn bộ trang web, nó chỉ có thể thấy các phần riêng lẻ của trang đó và nó sẽ không lập chỉ mục. Nguyên nhân này cũng có thể do: Tài nguyên bị chặn bởi robots.txt, trang liên kết không thể đọc được hoặc không chính xác, URL hoạt động quá phức tạp …
 
Hầu hết những vấn đề này có thể được kiểm tra một cách nhanh chóng bằng cách sử dụng công cụ "fetch and render" hướng dẫn của Google có trong giao diện Google search console. Bạn nên xem xét các lỗi, thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn. 
 

    4/    Cách ngăn chặn Googlebot 

 
Gần như không thể chặn hết hoàn toàn sự “xâm nhập” của Googlebot vì có thể một người nào đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, và có thể được lưu lại và public bởi các web server khác. Tuy nhiên vẫn có một số cách khắc phục như sau:
 
- Sử dụng một tập tin robots.txt. Hướng dẫn robot trong siêu dữ liệu của trang web và tiêu đề của mọi người
- Sử dụng sơ đồ trang web
- Sử dụng Google tìm kiếm giao diện điều khiển
 

    5/    Các vấn đề với Spammer và User-agent

 
Googlebot thay đổi địa chỉ liên tục nên cách tốt nhất để xác định kết nối đến bot là sử dụng user-agent. Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, ngoài một số trường hợp như: Report spam, paid link …
 
Nếu Feedfetcher có những hành động rõ ràng từ người sử dụng và tự đưa dữ liệu đến trang chủ Google không phải từ Googlebot nên Feedfetcher sẽ không chịu ảnh hưởng bởi file robots.txt. 
 
Bạn có thể ngăn chặn việc này bằng cách gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.
 

    6/    Công cụ robots.txt tester tool giúp bạn kiểm tra file robots.txt

 
Chúng ta truy cập vào Search Console để thực hiện một cách nhanh chóng.
 

hình ảnh google bot

Bạn Click và nút Gửi, mục đích việc này là chúng ta cập nhật lại robots.txt hiện tại.

 

gữi tệp google bot
 
 
 
Các con số trong bảng được thể hiện như sau:
 
1. Click Gửi.
2. Kiểm tra xem có chữ Thành công!..
3. Tắt cửa sổ đi.
Bạn cần refresh lại trang web bằng cách bấm F5 hoặc chuột phải nhấn reload.
 
 
Bạn cần kiểm tra dòng lệnh của robots.txt bằng thao tác Kiểm tra.
 
google bot được phép craw
 
 
Dòng màu xanh lá xuất hiện với chữ Được Phép ở góc phải như trên hình tức là bạn đang kết nối thành công đến Googlebot.
 

    7/    Một số lỗi thông thường

Googlebot không thể truy cập trang web của bạn:

 
-  Website bị lỗi 404 hoặc 500
- Website bị chặn bởi meta robot
- Trùng lặp với nội dung ngoài website
- Thời gian tải trang quá lâu
- Các trang chứa ít nội dung mà lại chứa nhiều quảng cáo
- Site map không được cập nhật thường xuyên
- Website bị block bởi robots.txt
- Trùng lặp với nội dung ngoài website
- …
 
lỗi 404 website
 

Lỗi URL Errors, robots.txt trong Google Webmaster Tool:

 
Nếu bạn thấy thông báo "Google couldn’t crawl your site because we were unable to access the robots.txt" hoặc bạn gặp trường hợp “Server error, Not found” hay Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ. Bạn tìm cách khắc phục như sau:
 
- Kiểm tra trong file robots.txt của bạn xem có thư mục nào bị cấm mà google không thể tiến hành index các URL của các bạn.
- Kiểm tra hosting có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.
 
Google bot luôn được xem trọng và vô cùng hữu ích trong việc quản lý các con bọ của Google, nếu sử dụng thành thạo, bạn có thể kiểm soát được luồng thông tin website cũng như bảo mật dữ liệu website không bị hiển thị trên Google. Chúc các bạn thành công!
 
 
Nguồn: matbao.net

Brzii Multi Service & Communicaiton

Website Desing, Contents, Seo, Marketting Online

Tư vấn ngay

Dịch vụ Seo chuyên nghiệp số 1 tại Việt Nam

Brzii cung cấp các dịch vụ SEO (Search Engine Optimization) đáng tin cậy để tăng lưu lượng truy cập tự nhiên đến các trang web, tăng cường khả năng hiển thị trực tuyến và chuyển đổi tiếp thị trực tuyến để tạo ra doanh thu.

Dịch vụ seo Brzii
Câu chuyện về Rùa và Thỏ của CEO Coca Cola
Câu chuyện về Rùa và Thỏ của CEO Coca Cola
Kiến thức
5930 Lượt xem - 16/01/2017
Chìa khóa thành công cho Startup
Chìa khóa thành công cho Startup
Kiến thức
3290 Lượt xem - 03/12/2016
Nằm lòng 6 mẹo nhỏ quản lý thời gian hiệu quả
Nằm lòng 6 mẹo nhỏ quản lý thời gian hiệu quả
Kiến thức
3254 Lượt xem - 10/01/2017
10 bài học lớn giúp doanh nghiệp nhỏ thành công
10 bài học lớn giúp doanh nghiệp nhỏ thành công
Kiến thức
3048 Lượt xem - 29/11/2016
Đánh giá ý tưởng - Sáng kiến và Tối kiến
Đánh giá ý tưởng - Sáng kiến và Tối kiến
Kiến thức
2706 Lượt xem - 13/12/2016
Bài học xương máu cho những ai muốn khởi nghiệp
Bài học xương máu cho những ai muốn khởi nghiệp
Kiến thức
2482 Lượt xem - 02/12/2016

ĐƯỢC QUAN TÂM

Develop mobile app, and launch it in less than 5 weeks

With the flexibility of agile development model, and our technical experience, your mobile app can be launched very quickly, avoiding pitfalls.

Brzii Creative

Dịch vụ

Thông tin

Giới thiệu

^!^