Một số nguyên nhân khiến Blog của bạn không được index

Google Core Update vào tháng 7 đến tháng 8 năm 2021, có vẻ như các chương trình của Google "bận rộn" nên nhiều blog (đặc biệt là Blogspot) không được thu thập thông tin và lập chỉ mục; thậm chí, hầu hết thời gian chúng tôi gặp lỗi 5xx khi chúng tôi cố gắng Kiểm tra Trực tiếp URL blog của mình; bằng cách sử dụng các trình kiểm tra URL khác, lỗi 5xx không tồn tại. Sau khi Google Core Update hoàn thành, rất nhiều yêu cầu thu thập dữ liệu sẽ gửi Google Search Console để các bài đăng trên blog của bạn được tìm thấy trong Bị loại trừ,

Một số nguyên nhân khiến Blog của bạn không được index

Dưới đây là một số nguyên nhân có thể đưa các bài đăng trên blog của bạn vào tab bị loại trừ trong Google Search Console

Chuyển hướng trang

Nếu bạn bật phiên bản di động của blog, mỗi bài đăng trên blog sẽ có hai phiên bản URL. Phiên bản đầu tiên là phiên bản chuẩn và phiên bản thứ hai là phiên bản di động. URL phiên bản di động của bài đăng trên blog của bạn có tham số bổ sung như url.html?m=1. ?m=1. tuyên bố rằng URL tương thích với thiết bị di động, trong đó m là viết tắt của mobile và 1 có nghĩa là true. Loại URL này không được lập chỉ mục có chủ đích vì chúng có thể tự động truy cập khi người dùng sử dụng thiết bị di động để truy cập vào URL chuẩn của bạn. Khi họ truy cập URL của bạn bằng thiết bị di động, họ sẽ được chuyển hướng đến các URL tương thích với thiết bị di động này.

Vì vậy là nên tắt hoặc xóa ?m=1 bằng đoạn Script dưới đây

var uri = window.location.toString();if (uri.indexOf("?m=1","?m=1") > 0) {var clean_uri = uri.substring(0, uri.indexOf("?m=1"));window.history.replaceState({}, document.title, clean_uri);};

    document.addEventListener('DOMContentLoaded', function () {

        var links = document.getElementsByTagName("a");

        var i;

        for (i = 0; i < links.length; i++) {

            if (location.hostname !== links[i].hostname) {

                links[i].rel = "nofollow noopener noreferrer";

                links[i].target = "_blank";

            }

        }

    });

Nội dung trùng lặp

Google không cần thiết phải lập chỉ mục các nội dung trùng lặp trong blog của bạn. Tuy nhiên, thật kỳ lạ là Google vẫn lập chỉ mục các nội dung trùng lặp khi chúng được gửi từ các tên miền khác nhau. Bạn cần kiểm tra xem các bài đăng trên blog của mình có chứa nội dung trùng lặp hay không và khi bạn tìm thấy những nội dung đó, hãy diễn giải nội dung hoặc chỉ xóa chúng.

Giải pháp: Loại bỏ nội dung trùng lặp.

Trang bị quá tải

Các bot của Google có lịch trình thu thập dữ liệu các bài đăng trên blog của bạn trong một khoảng thời gian nhất định trong mỗi lần kiểm tra. Nếu các bài đăng trên blog của bạn mất nhiều thời gian tải, tôi e rằng nếu các bot của Google buộc phải bỏ qua chúng. Về cơ bản, một trang sẽ bị quá tải nếu phương tiện (hình ảnh hoặc video) được sử dụng trong trang quá lớn và quá nhiều tập lệnh chạy phía sau trang.

Cấu trúc HTML không hợp lệ

Nhiều người bỏ qua việc sử dụng các thẻ HTML thích hợp trong bài viết của họ. Những gì các công cụ tìm kiếm thu thập thông tin và trình duyệt hiển thị là các trang html. Sử dụng thẻ HTML đúng cách đảm bảo khả năng đọc của trang. Trang càng dễ đọc, trang càng dễ được thu thập thông tin và lập chỉ mục.

Robot.txt

Blog của bạn có cài đặt robot.txt mà bạn cần phải xem xét cẩn thận. Nếu bạn đang sử dụng Blogspot, bạn có ba cách để đặt quy tắc robot. Đầu tiên là trong mẫu blogger của bạn bằng cách sử dụng thẻ meta robot, thẻ thứ hai là trong tệp robots.txt tùy chỉnh của bạn trong cài đặt blogger của bạn và thẻ thứ ba là thẻ tiêu đề rô bốt tùy chỉnh trong bài đăng và trang blog của bạn; điều này cũng có thể được tìm thấy trong cài đặt blogger. Các quy tắc robot của bạn có thể được đặt để trang blog của bạn không bị thu thập thông tin và lập chỉ mục bởi các rô bốt của Google.

Thẻ Robot.txt mà mình đang sử dụng

User-agent: Mediapartners-Google

User-agent: Googlebot

User-agent: Bingbot

Disallow:

User-agent: *

Allow: /search

Disallow: /search*

Allow: /

Allow: *max-results=8

Allow: /search/label/

Disallow: *archive.html

Disallow: *?updated-max*

Disallow: *?m=0

Sitemap: https://www.blogtuan.info/sitemap.xml

Sitemap: https://www.blogtuan.info/atom.xml?redirect=false&start-index=1&max-results=500

Liên kết nội bộ kém

Khi Google Search Console quét các URL của bạn, Google Search Console cũng sẽ tìm kiếm trang giới thiệu. Nếu URL của bạn không được các trang được lập chỉ mục giới thiệu, thì có vẻ như URL của bạn không có khả năng được lập chỉ mục vì nó thiếu tin cậy. 

Lịch trình Google Bot

Bài đăng của bạn bị loại trừ, bị phát hiện - hiện không được lập chỉ mục vì Google bot đã lên lịch thu thập thông tin bài đăng của bạn vào lần tiếp theo. Thật khó để nói khi nào nó sẽ trở lại để thu thập thông tin bài đăng trên blog của bạn nhưng nếu bài đăng của bạn không có các vấn đề được đề cập ở trên, nó chắc chắn sẽ quay trở lại.

Popular posts from this blog

Vietnix Free DirectAdmin, Giảm 30% trọn đời dịch vụ VPS

Vui Trung Thu nhận quà vi vu cùng Z.com Việt Nam

AZDIGI Giảm mạnh 50% Hosting chất, khuyến mãi Ngất