Hướng dẫn tạo Bộ lọc Spam Bot trong Google Analytics (1)

Hướng dẫn tạo Bộ lọc Spam Bots trong Google Analytics

Bộ lọc Spam Bots trong Google Analytics rất quan trọng trong việc giúp bạn có những số liệu chính xác để phân tích website.

Dữ liệu mà Google Analytics cung cấp có lẽ là một trong những yếu tố quan trọng nhất trong quá trình đưa ra quyết định về trang web của bạn. Việc thành công hay thất bại trong những nỗ lực của bạn từ SEO, Chiến dịch quảng cáo trả phí, Social Marketing, Content Marketing… có thể được xác định một cách dễ dàng thông qua những dữ liệu của Google Analtyics.

Nhưng hiện nay, rất nhiều những trang web sử dụng nhiều hình thức spam khác nhau, để có thể xuất hiện trong báo cáo Google Analytics của bạn. Mục đích chính của những trang web này là gây sự tò mò cho bạn, từ đó có thể tăng lượng traffic nếu bạn truy cập vào chúng.

Ví dụ trong hình sau, những trang web được khoanh đỏ chính là những trang spam:

Spam Bots trong Google Analytics

Vấn đề xảy ra ở đây là những số liệu truy cập này sẽ được Google Analytics đưa vào các kết quả báo cáo của bạn. Và chắc chắn việc đưa ra kết quả dựa trên những bản báo cáo này sẽ không được chính xác, bị sai lệch. Điều này có thể ảnh hưởng tới tương lai của website hay công ty bạn.

Đến đây bạn đã nhận ra được tầm quan trọng của việc ngăn chặn những Spam bots trong Google Analytics? Tôi có thể khẳng định để có được dữ liệu chính xác, việc tạo các Filter Spam Bots trong Google Analytics là điều bắt buộc phải làm.

Chúng ta hãy cùng thực hiện theo hướng dẫn trong bài viết dưới đây.

Trước khi bắt đầu

Để đảm bảo an toàn cho dữ liệu Google Analytics của bạn, hãy chắc chắn bạn đã tạo những Chế độ xem khác nhau trong Google Analytics:

3 chế độ xem cần có trong Google Analytics

#1 Cách Tạo Filter trong Google Analytics

Để tạo được một bộ lọc Spam Bots trong Google Analytics, chúng ta hãy làm theo những bước dưới đây.

Đăng nhập vào tài khoản Google Analytics, đi đến phần Quản trị, chọn Tài khoản, Thuộc tính, và Chế độ xem tương ứng. Bạn cần chú ý tạo Bộ lọc trong một chế độ xem Test để tránh ảnh hưởng đến dữ liệu gốc. Trong trường hợp này là Test View:

Cách tạo bộ lọc trong Google Analytics.Create Filter in Google Analytics

Lưu ý: Chọn Bộ lọc (Filter) của Chế độ xem (View) chứ không phải Tất cả bộ lọc (All Filter) trong phần Tài khoản nhé!

Chọn Thêm bộ lọc:

Thêm bộ lọc trong Google Analytics

Cửa sổ thêm bộ lọc mới sẽ xuất hiện như sau:

Giờ chúng ta sẽ tạo 2 loại bộ lọc để loại bỏ Spam Bots là:

  • Bộ lọc tên máy chủ hợp lệ (Valid Hostname Filter)
  • Bộ lọc thư rác (Crawler Spam Filter)

#2 Bộ lọc tên máy chủ hợp lệ (Valid Hostname Filter)

Bộ lọc tên máy chủ hợp lệ (Valid Hostname Filter) là biện pháp hữu hiệu nhất để có thể loại trừ những truy cập ma (Ghost spam).

#2.1 Truy cập ma (Ghost Spam) là gì?

Truy cập ma hay còn gọi là Ghost Spam là những truy cập được tạo ra từ những máy chủ Spam. Trên những máy chủ này có những đoạn mã sinh ngẫu nhiên những đoạn code Google Analytics. Những đoạn code này có dạng GA-XXXXXX-X.

Sau đó những đoạn mã này sẽ gửi những dữ liệu giả đến tài khoản Google Analytics có đoạn mã tương ứng. Có nghĩa là, khi giá trị GA-XXXXXX-X trùng với Google Analytics ID của bạn, máy chủ Spam sẽ gửi những thông tin về lượt truy cập giả đến tài khoản Google Analtyics của bạn. Và tất nhiên chúng sẽ nằm chễm chệ trong báo cáo của bạn.

Quá trình gửi những dữ liệu giả (Fake data) này hoàn toàn không phát sinh một lượt truy cập nào vào trang web của bạn.

#2.1 Cách phát hiện những truy cập ma (Ghost Spam) trong Google Analytics

Để phát hiện những truy cập ma này, bạn hãy vào chế độ xem Tất cả dữ liệu trang web (All Website Data), chọn Đối tượng, Công nghệ, Mạng:

Cách phát hiện những truy cập ma trong Google AnalyticsCách phát hiện Ghost Spam trong Google Analytics

Tiếp theo, chọn Tên máy chủ (Hostname), để hiển thị danh sách toàn bộ những Hostname đã phát sinh tín hiệu của đoạn mã Google Analytics:

Trong ví dụ trên, có thể thấy một loạt những Hostname đã gửi Ghost spam đến Google Analytics. Những Hostname được khoanh đỏ chính là những Hostname không hợp lệ.

#2.3 Làm cách nào để phân biệt Hostname nào hợp lệ?

Những Hostname hợp lệ là những nơi được gắn mã theo dõi Google Analytics chính chủ. Thông thường chúng ta sẽ chỉ gắn ở một website duy nhất, và website đó nằm trên một máy chủ duy nhất. Trừ trường hợp bạn cần kiểm tra tên miền chéo (cross-domain) trên một dự án có nhiều website.

Do vậy, tất cả những Hostname khác đều có khả năng không hợp lệ. Giờ hãy để ý trong danh sách trên, có thể thấy 2 Hostname là GoogleWebLight, và GoogleUserContent. Sau khi phát hiện 2 Hostname này trong danh sách, tôi đã tìm kiếm trên Google, và được biết đây là 2 dịch vụ của Google:

  1. Google Web Light: một dịch vụ cung cấp bởi Google hỗ trợ trang web tải nhanh hơn trên Mobile
  2. Google User Content: một dịch vụ khác của Google lưu trữ những thông tin của website trong bộ nhớ Cache.

Vậy 2 Hostname này cũng được xem là hợp lệ, nên chúng ta có thể loại trừ 2 Hostname này.

Lưu ý: Với bất kỳ Hostname nào bạn không chắc chắn, hãy lên Google để tra nhé!

Chúng ta có thể xem một trường hợp Hostname hợp lệ và không bị Ghost Spam trong ví dụ sau:

Ta có thể dễ dàng thấy trong trường hợp trên, chỉ có duy nhất 1 Hostname có phát sinh gửi dữ liệu đến Google Analytics là keoonguc.com.

Mẹo: Nếu bạn không phải là người cài đặt Google Analytics, và không chắc Google Analytics ID của bạn được đặt trên những trang nào, hãy liên hệ với quản trị website để biết được thông tin chi tiết.

Lưu ý: Bạn có thể sẽ cần chọn một khoản thời gian dài (cỡ 1 năm chẳng hạn) để hiển thị nhiều dữ liệu nhất có thể:

Cách phát hiện Ghost Spam trong Google Analytics

#2.4 Tạo Filter Hostname trong Google Analytics

Giờ chúng ta hãy tiếp tục bước tạo Filter ở phần 1. Tạo một Filter mới với thông số như sau:

  • Tên bộ lọc: Đặt tên cho bộ lọc sao cho dễ nhận biết (Vd: Tên máy chủ hợp lệ/Valid Hostnames)
  • Loại bộ lọc (Filter Type): Tuỳ chỉnh (Custom)
  • Bao gồm (Include)
  • Trường bộ lọc (Filter Field): Tên máy chủ (Hostname)
  • Dạng bộ lọc (Filter Pattern): Điền Tên máy chủ hợp lệ, có thể điền nhiều tên máy chủ khác nhau phân tách bởi dấu | (Vd: totlanh.com|totlanh.com.googleweblight.com|webcache.googleusercontent.com)

Ta sẽ được như hình sau

Sau cùng nhấn nút Lưu lại. Vậy là chúng ta đã có bộ lọc đầu tiên:

#3 Crawler Spam Filter

Crawler Spam cũng được tạo ra cùng một mục đích với Ghost Spam, thông thường được gọi chung là Refferal Spam. Nhưng Crawler Spam có cách hoạt động khác với Ghost Spam.

#3.1 Crawler Spam là gì?

Khác với Ghost Spam, Crawler Spam là những bot có truy cập vào trang web của bạn. Vì vậy dù có bộ lọc Hostname thì chúng ta chỉ loại bỏ được dữ liệu của Ghost Spam, còn Crawler Spam thì không. Mục đích xuất hiện của Crawler Spam trong bảng báo cáo Google Analytics cũng tương tự như Ghost Spam, chúng khiến bạn (hoặc người quản trị những website khác) tò mò và truy cập vào trang web.

Cảnh báo: không nên truy cập những trang web lạ xuất hiện trong báo cáo của Google Analytics. Hãy search trên Google trước khi thực hiện bất kỳ điều gì. Và trong trường hợp bạn muốn truy cập, hãy đảm bảo máy tính của bạn đã có chương trình Anti Virus.

Crawler Spam được lập trình một cách hoàn toàn tự động, và như vậy sự có mặt của Crawler Spam sẽ làm dữ liệu Google Analytics của bạn bị loãng, không chính xác.

#3.2 Cách phát hiện Crawler Spam trong Google Analytics

Trong tài khoản Google Analytics, hãy truy cập vào mục Chuyển đổi (Acquisition), Tất cả lưu lượng truy cập (All Traffic), chọn mục Giới thiệu (Referrals):

Hãy chọn quãng thời gian khoảng 1 năm giống như trong báo cáo Hostname phía trên nhé. Google Analytics sẽ cung cấp cho bạn một danh sách các trang web đã giới thiệu lượt truy cập đến với website của bạn:

Danh sách này thông thường sẽ rất dài. Nó bao gồm những back-link của bạn trên những trang web khác, những lượt chia sẻ trên mạng xã hội, những banner, quảng cáo trả phí trên những trang tin tức..v.v..

Nhưng có một số trang có thể nhìn thấy ngay là rất đáng ngờ. Ví dụ như 100-reasons-for-seo, hay 99-reasons-for-seo chẳng hạn. Bạn có thể thấy 2 trang này đã spam website của mình bằng cả 2 cách là Ghost Spam lẫn Crawler Spam.

Có lẽ chúng ta sẽ cần một file note để ghi lại những trang web này

Bạn có thể tiến hành search trên Google đối với những trang web đáng ngờ để điều tra về chúng:

Trong trường hợp danh sách quá dài, hãy chọn lựa ra những Refferal có nhiều lượt truy cập hơn để kiểm tra trước.

#3.3 Tham khảo danh sách Crawler Spam phổ biến

Có rất nhiều website tổng hợp những Crawler Spam phổ biến và cập nhật chúng thường xuyên. Tiêu biểu như:

Họ thường xuyên tổng hợp và update những dữ liệu mới nhất. Chúng ta chỉ việc copy danh sách này về và điền vào phần Dạng bộ lọc (Filter Pattern). Trong danh sách này có thể sẽ có những website chưa spam web của bạn, nhưng bạn cũng có thể tạo trước, để chúng sẽ bị loại trừ trong tương lai.

#3.4 Tạo bộ lọc Crawler Spam (Crawler Spam Filter)

Sau khi đã có danh sách Crawler Spam, chúng ta sẽ tạo một bộ lọc với những thông tin như sau:

  • Tạo bộ lọc mới
  • Đặt tên cho bộ lọc
  • Loại bộ lọc (Filter Type): Tuỳ chỉnh (Custom)
  • Chọn Loại trừ (Exclude)
  • Trường bộ lọc (Filter Field): Nguồn chiến dịch (Campaing Source)
  • Dạng bộ lọc (Filter Pattern): Điền danh sách các site spam mà bạn đã có vào và ngăn cách mỗi giá trị bằng dấu |. Ví dụ: krumble-adsic|100-reasons-for-seo|99-reasons-for-seo|autoseo-b2b-seo-service. Chú ý, danh sách này chỉ có thể chứa 255 ký tự, do đó bạn có thể sẽ cần phải tạo nhiều bộ lọc khác nhau.

Hãy lưu lại, và tạo bộ lọc tiếp theo cho đến khi bạn đã điền đầy đủ danh sách spam.

Tổng kết về Bộ lọc Spam Bots trong Google Analytics

Dữ liệu Google Analytics là một trong những thứ giá trị nhất đối với chủ sở hữu trang web. Chắc chắn doanh nghiệp nào cũng cần những số liệu chính xác để có thể đưa ra định hướng và đường lối kinh doanh của mình.

Chúng ta không thể nào thoát khỏi spam mãi mãi. Nhưng việc theo dõi báo cáo của Google Analytics, phát hiện và ngăn chặn kịp thời những dữ liệu rác bằng cách tạo những bộ lọc Spam Bots trong Google Analytics là biện pháp hoàn toàn cần thiết.

Sau bài viết này, bạn đã có thể tạo ra 2 bộ lọc Refferal Spam phổ biến nhất. Đó chính là Ghost Spam Filter và Crawler Spam Filter. Mình sẽ bổ sung thêm một số bài viết về Filter Spam cho Google Analytics trong thời gian tới.

Chúc các bạn thành công, và đừng quên để lại câu hỏi và đóng góp ý kiến giúp bài viết của mình hoàn thiện hơn nhé!

1 thought on “Hướng dẫn tạo Bộ lọc Spam Bots trong Google Analytics”

  1. Mình muốn lọc 2 địa chỉ IP : 13.23.23.11 và 19.68.23.21 thì công thức như thế này bạn nhỉ?

    Loại bộ lọc: Tùy chỉnh
    Chọn loại bộ lọc: Loại trừ
    Trường Bộ lọc: Địa chỉ IP
    Dạng bộ lọc: 13.23.23.11|19.68.23.21

Leave a Comment

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Scroll to Top