3 bước để tìm và ngăn chặn Bots xấu

Thảo luận trong 'Tối ưu hóa On-Page' bắt đầu bởi doind, 14/9/15.

  1. doind

    doind Đang làm quen

    Tham gia ngày:
    11/9/14
    Bài viết:
    870
    Đã được thích:
    6
    Điểm thành tích:
    18
    Dữ liệu phân tích web của bạn đang bị sai lệch bởi bot truy cập trang web của bạn? Nếu đúng là như vậy thì hôm nay tôi sẽ có giải pháp giúp bạn giải quyết được vấn đề này.

    Hầu hết SEO đã nghe nói về việc sử dụng Log Files để hiểu hành vi Googlebot nhưng ít người biết được rằng chúng có thể được sử dụng để biết được bots đang thu thập site của bạn. Ngày càng có nhiều bot thực thi Javascript, thổi phồng các phân tích, lấy các nguồn tài nguyên, scrap và sao chép nội dung.

    [​IMG]

    Theo báo cáo của Incapsula năm 2014 cho thấy, bot đã chú ý đến 20.000 website (cả web lớn và nhỏ) trong khoảng 90 ngày và nhận thấy là bots chiếm 56% tất cả lưu lượng truy cập trên web; trong đó 29% là nguy hiểm.
    [​IMG]
    Bài viết này được hiểu là một điểm khởi đầu dễ dàng (bằng cách sử dụng excel) để hiểu những điều cơ bản về việc sử dụng Log Files, ngăn chặn bots xấu ở phía máy chủ và làm sạch báo cáo phân tích.

    1. Tìm tập tin log

    Tất cả các máy chủ giữ lại một danh sách tất cả các yêu cầu đến trang web mà chúng lưu trữ. Cho dù khách hàng đang sử dụng trình duyệt Firefox hay Googlebot đang tìm kiếm các trang mới được tạo ra thì tất cả các hoạt động sẽ được ghi lại trong một tập tin đơn giản.

    Vị trí tập tin này phụ thuộc vào loại máy chủ hoặc host mà bạn có. Dưới đây là một vài chi tiết trên các nền tảng phổ biến.

    - cPanel: một giao diện chung cho các máy chủ apache (xem dưới đây ) có thể dễ dàng tìm kiếm các tập tin log, bạn có thể click vào nó dễ dàng như việc click vào một liên kết.

    [​IMG]

    - Apache: tập tin log thường được tìm thấy trong /var/log và thư mục con; bạn cũng có thể sử dụng lệnh access.log để ghi lại nhật ký máy chủ một cách nhanh chóng.

    - IIS: máy chủ của Microsoft có thể được kích hoạt và cấu hình trong Internet Services Manager. Đi đến Control Panel -> Administrative Tools -> Internet Services Manager -> Select website -> Right-click sau đó Properties -> Website tab -> Properties -> General Properties tab.

    2. Nhận dạng số lượt xem theo IP và tác nhân người dùng

    Khi tập tin được tìm thấy, bạn mở excel (hoặc trình soạn thảo nào đó mà bạn thích ). Với hầu hết các trang web nhỏ và vừa, sử dụng một chiếc máy tính cũng có thể xử lý được vấn đề này.

    Bên dưới là một tập tin log được đưa vào một tập tin .txt mới sử dụng một trình soạn thảo văn bản đơn giản, sau đó mở excel sử dụng text-to-columns và “space” delimiter và thực hiện một vài chỉnh sửa trên các tiêu đề cột.

    [​IMG]

    Tìm kiếm số lượt xem theo IP

    Sau khi hợp nhất và mở các bản ghi trong excel, bạn sẽ dễ dàng tìm thấy số lượng truy cập theo IP.

    Để làm điều này:

    - Bạn tạo một Pivot Table và xem Client IP và có được các con số.

    - Copy và paste, đổi tên tiêu đề cột thành Client IP và Hits, sắp xếp giảm dần, sau đó chèn cột User Agent ở bên phải cột Hits.

    [​IMG]

    Tìm User Agents theo địa chỉ IP

    Bước cuối cùng, tìm user agents mà có liên quan đến các địa chỉ IP được xem nhiều nhất. Để làm điều này, quay trở lại pivot table và chỉ cần thêm phần Row Label vào Pivot Table.

    Bây giờ, việc tìm kiếm User Agent được kết hợp với các địa chỉ IP top đầu đơn giản giống như việc tìm kiếm một văn bản. Trong trường hợp này, không có tác nhân người dùng nào được được khai báo và bạn cũng nhìn thấy số lượt xem trang web nhiều hơn so với các địa chỉ IP khác.

    [​IMG]

    3. Ngăn chặn IP từ việc truy cập site và hiển thị trong Analytics

    Bây giờ bạn đã xác định được IP độc hại, sử dụng các hướng dẫn để ngăn chặn việc lạm phát số lượng trong Analytics, sau đó bạn chặn IP này để ngăn chặn hoàn toàn việc truy cập site.

    Chặn IP trong Analytics

    Sử dụng Filter trong Google Analytics, bạn có thể exclude những IP này. Chuyển hướng đến Admin -> Choose View -> Filters -> + New Filter -> Predefined -> Exclude traffic from the IP addresses -> Specify IP (regular expression).

    [​IMG]

    Mẹo: Google Analytics tự động ngăn chặn những trình thu thập được nhận biết bởi IAB. Bạn chỉ cần điều hướng đến Admin -> View Settings dưới “Bot Filtering", kiểm tra “Exclude all hits from known bots and spiders". Đây luôn là một thực hành tốt nhất để tạo ra một cái nhìn mới trước khi thay đổi cài đặt cấu hình.

    Nếu bạn sử dụng Omniture, có 3 phương pháp để exclude dữ liệu theo IP.

    - Exclude theo IP. Exclude hits tối đa từ 50 IP trở lên

    - Vista Rule. đối với công ty mà cần nhiều hơn 50

    - Processing Rule. Nó có thể tạo ra một quy luật để ngăn chặn việc hiển thị từ những IP cụ thể.

    Chặn IP từ cấp server

    Tương tự như việc xác định vị trí tập tin log, phương pháp ngăn chặn IP truy cập vào trang web của bạn ở cấp server thay đổi phụ thuộc vào loại máy chủ bạn sử dụng.

    - cPanel: sử dụng IP Address Deny Manager, IP có thể bị ngăn chặn và được quản lý trên một quy trình liên tục.

    [​IMG]

    - Apache: mod_authz_host được khuyến cáo cho việc này nhưng bạn cũng có thể sử dụng .htaccess.

    - IIS: Open IIS Manager -> Features View -> IPv4 Address and domain Restrictions -> Actions Pane -> Add Deny Entry.

    Kết luận

    Giải pháp của bên thứ ba để xác định tất cả lưu lượng truy cập thông qua một mạng lưới là xác định bots (xấu và tốt) theo thời gian thực. Họ không chỉ chú ý đến IPs và User Agent Strings mà còn nhìn vào cả HTTP Headers, hành vi điều hướng site và các yếu tố khác. Một vài site sử dụng các phương thức giống như reCAPTCHA để chắc chắn rằng khách truy cập vào site của bạn là con người.

    Những phương pháp khác mà bạn đã nghe nói để giúp bạn bảo vệ chống lại "sự nổi dậy của bots xấu" là gì? Hãy cho chúng tôi biết ý kiến của bạn.

    Ghi nguồn
    PHP:
    www.thegioiseo.com
     
    babyinternet thích bài này.
  2. love9x

    love9x Đang làm quen

    Tham gia ngày:
    1/4/15
    Bài viết:
    171
    Đã được thích:
    0
    Điểm thành tích:
    16
    Em thấy các bước chặn bots xấu này khá rõ ràng nhưng khi thực hiện thì thực sư là không dễ một chút nào đâu
     
  3. gamehoaqua

    gamehoaqua Đang làm quen

    Tham gia ngày:
    1/12/14
    Bài viết:
    47
    Đã được thích:
    0
    Điểm thành tích:
    6
    Việc mình chặn như vậy liệu có lợi hại cho seo không các bác ơi ???
    Sao e tưởng seo này càng tự nhiên càng tốt
     
  4. boychung2006

    boychung2006 Đang làm quen

    Tham gia ngày:
    22/10/14
    Bài viết:
    179
    Đã được thích:
    0
    Điểm thành tích:
    16
    Việc chăn bots là tốt nhưng hướng dẫn theo hướng của chủ thớt để chặn được thì rất khó ai làm được theo trừ khi có video hướng dẫn cụ thể.
     
  5. hau_promart

    hau_promart Lính mới

    Tham gia ngày:
    11/1/13
    Bài viết:
    21
    Đã được thích:
    0
    Điểm thành tích:
    1
    làm thế nào để phân biệt Box xấu mới là quan trọng. Nếu phân định không rõ ràng thì ảnh hưởng tới web rất lớn
     
  6. apkhayp

    apkhayp Moderator Moderator

    Tham gia ngày:
    1/4/15
    Bài viết:
    339
    Đã được thích:
    9
    Điểm thành tích:
    18
    làm sao để phân biệt Bot xấu gây hại cho website với những bot khác có trong website được chứ ?
     
  7. adslviettel

    adslviettel Đang làm quen

    Tham gia ngày:
    30/10/14
    Bài viết:
    30
    Đã được thích:
    0
    Điểm thành tích:
    6
    Bài viết hay, nhưng mà quan trọng là người quản trị phải phân biệt được bots gây hại cho web mới có thể làm tốt được
     
  8. trinhtiendat

    trinhtiendat Đang làm quen

    Tham gia ngày:
    23/9/14
    Bài viết:
    337
    Đã được thích:
    0
    Điểm thành tích:
    16
    phải học cách chặn boss xấu không thì từ khóa tụt thảm hại quá
     
  9. ShopHanhPhuc

    ShopHanhPhuc Đang làm quen

    Tham gia ngày:
    17/10/14
    Bài viết:
    299
    Đã được thích:
    0
    Điểm thành tích:
    16
    Cách này hay đó, nếu có video hướng dẫn tỉ mỉ từng bước nữa thì quá tuyệt vời ông mặt trời :D
     
  10. malaysia

    malaysia Đang làm quen

    Tham gia ngày:
    13/3/14
    Bài viết:
    31
    Đã được thích:
    0
    Điểm thành tích:
    6
    Bác có thể viết thêm bài về chặn bot của ahref không? Mình tìm trên google mà khó hiểu.
     
  11. tuanstda2

    tuanstda2 Đang làm quen

    Tham gia ngày:
    13/4/15
    Bài viết:
    105
    Đã được thích:
    0
    Điểm thành tích:
    16
    Dùng ahf để kiểm tra các link xấu rồi dùng webmaster để chặn những link xấu đấy
     
  12. it121hanhtinhxanh

    it121hanhtinhxanh Đang làm quen

    Tham gia ngày:
    12/10/16
    Bài viết:
    21
    Đã được thích:
    0
    Điểm thành tích:
    8
    Giới tính:
    Nam
    Nơi ở:
    203 Minh Khai
    Lần đầu tiên mình nghe đến khái niệm,mới vào nghề, cám ớn bài viết
     
  13. pollsmile1009

    pollsmile1009 Lính mới

    Tham gia ngày:
    24/10/16
    Bài viết:
    9
    Đã được thích:
    0
    Điểm thành tích:
    1
    Nơi ở:
    Ha Noi
    Sao bạn lại chặn nó đi. để đối thủ ko check đc à..hì..cái này bạn phải kiếm trang tây chứ trang việt chia sẻ sao làm được.:)
     
  14. ngocbich756

    ngocbich756 Lính mới

    Tham gia ngày:
    28/10/16
    Bài viết:
    5
    Đã được thích:
    0
    Điểm thành tích:
    1
    Giới tính:
    Nữ
    Nơi ở:
    hồ chí minh
    thank anh chia sẻ bài này là những điều em chưa biết, nhưng việc chặn IP này có tốt không lỡ chặn ip của khách hàng thường xuyên mua hay khách hàng tiềm năng thì sao anh?
     
Đang tải...

Chia sẻ trang này