網路爬蟲與資訊安全

什麼是網路爬蟲?

以搜集資料為目標的自動程式。

常見的網路爬蟲

  1. 搜尋引擎
  2. 網路服務商
  3. 數據搜集
  4. 盜文採集、垃圾流量網站
  5. 資安威脅

資安威脅

伺服器端的防禦機制

  • Apache:mod_evasive(自行安裝)
  • Nginx(限制流量):ngx_http_limit_req_module(內建)

伺服器方案的優點和缺點,優點是對於伺服器的損耗很小,但缺點是網站上容易出現 403 錯誤造成網頁已損毀的印象,GoogleBot 也會覺得這張網頁有問題,給它排名低一點。

應用程式面的防禦機制 Shieldon

Shieldon 的生命週期

  1. 部屬在 PHP 套件管理器 Composer 自動載入之後
  2. PHP 框架的設計模式如果 Middleware(中介層)

WordPress Hook 的生命週期

部屬在 plugins_load 第一順位

過濾爬蟲的優點

  1. 節省流量:平均頁面下載從 X MB 降到 < 20KB
  2. 提高攻擊者成本:
    1. 更多的 Proxy IP(Share:US$ 0.5、Dedicated:US$ 2)
    2. 更多的時間(與其浪費在你的網站、不如選擇其他目標)
  3. 節省系統開銷:可以使用 Acunetix 試用版進行掃描測試
  4. 提高安全性:
    1. 阻礙弱點掃描、降低找到弱點機率
  5. 智慧財產權保護:保護網站被打包帶走

過濾爬蟲的缺點

  1. 偶爾造成訪客瀏覽困擾
  2. 擋到不希望被阻擋的爬蟲
  3. 可能阻擋到 WP 正常功能的使用