什麼是網路爬蟲?
以搜集資料為目標的自動程式。
常見的網路爬蟲
- 搜尋引擎
- 網路服務商
- 數據搜集
- 盜文採集、垃圾流量網站
- 資安威脅
資安威脅
伺服器端的防禦機制
- Apache:mod_evasive(自行安裝)
- Nginx(限制流量):ngx_http_limit_req_module(內建)
伺服器方案的優點和缺點,優點是對於伺服器的損耗很小,但缺點是網站上容易出現 403 錯誤造成網頁已損毀的印象,GoogleBot 也會覺得這張網頁有問題,給它排名低一點。
應用程式面的防禦機制 Shieldon
Shieldon 的生命週期
- 部屬在 PHP 套件管理器 Composer 自動載入之後
- PHP 框架的設計模式如果 Middleware(中介層)
WordPress Hook 的生命週期
部屬在 plugins_load 第一順位
過濾爬蟲的優點
- 節省流量:平均頁面下載從 X MB 降到 < 20KB
- 提高攻擊者成本:
- 更多的 Proxy IP(Share:US$ 0.5、Dedicated:US$ 2)
- 更多的時間(與其浪費在你的網站、不如選擇其他目標)
- 節省系統開銷:可以使用 Acunetix 試用版進行掃描測試
- 提高安全性:
- 阻礙弱點掃描、降低找到弱點機率
- 智慧財產權保護:保護網站被打包帶走
過濾爬蟲的缺點
- 偶爾造成訪客瀏覽困擾
- 擋到不希望被阻擋的爬蟲
- 可能阻擋到 WP 正常功能的使用