Google 搜尋的運作原理:深入解析

  • Post category:資料彙整
  • Post last modified:2024-11-01
  • Reading time:2 mins read

深入了解搜尋引擎的索引過程(搜尋工程)

  • 檢索(Crawling):
    • URL Discovery 網址探索:建構站內連結可以幫助索引。如果有新網頁,利用原本存在已久的已索引網頁,採用內部連結能更有效的幫助搜尋引擎建立有架構的索引系統。
    • Crawler 檢索器(GoogleBot):爬取網頁的索引頻率,可能因不同網頁而不同。
      • 如何讓 Google 較少 或 較常 檢索你的網站:優先專注再高品質內容,將有助於經常索引,而提高內容品質不一定代表排名必定提昇,而僅能代表 Google 將更常索引你的網頁。
      • 如果不想讓特定網頁受到檢索可以怎麼做:可以利用 Robot.txt 檔案標註。
    • 擷取與渲染(Fetching and Rendering):HTML、CSS、Javascrip
  • 索引(Index):
    • 經 GoogleBot 選擇適合索引的內容後,會將資料擷取回索引資料庫
    • 剖析 HTML 架構、了解網頁(Understanding the Page)
      • 網頁應該要有多少關鍵字?
      • 什麼是好的 meta tag ?
      • Google 索引能理解圖片嗎?
    • 簡化重複叢集(Deduplication:Duplicate Clustering)
    • 簡化標準網頁(Deduplication:Canonical)
    • 索引選擇(Index Selection)
      • 如何知道頁面是否被 Google 正確索引(可以利用 site: 語法檢核)
  • 提供搜尋結果(Serving):
    • 解讀查詢(interpreting the query):大部分會利用切片的方式先把有用的查詢字詞拆開,ex. 滷肉飯照片,並不需要『的』就能正確解析。
    • 根據查詢解讀內容並決定排名,系統使用數百種信號判斷關連性。(網頁、圖片、新聞/文章、區域、
    • 影片)
    • 每天有 15% 的搜尋內容是全新的。Google 一直在評估搜尋的效果並持續更新。