深入了解搜尋引擎的索引過程(搜尋工程)
- 檢索(Crawling):
- URL Discovery 網址探索:建構站內連結可以幫助索引。如果有新網頁,利用原本存在已久的已索引網頁,採用內部連結能更有效的幫助搜尋引擎建立有架構的索引系統。
- Crawler 檢索器(GoogleBot):爬取網頁的索引頻率,可能因不同網頁而不同。
- 如何讓 Google 較少 或 較常 檢索你的網站:優先專注再高品質內容,將有助於經常索引,而提高內容品質不一定代表排名必定提昇,而僅能代表 Google 將更常索引你的網頁。
- 如果不想讓特定網頁受到檢索可以怎麼做:可以利用 Robot.txt 檔案標註。
- 擷取與渲染(Fetching and Rendering):HTML、CSS、Javascrip
- 索引(Index):
- 經 GoogleBot 選擇適合索引的內容後,會將資料擷取回索引資料庫
- 剖析 HTML 架構、了解網頁(Understanding the Page)
- 網頁應該要有多少關鍵字?
- 什麼是好的 meta tag ?
- Google 索引能理解圖片嗎?
- 簡化重複叢集(Deduplication:Duplicate Clustering)
- 簡化標準網頁(Deduplication:Canonical)
- 索引選擇(Index Selection)
- 如何知道頁面是否被 Google 正確索引(可以利用 site: 語法檢核)
- 提供搜尋結果(Serving):
- 解讀查詢(interpreting the query):大部分會利用切片的方式先把有用的查詢字詞拆開,ex. 滷肉飯
的照片,並不需要『的』就能正確解析。 - 根據查詢解讀內容並決定排名,系統使用數百種信號判斷關連性。(網頁、圖片、新聞/文章、區域、
- 影片)
- 每天有 15% 的搜尋內容是全新的。Google 一直在評估搜尋的效果並持續更新。
- 解讀查詢(interpreting the query):大部分會利用切片的方式先把有用的查詢字詞拆開,ex. 滷肉飯