網絡就像一個規模與日俱增的圖書館,雖然收藏的圖書已有數十億本之多,卻沒有中央檔案管理系統。Google 使用一種稱為網頁抓取工具的軟件來發現供公眾訪問的網頁。抓取工具會查看網頁,并跟蹤訪問這些網頁上的鏈接,就好像您在網上瀏覽內容一樣。這類抓取工具會逐一訪問各個鏈接,并將各網頁的相關數據返回至 Google 的服務器。
通過編入索引整理信息
當抓取工具找到一個網頁時,Google 的系統就會像瀏覽器一樣呈現該網頁的內容。我們會記下關鍵信號(從關鍵字到網站新鮮度),然后會在 Google 搜索索引中跟蹤所有這些內容。
Google 搜索索引中包含數千億個網頁,其大小遠遠超過 1 億千兆字節。它就像圖書后部的索引一樣 - 編入索引的每個網頁上出現的每個字詞都對應著一個條目。在將某個網頁編入索引時,系統會將該網頁分別添加到其包含的所有字詞的對應條目中。