首頁>>搜索指導

 

 關鍵詞搜索引擎的信息搜集系統、索引數據庫和查詢接口

sowang.com  2002/03/26


 

關鍵詞搜索引擎有網站搜索和網頁搜索。

  網站搜索是將網站作為信息搜索對象,一般由人工完成;網頁搜索引擎的信息搜集系統是通過網絡機器人(robot)或是網絡蜘蛛(spider)來自動完成的,不需要任何的人工處理。

  網絡機器人(robot)或是網絡蜘蛛(spider)從一組已知的文檔出發,通過這些文檔的超文本鏈接確定新的檢索點,然后用機器人或蜘蛛周游這些新的檢索點,標引這些檢索點上的新文檔,加入索引數據庫組成倒排文檔。因此如何從原始文檔中抽取出全部有用信息,并將抽取的信息記錄到索引庫中是關鍵。

  關鍵詞搜索引擎的的索引數據庫建立的策略很大程度上影響了搜索引擎的效率與準確性。在設計一個索引數據庫時,要針對實際需要確定索引數據庫的數據結構和存儲方式。

  由于搜索引擎系統通常處理的都是海量的信息,因此還要設計一定的壓縮策略,對索引庫進行有效的壓縮,以提高檢索的速度。

  關鍵詞搜索引擎的檢索接口除了要提供對單個字符串進行檢索的基本檢索功能外,還要支持多種復雜的高級檢索功能,如多個字符串組合檢索、模糊檢索等。

  網頁搜索引擎的檢索接口還擔負著檢索結果相關性排序等關鍵技術的實現。

 


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有