首頁>>搜索查詢技巧

 

搜出網上精彩

作者:肖剛  2001-09-23

  對于網民來說,幾乎每天都要用到它,也正是它,締造了今天的雅虎,說道這里你可能已經知道它指的就是搜索引擎

。習慣上,人們認為網絡搜索引擎是進行查詢網站或網頁信息的站點或工具,這是一種狹義的定義。廣義地說,搜索引擎是指在互聯網上或通過互聯網能夠響應用戶提交的搜索請求,返回相應查詢結果的信息技術和系統,這里所說的信息可以是任意的信息,如網站信息、商品信息等等。

搜索引擎類型和原理

  互聯網上的搜索引擎種類很多,但它們的技術基礎都是互聯網技術和數據庫技術,以及一些人工智能技術和多媒體技術。按照搜索引擎提供的功能和使用的技術來劃分,目前互聯網上的搜索引擎有四種基本類型。

  分類目錄搜索

  分類目錄將網站信息系統地分類整理,提供一個按類別編排的網站目錄,在每類中,排列著屬于這一類別的網站站名、網址鏈接、內容提要,以及子分類目錄,這就像一本電話號碼簿一樣,典型代表是“雅虎”。你可以在分類目錄中逐級瀏覽尋找相關的網站,分類目錄中往往還提供交叉索引,從而可以方便地在相關的目錄之間跳轉和瀏覽。你也可以使用關鍵詞進行檢索,檢索結果為網站信息,這種檢索也稱之為網站檢索。

  網頁搜索

  網頁搜索引擎同分類目錄的最大區別是搜索結果不是網站信息,而是符合檢索條件的網頁信息。這類搜索引擎的代表是AltaVista。依據搜索引擎獲得網頁信息的方式不同,軟件的復雜度也差別較大。常見的獲取信息的方法包括:

  ★ 檢索你遞交的網頁(并不是整個網站),這種情況下仍然需要用戶登錄自己的網頁地址等信息,但搜索引擎系統程序會對提交的網頁(全文)進行處理,建立索引,以提供全文檢索。

  ★  使用Robot在互聯網上自動漫游搜尋網頁信息,搜索引擎系統程序自動對Robot訪問的網頁進行處理,建立用于提供全文檢索的索引。

  無論哪種情況,網頁搜索引擎都要對網頁建立索引,并將搜集到的網頁信息加入系統的數據庫中,索引的建立則是網頁搜索引擎的核心技術之一。

  圖形圖像搜索

  圖形圖像搜索引擎是專門搜索圖形、圖像(照片)的搜索引擎。但是現在的圖形圖像搜索引擎仍然是通過文本關鍵詞查詢相關的圖形圖像信息,它所采用的基本技術同傳統的網站搜索引擎或網頁全文搜索引擎基本相同,唯一的區別是多了一些對圖形圖像的專門處理技術,例如生成圖像微縮圖標的技術、多媒體數據庫技術等等,但是這些技術應該屬于多媒體技術范疇更加合適,而不屬于搜索引擎技術。

  當前的圖形圖像搜索引擎從信息來源劃分主要包括兩類:一類是門戶網站提供的圖形圖像搜索,它們往往采取同網站和網頁搜索引擎類似的技術獲得信息源,也就是依靠用戶登錄和Robot自動尋找收集,比較典型的如Infoseek Image Surfer和AltaVista-Image Search,它們使用的都是同一個軟件(Excalibur公司的Image Surfer圖像搜索引擎);另一類是一些(專業)圖庫提供的圖形圖像搜索引擎,這些圖庫一般都由專門的機構維護,收錄有某一方面的珍貴圖像信息,典型的如“Smithsonian圖片數據庫”、“美國航天總署圖片交流中心”等。

  真正意義上的圖形圖像搜索引擎應該能夠直接對圖像本身進行搜索,當然這里面涉及到圖像理解、識別、模式匹配等十分復雜的人工智能技術,是目前的技術還無法實現的。

  元搜索

  元搜索有一個妮稱,叫做“媽媽”搜索引擎,因為這類搜索引擎自己并不收集網站或網頁信息,通常也沒有自己的數據庫,而是將搜索請求同時發送到多個傳統的搜索引擎(例如將查詢請求發給InfoSeek,Excite,AltaVista,Yahoo,HotBot),然后對各個搜索引擎的反饋結果再進行整理后返回給查詢者。元搜索引擎向其提交查詢請求的搜索引擎稱為目標搜索引擎。

  元搜索引擎是一種很有用的搜索工具。它特別適合兩種搜索應用:

  ★ 使用單個關鍵詞或詞組進行查詢,通過元搜索引擎一次提交就可以獲得來自多個引擎的綜合結果,顯然比單獨地訪問各個搜索引擎方便的多,而且元搜索引擎還可以自動過濾掉大量的重復信息。

  ★ 測試某個關鍵詞查詢在多個搜索引擎中的效果,使用元搜索顯然是最方便的途徑。

  但是,元搜索引擎也存在很大的局限性:

  首先,由于不同的搜索引擎所能支持的高級查詢不同,處理方式也差別很大,因此現在的元搜索引擎都只能進行簡單的關鍵詞查詢,不支持復雜的高級條件查詢。

  其次,由于搜索處理時間的限制,現在的元搜索引擎一般在某一個目標搜索引擎上花費的時間都不長,所以一般對每個目標搜索引擎只獲取了大約10%的信息。因此當你確實需要完整的信息,元搜索引擎就無能為力了。

  鑒于這種情況,現在出現了一些專門的搜索軟件,通過這樣的軟件可以向上百個搜索引擎提交請求,然后再對結果處理。由于沒有時間和帶寬上的限制,所以可以長時間運行以得到更加豐富的綜合結果。

引擎人機界面技術

  以上我們考察的是搜索引擎核心技術,實際運行中的搜索引擎還要涉及許多輔助技術,例如:各種人機界面技術、人工智能技術、等等。

  特別值得關注的是搜索引擎的人機界面技術,人機界面技術的不同往往使得搜索引擎表現出不同的特色。當前搜索引擎涉及的人機界面技術主要有三類:搜索請求提交技術、搜索結果表現技術、搜索行為分析技術。

  搜索請求提交技術

  多語言查詢技術,這對于大型的綜合搜索引擎網站特別有用,這些網站一般都收錄了多種語言的信息。當用戶使用一種語言輸入查詢關鍵詞時(例如使用中文),系統除了使用這個關鍵詞查詢外,還會同時使用相應的英文關鍵詞查詢,這樣就可以同時得到各種語言的查詢結果。由于中文編碼的多樣性,多語言查詢技術又有了其特殊意義,引擎可以在各種中文編碼(GB、BIG5等等)之間轉換,從而可以只使用一種中文編碼提交查詢請求,而同時查詢出使用不同中文編碼的信息。

  模糊語義查詢技術,也就是當用戶提交一個關鍵詞后,系統還可以使用這個關鍵詞的同義詞、近義詞等查詢,從而使得查詢更加準確。

  精確語義查詢技術,也就是查詢結果應是確切的查詢關鍵詞,而不是正好的拼湊。例如,當你查詢“中國”時,就不能把含“國中國”的信息也查詢出來。

  自然語言搜索請求提交界面,例如Ask Jeeves,用戶可以直接使用自然語言來描述搜索請求,系統的自然語言理解引擎會將用戶的自然語言問句轉換成搜索引擎可以理解的內部搜索請求。采用自然語言的搜索請求提交界面將使搜索引擎告別關鍵詞查詢時代,進入一個嶄新的時代。

  現在一些網站也提供一種簡單的類自然語言界面,也就是在搜索關鍵詞前面加上一些指導用戶的詞句,例如:“我要找……”,這種界面從本質上還是傳統的關鍵詞搜索界面,不是自然語言界面,但畢竟可以給用戶更多的指導,增強了站點的親和力。

  搜索結果表現技術

  搜索引擎一般都是將搜索結果列表顯示在網頁上,當然也可以將結果發送到用戶的電子郵箱(提供E-mail搜索的站點)。比較優秀的站點會對搜索結果進行相關度評價和排序,使用戶對搜索結果能夠有一個更好的取舍。

  搜索結果表現技術的一個新的重要方面是搜索引擎翻譯技術,它可以自動將搜索結果翻譯成為用戶的目標語言,這涉及到機器翻譯技術的范疇。現在某些語言的機器翻譯技術已經比較成熟,已經可以充分應用到搜索引擎翻譯中。有興趣的讀者可以訪問世界人網站(chinese.worldman.com),它借助Lycos、Yahoo等網站,進行中韓日英等語種翻譯檢索。

  搜索行為分析

  搜索行為分析技術的核心是跟蹤分析用戶的搜索行為,充分地利用這些信息來提高用戶的搜索效率。提高搜索行為分析效率的途徑主要有兩種:“群體行為分析”和“個性化搜索”。

  現在許多搜索引擎推出的“熱門關鍵詞”服務就是一個群體行為分析的典型例子。“熱門關鍵詞”隨時提供用戶使用最多的關鍵詞,用戶可以直接點擊這些關鍵詞連接。由于人們的從眾心理,“熱門關鍵詞”往往也是你想查詢的關鍵詞。

  個性化搜索則是搜索行為分析技術最有前途的方向。通過積累用戶的搜索個性化數據,將使用戶的搜索更加精確,更符合每個用戶的需求。

搜索引擎的未來

  現在,以傳統搜索引擎為核心的“網絡門戶”的發展受到來自各方面的巨大競爭壓力,許多搜索引擎由于效率低下,給那些提供搜索引擎服務的網站帶來了大量非難之詞。但無論如何,搜索引擎技術作為一項專門技術已經成長起來,并且將會更加成熟,向著更廣度、更深度的方向發展,搜索引擎技術也正在不斷應用于各種互聯網技術中。

  更精確的搜索引擎

  搜索引擎技術本身一個最重要的發展方向是提供更精確的搜索。當前的搜索引擎基本上都是“關鍵詞搜索”,而且不能處理復雜語義信息,功能比較強的也只是提供一些基本的條件組合查詢功能和簡單的語義查詢。

  要想大幅度地提高搜索引擎的效率和搜索結果準確度,必須建立在對收錄信息和搜索請求的理解之上,也就是說,必須處理語義信息。顯然,人工智能技術將在這方面大有用武之地,這方面正是研究的熱點。

  提高搜索精確度的另一個途徑是提供“個性化的搜索”,也就是將搜索建立在個性化的搜索環境之下,“個性化”將使搜索更符合每個用戶的需求,而不僅僅是準確。

  可以使用的能夠理解語義的搜索引擎和個性化搜索引擎還需要很多的研究工作,近期一個可能實現的目標則是對“結構化信息”的搜索引擎,這種引擎充分利用XML等技術使信息結構化,同時使查詢結構化,從而使搜索的準確度大大提高。例如:當我們想查詢“做紅燒肉的菜譜”時,如果在傳統的引擎上,我們可以提交“紅燒肉”和“菜譜”兩個關鍵詞,甚至可以指定它們之間是“與”的關系,但我們得到的結果大多數情況下不會是“做紅燒肉的菜譜”,而是一堆既含有“紅燒肉”,又含有“菜譜”這兩個單詞的網頁。如果在“結構化信息”的搜索引擎中查詢,則可以查詢“菜譜”,同時通過結構限定為“做紅燒肉的”,這時查詢結果準確度就會極大地提高。

  更專業化的搜索引擎

  雖然現在大型的綜合搜索引擎寥寥可數,但各種專業搜索引擎和專門信息搜索引擎則如雨后春筍般迅速發展起來。專業化的搜索引擎在提供專業信息方面有著大型綜合引擎無法比擬的優勢,它可以在某一個專業面上做得更好、更完善。其實這正符合了互聯網發展的一個趨勢:互聯網將更專業化、分工更細。

  專業搜索引擎和專門信息搜索引擎所采用的基本技術同綜合引擎一樣,而且基本上都是成熟的技術(某些專門信息搜索引擎可能還需要一些特殊技術),它們的發展沒有技術障礙,可以預見專業化的搜索引擎將會越來越多,越來越豐富多彩。

  超越搜索引擎——搜索服務

  如果要問搜索引擎之后將如何發展,或者問搜索引擎之后是什么?答案就是:搜索服務。現在的搜索引擎基本上屬于第一代互聯網的技術,它是一種被動的技術,用戶訪問搜索引擎,進行搜索,獲取信息。搜索服務則完全是一種主動的服務,它就象你的一個信息秘書一樣,隨時利用搜索技術為你提供個性化的信息服務,為你在互聯網上收集各種有用信息。


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有