首頁>>搜索技巧

 

 因特網(wǎng)上中文搜索引擎的評述

作者  葉中行 葛 勇 葉 蕾   2001-06-28

葉中行: 教授; 
Ye Zhongxing:: Professor
葛 勇: 博士研究生:上海交通大學(xué)應(yīng)用數(shù)學(xué)系,上海 20030
GE Yong: Postgraduate for PhD: Department of Mathematics, Shanghai Jiaotong University, Shanghai 200030
葉 蕾: 上海朗訊科技光網(wǎng)絡(luò)有限公司,上海 200233
Ye Lei: Lucent Technologies Optical Networks (China) Co. Ltd, Shanghai 200233


因特網(wǎng)上的科學(xué)信息和電子雜志的總量在持續(xù)增長,整個網(wǎng)絡(luò)可看作是一個可以檢索的150億單詞的大電子百科全書。但是這些信息是極其無序的,如何獲取和利用因特網(wǎng)上的信息已經(jīng)成了一個大問題。目前解決這一問題的最佳途徑是利用搜索引擎。
因特網(wǎng)上的信息呈幾何級數(shù)增長,快速有效地查詢一項艱巨的任務(wù),這個需求直接導(dǎo)致了廣域網(wǎng)信息檢索技術(shù)的快速發(fā)展,各類搜索引擎層出不窮。
所謂搜索引擎,是指因特網(wǎng)上的在萬維網(wǎng) (WWW)中主動搜索信息并能起自動索引、提供查詢服務(wù)的一類網(wǎng)站,這些網(wǎng)站通過網(wǎng)絡(luò)搜索軟件(又稱為網(wǎng)絡(luò)搜索機器人)或網(wǎng)站登錄等方式,將因特網(wǎng)上大量網(wǎng)站的頁面收集到本地,經(jīng)過加工處理而建成數(shù)據(jù)庫,從而能夠?qū)τ脩籼岢龅母鞣N查詢作出響應(yīng),提供用戶所需的信息。科學(xué)家很早就夢想能夠快速檢索所有的科技文獻,現(xiàn)在,搜索引擎使得在數(shù)秒鐘內(nèi)取得大量的文獻成為可能。
中文搜索引擎概述
中文搜索引擎的出現(xiàn)是最近幾年的事情,但發(fā)展很快。它的性能究竟如何,能檢索到的信息有多少,因特網(wǎng)上的中文信息或網(wǎng)頁知多少,這些都是值得關(guān)心的問題。
目前中文引擎共有約80多個,可以分為兩類,一類是自由詞或關(guān)鍵詞檢索搜索引擎,另一類是分類搜索引擎。由于語言、文化上的差異,中文搜索引擎必然與國外的搜索引擎有所不同。中文搜索引擎有兩個特點。
1.內(nèi)碼:由于歷史原因,目前世界上使用中文的國家與地區(qū)在中文語言的使用上有較大差別,體現(xiàn)在計算機處理上也有很大不同,其中最重要的區(qū)別是采用不同的字符集及內(nèi)碼體系,例如祖國大陸用的是GB碼,而中國臺灣地區(qū)則用BIG5碼,字符集的大小也不盡相同。
2.分詞:西文單詞用空格分隔相當(dāng)清晰,而此法對中文的字詞則行不通,因此造成傳統(tǒng)上就的不同處理方法。一種是完全單漢字全文檢索,即將文章中的每一個漢字都進行索引,而將用戶的檢索提問根據(jù)單漢字匹配的原則去檢索。此法查全率高,但查準率低。此處還有一種方法,則是目前絕大多數(shù)中文搜索引擎采用的分詞方法,即根據(jù)一定的原則和手段來對文章進行自動分詞,然后按詞建庫,對檢索結(jié)果按詞匯匹配進行查詢。一般來講,這樣既比較準確又能提高整個系統(tǒng)的檢索響應(yīng)效率。但中文的組詞十分復(fù)雜,常用名詞、專用名詞、地名、人名、成語等各不相同,目前的中文搜索引擎還沒有很好地解決中文名詞分詞的技術(shù),往往影響了引擎的查準率。
如同因特網(wǎng)上的信息一樣,搜索引擎的發(fā)展本身也是無序的,如何選擇最符合需要的搜索引擎,通過其在因特網(wǎng)上以最小的代價找到所需要的信息,這些涉及到對搜索引擎性能的評價。
中文搜索引擎的評價方式
要有效地評價各中文引擎,首先要選定評價標準。(1)資料全:即查全率高,以免為了某一信息要查詢多個搜索引擎;(2)信息準:即搜索得到的信息與用戶所要求的信息的相關(guān)性高,查準率直接影響到搜索的速度和費用;(3)速度快;(4)費用省。用四個字表述就是:全、準、快、省
勞倫斯和賈爾斯曾對Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、 Excite、 Google、 HotBot、 InfoSeek 、Lycos、 Microsoft、 North-ern、 Light、 Snap 、Yahoo等英文搜索引擎收集大量的試驗數(shù)據(jù),利用統(tǒng)計方法進行比較。分析和評價[1,2] 。研究結(jié)果宣稱,1997年公眾搜索引擎包含至少3.2億個網(wǎng)頁,最大的搜索引擎蓋率估計為網(wǎng)頁總量的三分之一。1999年他們利用隨機抽樣估計出網(wǎng)絡(luò)服務(wù)器總數(shù)為1.6億個。而公眾搜索引擎則為8億頁,兩年中翻了2.6倍。他們還估計出萬維網(wǎng)上總的影像資料數(shù)量約為3*1012字節(jié),公眾搜索頁面上有1.8億個圖像。同時搜索引擎的搜索結(jié)果有重疊部分,引擎的不同覆蓋組合之各為3.35億頁,是估計總頁數(shù)的42%。
中英文集成搜索引擎及網(wǎng)址
英文集成搜索引擎 Easy Searcher2 Http://www.easysearch..comByteSearch Http://www.bytesearch.comMamma Http://ww.mamma.comMetaCrawler Http://www.metacrawler.comProfusion Http://www.profusion.comSearch.com Http://www.search.comSavvySearch Http://www.savvysearch.comDogpile Http://www.dogpile.com
中文集成搜索引擎 飚鳳搜索通 Http://www.pchome..net萬緯搜索引擎 Http://www.wldesearch..yway.com3721 Http://www.3721.netT500 Http://search..t500.net(163用戶訪問 Http://longfei.itpc.com/asp/searcj.asp(169用戶訪問
中文搜索引擎的評價方法
為簡化測試和計算,筆者采用了抽樣統(tǒng)計方法,利用上海萬緯信息技術(shù)有限公司的一個可以同時對多個中英文搜索引擎進行搜索的集成搜索引擎進行測試,首先精選30個關(guān)鍵詞對頗有名氣的14個中文搜索引擎進行測試,選擇測試結(jié)果中返回頁總數(shù)最大的6個引擎,然后用精選的500個關(guān)鍵詞進行測試,搜集檢測返回頁數(shù)的數(shù)據(jù),并進一步估計萬維網(wǎng)上中文頁數(shù)總量和單個引擎的覆蓋率。
同時用二引擎、三引擎、四引擎、五引擎和六引擎進行測試,每次輸入關(guān)鍵詞,搜索結(jié)果返回各引擎的網(wǎng)頁總數(shù),同時要求返回前100、200、300條信息的記錄,用這三批信息中的重復(fù)數(shù)估計被測試的多個引擎返回頁的重復(fù)數(shù)。于是,各引擎的返回網(wǎng)頁總數(shù)之和減去重復(fù)數(shù),即得被測試的幾個搜索引擎返回的網(wǎng)頁總數(shù)。測試的日期從2000年3月18日到5月24日。
同時,隨機抽取一些關(guān)鍵詞進行手工檢查,以便確認所有的檢索結(jié)果都是從每個引擎中返回,并且是經(jīng)過正確的語法分析得到的,手工檢查的重復(fù)數(shù)與上述試驗中返回的重復(fù)數(shù)是一致的。通過邏輯查詢發(fā)現(xiàn),不同關(guān)鍵詞之間檢索結(jié)果重復(fù)率很低,可以忽略不計。
還要指出的是:每個搜索引擎我覆蓋的頁數(shù)每天都會有變化,很小的可以忽略不計,而有的變化很大,如其中一個引擎返回的網(wǎng)頁總數(shù)在5月12日到5月24日期間比二周前增加了1.675倍。

測試結(jié)果的評價
通過上述方法對2000年3月18日到5月15日測試結(jié)果進行計算。測試一個、兩個、三個、四個、五個、六個引擎返回頁數(shù)的數(shù)據(jù),可以認為返回順的網(wǎng)頁數(shù)與引擎?zhèn)數(shù)呈指數(shù)關(guān)系。用最小二乘法估計參數(shù),500個關(guān)鍵詞返回的中文萬維網(wǎng)頁總數(shù)上界為7500萬頁左右?紤]到所選用的關(guān)鍵詞僅500個,因此猜測實際的網(wǎng)頁總數(shù)應(yīng)在1億頁以上。
單個引擎的覆蓋率
算出了每個引擎返回中文萬維網(wǎng)頁數(shù)和萬維網(wǎng)總頁數(shù)的估計數(shù),就可以計算每個引擎的覆蓋率。如考慮覆蓋率變化較大的一個引擎的影響,再重新測試,對在3月18日到5月24日測試所得結(jié)果進行計算,得到各中文搜索引擎的覆蓋率。
由計算結(jié)果可知,大多數(shù)單個引擎的覆蓋面都是有限的,只有一個引擎能夠覆蓋各類引擎搜索總頁數(shù)的約60%。還有很大一部分萬維網(wǎng)頁沒有被任何引擎索引過。六個引擎組合的結(jié)果是最大引擎覆蓋頁數(shù)的1.67倍,是最小引擎覆蓋頁數(shù)的29.54倍。不同中文搜索引擎可檢索信息量的差距非常明顯。
造成引擎覆蓋面差距的原因是多方面的,如網(wǎng)絡(luò)帶寬、磁盤容量、計算能力等,引擎覆蓋面的大小顯然是衡量引擎功能的一個重要指標。
中文搜索引擎的查準率
筆者另外的一些試驗結(jié)果表明,不同引擎對同一個關(guān)鍵詞的查準率及同一引擎對選自不同領(lǐng)域的關(guān)鍵詞的查準率都有很大差別,查準率的變化范圍從0到100%。這表明各個引擎搜集信息的領(lǐng)域各有偏重。
在測試過程中還發(fā)現(xiàn)各個搜索引擎搜索的方式各不相同,Yahoo在查詢的時候是按目錄進行查詢的,比如說,在查"上海交通大學(xué)"的時候,它首先查詢有無與"上海交通大學(xué)"有關(guān)的目錄,如上海,然后再一層一層的往下查,而新浪和Lotof則是在網(wǎng)頁中直接按整個詞進行查詢,比如說在查詢"上海交通大學(xué)"時,這兩個搜索引擎將查詢包含"上海交通大學(xué)"這個詞的網(wǎng)頁,而Goyoyo則是按單字進行查詢的,如在查"上海交通大學(xué)"的時候,它將分別查詢與各個字有關(guān)的網(wǎng)頁,其結(jié)果是查全率較高,但查準率相對低一些。
查全率和查準率是有關(guān)的,查準率高但查全率低,查到的信息的絕對量就少。反之,查到有用信息的代價就高。為提高搜索的準確度,大多數(shù)的英文搜索引擎都支持邏輯查詢。用戶可以用多個單詞,加上適當(dāng)?shù)倪壿嬜址麃砜s小搜索范圍,從而顯著提高搜索結(jié)果的準確度。中文搜索引擎并非都支持控制符。
主要的引擎供應(yīng)商都聲稱他們的引擎能夠跟上整個因特網(wǎng)的膨脹速度,但是,萬維網(wǎng)是分布式的、動態(tài)的、快速增長的信息資源,這對于傳統(tǒng)的信息收集技術(shù)來講有著不可克服的困難。傳統(tǒng)的信息收集技術(shù)是為不同環(huán)境設(shè)計并代表性地用來索引一個靜態(tài)的、且可以直接訪問的文檔。而萬維網(wǎng)的發(fā)展帶來一些重要問題,如引擎的集中化架構(gòu)是否能跟上文檔的擴張速度;引擎是否能有規(guī)律地及時更新他們的數(shù)據(jù)庫,以便檢測那些已修改過的、已刪除的、已重新定位的信息。令人遺憾的是,對所有這些問題的回答都和目前最好的引擎技術(shù)相沖突,甚至和可預(yù)見未來的引擎技術(shù)相沖突。
集成搜索引擎
單個的搜索引擎是從數(shù)據(jù)庫提取信息的,具有很大的局限性,因此有必要發(fā)展性能更優(yōu)越的新型引擎搜索技術(shù),集成搜索引擎應(yīng)運而生。
集成搜索引擎(meta-search engine),也稱元搜索引擎、多搜索引擎、索引搜索引擎等,被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請求,由集成搜索引擎負責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。它是將整個因特網(wǎng)作為一超大型的動態(tài)的數(shù)據(jù)庫。由于采用了一系列的優(yōu)化運行機制,能夠在盡可能短的時間內(nèi)提供相對全面、準確的信息,即使不能完全滿足用戶需求,仍可以作為相對可靠的參考源進行擴展搜索,因此成為備受推崇的檢索首選入口。
許多人認為,集成搜索引擎不過是多個獨立搜索引擎的堆積、簡單的集中調(diào)用而已。事實上,一個真正的集成搜索引擎由三部分組成,即:檢索請求提交機制、檢索接口代理機制、檢索結(jié)果顯示機制。"請求提交"負責(zé)實現(xiàn)用戶"個性化"的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時間限制、結(jié)果數(shù)量限制等。"接口代理"負責(zé)將用戶的檢索請求"翻譯"成滿足不同搜索引擎"本地化"要求的格式。"結(jié)果顯示"負責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。
集成搜索引擎主要分為基于服務(wù)器端和基于用戶端兩大類,基于用戶端的根據(jù)用戶應(yīng)用模式又可分為基于萬維網(wǎng)的免費搜索引擎、可供免費下載的客戶端桌面應(yīng)用型、可共享或授權(quán)使用的桌面應(yīng)用型等。
英文集成搜索引擎涵蓋范圍較廣。Easy Searcher2收錄有網(wǎng)上最流行的20余個通用搜索引擎和19個類別的近400個專業(yè)的搜索引擎。 ByteSearch提供最新的20個檢索瀏覽、聯(lián)機商店等內(nèi)容方面的服務(wù)。 Mamma可同時調(diào)用7個最常用的獨立搜索引擎。MetaCrawler除支持調(diào)用12個獨立搜索引擎外,本身還提供了涵蓋近20個主題的目錄檢索服務(wù)。Profusion的檢索界面支持個性化設(shè)置,并自動實現(xiàn)符合特殊檢索語法要求的轉(zhuǎn)換。Search.com是美國著名的 IT站點CNNET下的一個子站,它提供14個類別的搜索引擎。 SavvySearch可調(diào)用200多個搜索引擎或指南,一次可并行調(diào)用5個搜索引擎,也可以作為一個專用搜索引擎的導(dǎo)航工具使用。SavvySearc同時提供23種語言版本,但其高級功能只適用英文版。Dogpile的特點是能檢索新聞組。
中文集成搜索引擎目前還不多見,基于客戶端的飚風(fēng)搜索通,可免費下載具有集成搜索功能的搜索軟件。上海萬緯信息技術(shù)有限公司最新推出的萬緯中文集成搜索引擎(基于服務(wù)器端)包括8個英文搜索引擎和12個中文搜索引擎,它們分別是AltaVista、 Argos、 DirectHit、 Fast、 Google、 Hotbot、 NorthernLight、 Yahoo,網(wǎng)典、新浪、雅虎(中文)、搜狐、搜索客、天網(wǎng)、悠游搜索、好多、找到啦、歐姆龍、飛華、Excite(中文)。用戶可根據(jù)需要自由選擇其中最多6個引擎進行同步搜索,搜索結(jié)果可按相關(guān)度、時間、域名和引擎分類。
此外還有的中文網(wǎng)站也提供多個引擎的搜索功能,但不是真正意義上的集成搜索引擎。如3721是一個搜索工具類網(wǎng)站,它可以把用戶輸入的關(guān)鍵詞同時提交到網(wǎng)易、新浪、雅虎(中英文)、搜狐、搜索客、263、悠游搜索7個搜索引擎上,其查找結(jié)果是這7個搜索引擎查找結(jié)果的大集合。T500網(wǎng)站則集成了國內(nèi)外近百個搜索引擎,分為網(wǎng)站、軟件、MP3、文章、新聞、游戲、硬件等類別,大部分搜索引擎都提供中文信息,著重服務(wù)于國內(nèi)網(wǎng)友。
中文集成搜索引擎的競爭剛剛開始,它將促進中文搜索引擎的進一步完善與提高,加速網(wǎng)絡(luò)技術(shù)的發(fā)展。
[1]Lawrence S, Giles G L. Science, 1998, 280
[2]Lawrence S, Giles G L. Nature, 1999,400
關(guān)鍵詞:搜索引擎 集成搜索引擎 因特網(wǎng)


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網(wǎng)  版權(quán)所有