中文搜索引擎指南網

  百度搜霸免費下載:1.2億網頁,58萬MP3完全免費高速下載,海量Flash任你搜

百度搜索引擎 最大的中文圖片庫 MP3免費下載 中國網址之家 網站推廣 搜索入門到精通 免費百度搜霸

首頁>>搜索新動態>>正文

搜索引擎探測大眾趣味

 http://www.803ums.cn   2004223 eNews



   二月初,珍妮·杰克遜(Janet Jackson)因為走光事件上升為Yahoo搜索的人氣冠軍,其搜索請求達到總數的20%,創下了Yahoo搜索關鍵詞的歷史最高記錄。這一數字是艷星Paris Hilton曾經所創記錄的60倍,是歌星小甜甜布萊妮的80倍。


  互聯網上的搜索引擎已經成為反映大眾趣味和關注焦點的最好工具,也許比任何其他調查統計都更為真實。

  高頻詞與社會熱點

  縱觀歷史,熱門詞匯反映了短期內大眾關注的焦點,長期來看可以連綴出世事的發展脈絡。美國康奈爾大學的研究人員Jon Kleinberg曾經做過一項調查,通過統計1790年后每年的美國國情咨文的用詞,發現了不同歷史時期的熱門詞匯。例如美國獨立戰爭期間出現頻率最高的是“民兵”和“英軍”;而在1947年到1959年這段時間內,“原子彈”則被反復地提起。

  如今,搜索引擎聲稱自己知道大眾心中的秘密。搜索引擎不只是被動地答疑解惑;事實上,各大搜索引擎提供了包羅萬象的統計數據,這些結果也許十分有趣。Keinberg認為:雖然計算機并不懂歷史,但是可以通過統計Blog(網頁訪問記錄)、E-mail和網頁中的文本“學習”到相關的背景知識,從而更好地理解搜索請求的含義。此外,這些統計數據還可以幫助社會學者和營銷人員發現某些正在顯露出的大眾趨勢,為他們的研究或者經營提供參考信息。

  在國內,搜索引擎甚至借助這種反映大眾趨向的能力,向更廣的商業領域主動出擊。2004年2月12日,百度搜索和光線傳媒共同發布了“2003年全球華人明星人氣榜”。熱門詞匯周杰倫、《無間道》、《天龍八部》、代言人、緋聞和黑幕等榜上有名。在此之前的1月8日,百度搜索還與胡潤聯手發布了“2003中國大陸百富人氣榜”。

  但是,搜索引擎有時也會不知所措。比如嘗試使用Google搜索哈姆雷特的名言“To be or not to be”,會發現Google竟然答非所問,羅列在頁面上的是GNU's Not Unix官方網站、Hot or Not交友網站……就是不見莎士比亞的影子。這個經典的例子引出了搜索技術的一個術語—停止詞(stopword)。

  顧名思義,計算機的一切能力都是以計算為基礎,即使閱讀也不例外。搜索引擎瀏覽分布在各個角落的網頁的同時,還在后臺不停地統計詞語的出現頻率。有一些詞語出現率極高,帶來巨大的統計成本,卻不包含太多的具體意義,比如漢語的“的、是、了”和英文單詞“the、and”之流。如果要得出包含該詞的全部結果,實在是過多了。例如遇到哈姆雷特名言中的那些高頻詞匯,經常導致搜索“引擎”突然熄火,因此這些單詞得名“停止詞”。在Google“閱讀”哈姆雷特的名言時,遇到了四個停止詞,出于無奈,所以它只好對頻率最低的“not”進行搜索,得到了一些有關“not”的流行網站。

  如果將此名言括上引號,Google便會突然開竅,順利地尋找到相關的網站。這一功能被稱作短語搜索(phrase search)。不過,比Google更智能的是Alltheweb,它已將這句名言列入搜索目錄,在結果頁面中直接提供了相關鏈接。

  搜索如何實現

  “已向英特網搜索gerald salton。共有 5,430 項查詢結果,這是第1~10項。搜索用時0.06秒。”0.06秒,體現著以Google為代表的搜索引擎的快捷和高效。這一切,又是如何實現的呢?

  通常情況下,一間機房只能擺放10臺服務器,但是Google的機房內可以容納80臺服務器,因為它們都是拆掉了機殼和部分零件的裸機。Larry Page和Sergey Brin他們將機器的外殼拆掉,再卸下沒用的芯片和零件使整機體積縮小,而且容易維護,當然也節省了租用機房的花銷。Google使用了超過一萬臺的服務器,并將其分散到五個不同地區的機房內,用以應付浩如煙海的網絡信息。

  為了對每一次搜索請求做出快速的反應,搜索引擎在前期下足了功夫。它們在后臺不停地重復三步操作。第一步,搜索引擎會不斷的利用爬蟲(Crawler)程序搜集互聯網上所有可達的網頁,無論是公開的還是隱藏的—只要曾被訪問過,就會招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個海量數據庫。由于“爬蟲”外出遵循一定的周期,有時可能跟不上網頁更新的速度,所以Google的“網頁快照”會出現與目標頁面不盡相同的情況。第二步,另一個程序會統計出緩存網頁(Cached Page)中各個字詞出現的頻率。第三步,根據詞頻概括出頁面的中心思想和段落大意,再按照不同的關鍵詞提煉出索引目錄。用戶的每一次搜索請求都是基于這些索引計算而得,因此響應異常迅速。

  無論Google的PageRank專利技術,還是百度全球獨有的“超鏈分析”技術,其大致想法都差不多:統計每個網頁被其它網頁鏈接指向的情況,次數越多則級別越高,排名也就越靠前。有的搜索引擎專家指出,搜索算法上UsedRank比PageRank更為準確。UsedRank指的是根據用戶點擊搜索結果而再次做出的統計。有的頁面可能通過開始的計算被排在結果的第八頁,但是通過查看每條鏈接的屬性,引擎可以將用戶點擊多而且瀏覽成功的頁面提到前面來。Alltheweb、Yahoo和百度等搜索引擎都老老實實地統計了每一次點擊,而Google則非常直接,不做任何再次統計。

  很多服務網站認同這樣一個觀點,用戶是懶惰的。根據點擊情況做出的統計,很多用戶一般只看完搜索結果的第一頁,并不瀏覽后續頁面。因此一些網站把更多的搜索結果顯示在第一頁上,比如Yahoo,它的“第一頁”有20項。而新浪則把“和盤托出”的服務形式發展到了登峰造極,在情人節當天搜索“鮮花”,一下子就跳出了78個網站鏈接。但是Google、Alltheweb和百度等搜索引擎依然堅持簡潔的作風,每頁只顯示10條搜索結果。

  除了搜索算法的不同,各家搜索引擎也在細化服務,推出了日趨豐富的搜索功能,比如大家鐘愛的Google圖像搜索。其實,Alltheweb的圖像功能也十分優秀,它還同時支持音頻、視頻以及下載站點的搜索。

  整合搜索引擎

  那么,用戶是否不得不逐一訪問每個搜索引擎以得到最好的搜索結果呢?也許不必。搜索整合技術可以一次性地提供盡可能多的信息。

  搜索整合(Meta Search)如果譯作“后搜索”,可能聽起來更時髦一些,不過這就無法體現其重新梳理搜索結果這一標志性的功能。通常的搜索是從龐雜的網絡資源中按照某個線索分門別類的提取信息,而Meta Search則是在其他搜索引擎的發現結果之上進行再加工,可謂是搜索的搜索。

  當用戶向搜索整合引擎輸入關鍵詞之后,它即向若干個獨立工作的搜索引擎同時發送搜索請求,并從它們的網頁數據庫中檢索出所需的信息。搜索整合引擎沒有建立自己的網頁數據庫,它的一切數據都來自其他的搜索引擎;所以,整合的結果也不會比其他任何一家搜索引擎的結果更好。但是,它可以將用戶從重復性勞動中解放出來,同時提供更有條理的搜索結果—這也是Meta Search研發之初的理想。

  目前搜索整合引擎大致以兩種方式進行工作。比較流行的做法是將搜索結果分析整合,刪除重復的條目,進而針對主題實現聚類操作。這類網站中的佼佼者有Vivisimo、MetaCrawler和DogPile等。另一類搜索整合網站面向治學嚴謹的研究者,如SurfWax和Copernic Agent。它們提供關鍵詞的邏輯運算功能,在提供大量搜索結果的同時,協助用戶挖掘信息,從而做出更深入的專題研究。第二類網站相當專業,一般需要繳費,在普通用戶中并不流行。

  關于搜索引擎的數據

  ● 在互聯網的應用排名中,搜索僅次于e-mail而位居第二;

  ● 人均每次輸入關鍵詞數量為1.3個;

  ● 網頁上的高頻詞匯出現率約占總字數的1/3,在實際搜索中幾乎不起作用;

  ● 使用搜索引擎高級功能的用戶低于0.5%,其中一部分是圖書館管理員。他們向讀者提供其無法搜索到的信息,利用的工具還是搜索引擎,不過是高級功能;

  ● 2003年,百度被7800萬中國網民使用了110億次,其中有近7億次搜索與華人明星有關


 

搜索論壇

 相關:

Copyright ©  2001-2003 SoWang.com All rights reserved. 
中文搜索引擎指南網
 
版權所有