首頁>>搜索查詢技巧

 

搜索引擎從入門到精通之一_基礎篇

sowang.com 2001-12-08

文/陸元婕 

【時間】公元二零零一年X月

美美(15歲)愛上網,通常她就是泡聊天室、看新聞、玩網絡游戲之類的,時間一長,覺得有些無聊了。這天美美問:“妮妮表姐,你整天上網做什么呢?”妮妮說:“上網查資料呀。查資料?”“怎么查?上哪查?……”美美一連串的疑問。妮妮說:“查資料當然是要用搜索引擎啊。我平時寫論文用的資料、做主頁用的圖片、電腦知識、甚至電子版的小說、最新的CD試聽都是通過搜索引擎找到的。還有,我的主頁這半年訪問量劇增,也要歸功于搜索引擎啊。”

搜索引擎?美美覺得挺奇怪的:“這搜索引擎有這么大威力?嗯,我也要學習用搜索引擎。”“可以啊,不過,最近我挺忙的,要不,先讓小張(妮妮的男朋友)教你一些基本知識吧。”

“美美,學習使用搜索引擎先要了解一些基本知識,可是有點枯燥哦,要有心理準備喲。”小張在旁邊嘿嘿的笑著。美美嘴里哼了哼:“誰怕呀,來吧。”小張清了清嗓子,開始了講解:

“十幾年前,WWW(World Wide Web,萬維網)還沒有出生的時候,互聯網上只有冰冷的文字,沒有圖像和聲音,而且網站數量也不多,感興趣的網站就那么幾個,可以在很短的時間內就掌握其中的全部信息,搜索引擎完全沒有出現的必要。1993年,互聯網上出現了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator。瀏覽器的發展促使Web得到迅速推廣,站點數目以驚人的速度增加,我們再也不能用傳統記憶方式來應付與日俱增的站點。于是,搜索引擎就誕生了。第一個搜索引擎的出生地在美國,它的名字叫Archie,是由McGill大學的一個小組開發的。”

“早期的搜索引擎是把互聯網中資源服務器的地址收集起來,由其提供資源的類型不同而分成不同的目錄,再一層層地進行分類。人們要找自己想要的信息可按它們的分類一層層進入,就能最后到達目的地,找到自己想要的信息。這種方式,只適用于互聯網信息并不多的時候。”

“隨著互聯網的信息按幾何式增長,搜索引擎開始快速發展。1994年春天,世界上出現了真正意義上的搜索引擎——Lycos。隨著Yahoo!的出現,搜索引擎的發展也進入了黃金時代。搜索引擎家族不斷發展壯大,逐漸分布到信息世界的各個角落,它們的種類、技術也在不斷的發生變化。”

美美聽了半天,嘴越張越大:“哇,沒想到搜索引擎也有這樣的歷史呀。”

“那當然了,別打岔,下面要講搜索引擎的分類及原理了,仔細聽著。”

“盡管目前存在數量眾多的搜索引擎,但按照它們信息搜集方法和服務提供方式的不同,可以大致劃分為三大類型。”

“我們先來講講基于蜘蛛程序的的機器人搜索引擎,這種搜索引擎由一個稱為蜘蛛(Spider)的機器人程序自動訪問Web站點,提取站點上的網頁,并根據網頁中的鏈接進一步提取其它網頁,或轉移到其它站點上。由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。”

美美又忍不住了:“太難了,我聽不懂。”

“聽起來感覺很復雜吧?簡單講,就是由程序自動抓去網上的信息,‘搜索引擎’這個詞的原義就是指這種狹義的搜索引擎。”

“該類搜索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Excite、Inktomi、FAST、Lycos、Google;國內代表為:百度、OpenFind等。”

“哦,我這下我明白了,而且我還知道Google呢,好有名的。呵呵!你接著講吧。”美美終于弄懂了。

“接著給你講引擎目錄式搜索引擎,它是以人工方式或半自動方式搜集信息,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的國外代表是:Yahoo、LookSmart、Open Directory等;國內代表有新浪網、搜狐等的網站目錄。”

“美美,美美,哎,你在干嘛喲,睡著了?”
“哪里呀,我只是在想它和前面那種搜索引擎有什么不同嘛!”

“哦,我正要講呢。目錄的數據庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據站點的內容和性質將其歸為一個預先分好的類別,把站點的URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。”

“目錄的用戶界面基本上都是分級結構,首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞,不過,由于目錄只在保存的對站點的描述中進行搜索,因此站點本身的動態變化不會反映到搜索結果中來,這也是目錄與基于Robot的搜索引擎之間的一大區別。”

“最后要講的是Meta元搜索引擎,它的特點是本身并沒有存放網頁信息的數據庫,當用戶查詢一個關鍵詞時,它把用戶的查詢請求轉換成其它搜索引擎能夠接受的命令格式,并訪問數個搜索引擎來查詢這個關鍵詞,并把這些搜索引擎返回的結果經過處理后再返回給用戶。對于返回的結果系統會進行重復排除、重新排序等處理。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全,缺點是用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等,國內的一網打盡、颶風搜索通等提供類似的功能。”

“我真不知道搜索引擎還有這么多名堂呀,真是長了見識。”美美感嘆道。

“呵,這還只是開始呢,今天我們就到這兒了,你也該休息了,下次我們再繼續吧。”


Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有