首頁(yè)>>搜索查詢(xún)技巧 | ||
|
||
探索搜索引擎技術(shù)的現(xiàn)狀和將來(lái) |
||
2001-11-26 |
||
文/廣東 水月子
1、原理:信息檢索理論是起源 從字面意義上來(lái)解釋?zhuān)阉饕媸怯糜趲椭ヂ?lián)網(wǎng)用戶(hù)查詢(xún)信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶(hù)提供檢索服務(wù),從而起到信息導(dǎo)航的目的。
不過(guò)在早期的時(shí)候,互聯(lián)網(wǎng)上面的搜索引擎和今天我們使用的搜索引擎有所不同,早期的搜索引擎更加像是我們今天很多中文“ICP網(wǎng)站”,把因特網(wǎng)中的資源服務(wù)器的地址收集起來(lái),由其提供的資源類(lèi)型的不同而分成不同的目錄,再一層層地進(jìn)行分類(lèi)。人們要找自己想要的信息可按他們的分類(lèi)一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候,因?yàn)槿绻畔⒁坏┒嗥饋?lái),查找的時(shí)候所花費(fèi)的時(shí)間就很長(zhǎng)了。 簡(jiǎn)單地說(shuō),搜索引擎的原理是起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過(guò)掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的排序文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對(duì)包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果。互聯(lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還要有所謂的“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的數(shù)據(jù)搜集系統(tǒng)。蜘蛛系統(tǒng)是John Leavitt開(kāi)發(fā)的,并且由Michael Mauldin將這個(gè)系統(tǒng)融合到了Lycos搜索引擎里面去,它能夠?qū)⑺鸭玫木W(wǎng)頁(yè)內(nèi)容交給索引和檢索系統(tǒng)處理,就形成了我們常見(jiàn)的互聯(lián)網(wǎng)搜索引擎系統(tǒng)。當(dāng)然,一個(gè)完整的搜索引擎系統(tǒng)還需要有一個(gè)檢索結(jié)果的頁(yè)面生成系統(tǒng),也就是要把檢索結(jié)果高效地組裝成萬(wàn)維網(wǎng)頁(yè)面。 2、歷史:Yahoo!是代表 說(shuō)到搜索引擎的歷史,自然不能不說(shuō)雅虎(Yahoo!)了。正如計(jì)算機(jī)時(shí)代的很多新事物一樣,Yahoo!起源于一個(gè)想法,隨后變成一種業(yè)余愛(ài)好,最終成了使人全身心投入的一項(xiàng)事業(yè)。Yahoo!的兩位創(chuàng)始人大衛(wèi).費(fèi)羅(David Filo)和楊致遠(yuǎn)(Jerry Yang)是美國(guó)斯坦福大學(xué)電機(jī)工程系的博士生,于1994年4月建立了自己的網(wǎng)絡(luò)指南信息庫(kù),將其作為記錄他們個(gè)人對(duì)互聯(lián)網(wǎng)的興趣的一種方式。但是不久,他們將Yahoo!變成了一個(gè)可定制的數(shù)據(jù)庫(kù),旨在滿(mǎn)足成千上萬(wàn)的、剛剛開(kāi)始通過(guò)互聯(lián)網(wǎng)社區(qū)使用網(wǎng)絡(luò)服務(wù)的用戶(hù)的需要。他們開(kāi)發(fā)了可定制的軟件,幫助他們有效地查找、識(shí)別和編輯互聯(lián)網(wǎng)上存儲(chǔ)的資料。最初Yahoo!存放在楊致遠(yuǎn)的學(xué)生工作站“akebono”上,而搜索引擎存放在Filo的計(jì)算機(jī)“konishiki”上(這些計(jì)算機(jī)的名稱(chēng)都來(lái)自于一些具有傳奇色彩的夏威夷摔交手),結(jié)果令大家意想不到的是,Yahoo!大受歡迎,斯坦福大學(xué)的計(jì)算機(jī)網(wǎng)絡(luò)由此受到來(lái)自外界的大瀏覽量的沖擊。1995年初,Netscape Communications公司邀請(qǐng)大衛(wèi).費(fèi)羅和楊致遠(yuǎn)將他們的文件轉(zhuǎn)移到Netscape公司提供的更大的計(jì)算機(jī)上。這一做法不僅使斯坦福大學(xué)的計(jì)算機(jī)網(wǎng)絡(luò)恢復(fù)了正常,而且令雙方都有所受益。今天,Yahoo!含有鏈接到互聯(lián)網(wǎng)上的成千上萬(wàn)臺(tái)計(jì)算機(jī)中存儲(chǔ)的信息。 從1994年4月中國(guó)科學(xué)院網(wǎng)首次與Internet網(wǎng)互聯(lián)開(kāi)始,中文搜索引擎的發(fā)展速度就非常驚人,臺(tái)灣和香港加入互聯(lián)網(wǎng)的時(shí)間較早,建立和發(fā)展中文搜索引擎的歷史較長(zhǎng),其發(fā)展速度也很快。在中國(guó),大陸的中文搜索引擎以天網(wǎng)、搜狐、網(wǎng)易、新浪搜索等為代表;臺(tái)灣的中文搜索引擎以O(shè)penfind、奇摩、蓋世引擎等為代表;香港的中文搜索引擎以茉莉之窗、網(wǎng)上行、悠游等為代表。國(guó)際上一些大型的搜索引擎公司也紛紛加入了中文搜索引擎市場(chǎng),最具有代表性的是Alta Vista、Yahoo中文簡(jiǎn)體版和繁體版,還有Excite。 3、現(xiàn)在:與網(wǎng)頁(yè)完美結(jié)合 隨著網(wǎng)上內(nèi)容的爆炸式增長(zhǎng)和內(nèi)容形式花樣的不斷翻新,搜索引擎越來(lái)越不能滿(mǎn)足挑剔的網(wǎng)民們的各種信息需求。目前的搜索引擎仍然存在不少的局限性。從1996年起,搜索引擎技術(shù)開(kāi)始注重網(wǎng)頁(yè)質(zhì)量與相關(guān)性的結(jié)合,這主要是通過(guò)三種手段: 1.是對(duì)網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如INFOSEEK和GOOGLE; 2.是對(duì)用戶(hù)的點(diǎn)擊行為進(jìn)行分析,如DIRECTHIT(被ASK JEEVES收購(gòu)); 3.是與網(wǎng)站目錄相結(jié)合。最新的趨勢(shì)則是搜索的個(gè)性化和本地化。 個(gè)性化:入門(mén)網(wǎng)站的個(gè)性化已經(jīng)比較成熟了,但是搜索引擎的個(gè)性化并沒(méi)有得到解決,不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說(shuō)搜索引擎沒(méi)有考慮人的地域、性別、年齡等方面的差別。DIRECTHIT等公司一年前開(kāi)始了個(gè)性化方面的研發(fā)工作,但至今沒(méi)有推出任何產(chǎn)品。 本地化:本地化是一個(gè)比個(gè)性化更明顯的趨勢(shì)。隨著互聯(lián)網(wǎng)在全球的迅速普及,綜合性的搜索引擎已經(jīng)不能滿(mǎn)足很多非美國(guó)網(wǎng)民的信息需求。近來(lái),YAHOO!、INKTOMI、LYCOS等公司不斷推出各國(guó)、各地區(qū)的本地搜索網(wǎng)站,搜索的本地化已經(jīng)是勢(shì)不可擋。 4、未來(lái):高效、智能是主流 未來(lái),搜索引擎的發(fā)展方向是: 1.自然語(yǔ)言理解技術(shù) 自然語(yǔ)言理解是計(jì)算機(jī)科學(xué)中的一個(gè)引人入勝的、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看,自然語(yǔ)言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語(yǔ)言。以自然語(yǔ)言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱(chēng)之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(shí)(或概念)層面,對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語(yǔ)識(shí)別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語(yǔ)言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。 2. P2P對(duì)等網(wǎng)絡(luò) P2P是peer-to-peer的縮寫(xiě),意為對(duì)等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計(jì)算等方面大有前途。長(zhǎng)久以來(lái),人們習(xí)慣的互聯(lián)網(wǎng)是以服務(wù)器為中心,人們向服務(wù)器發(fā)送請(qǐng)求,然后瀏覽服務(wù)器回應(yīng)的信息。而P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲(chǔ)在每臺(tái)電腦里,而不是存儲(chǔ)在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西,這將使互聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。 3.多媒體搜索引擎 隨著寬帶技術(shù)的發(fā)展,未來(lái)的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開(kāi)發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被稱(chēng)作“第五代搜索引擎”的動(dòng)態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網(wǎng)上主要的信息。 (新浪科技) |
|
Copyright © 2001-2002 SOWANG.COM
All rights reserved.
中文搜索引擎指南網(wǎng) 版權(quán)所有