|
怎樣利用互聯(lián)網(wǎng)學(xué)習(xí)和研究
|
|||||||||||||||||||||||
http://www.803ums.cn 作者:朱穎 2004年5月24日 來源:天極網(wǎng)絡(luò)專區(qū) |
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
全世界的人們在互聯(lián)網(wǎng)上就無數(shù)論題提供了海量信息。在互聯(lián)網(wǎng)上,用戶可以訪問到大量信息:大量的信息資源,電子郵件,文件傳輸,興趣小組成員,交互式協(xié)作,多媒體展示等等;ヂ(lián)上包含多種連接協(xié)議。這些協(xié)議包括e-mail,
FTP, HTTP, Telnet和 Usenet新聞。 多數(shù)協(xié)議都有配套的支持程序,可讓用戶搜索和存取信息資源。
> 要了解互聯(lián)網(wǎng)訪問協(xié)議的背景知識,請參見《了解互聯(lián)網(wǎng)》。 互聯(lián)網(wǎng)并不是一個其中所有的資源已經(jīng)分門別類,且可以從目錄中檢索的圖書館。
事實上,沒有人了解互聯(lián)網(wǎng)上有多少個文件。這個數(shù)字至少有數(shù)十億,且正在快速增長。
互聯(lián)網(wǎng)是一個自我發(fā)布的媒體。這意味著任何人只要有一些技能,就可以在互聯(lián)網(wǎng)上的一臺主機上發(fā)布信息。在你進行研究,尋找站點的時候,重要的是要記住這點;ヂ(lián)網(wǎng)站點的內(nèi)容可根據(jù)創(chuàng)建者的喜好和承諾,隨著時間可能會有改變。有些站點介紹專家領(lǐng)域的知識,而有些站點則是業(yè)余愛好者的天堂。有些站點也許會每天更新,而有些站點則是老面孔。對于這些資源,要評估所找到的信息的重要性。 注意互聯(lián)網(wǎng)的地址經(jīng)常會有變化,有的網(wǎng)站會消失掉。不要指望互聯(lián)網(wǎng)是穩(wěn)固不變的。 在互聯(lián)網(wǎng)上開展研究的一個最為有效的方法就是使用全球網(wǎng)(WWW)。因為該網(wǎng)絡(luò)包含了最重要的互聯(lián)網(wǎng)協(xié)議,全球網(wǎng)提供了互聯(lián)網(wǎng)上的大部分信息。 在互聯(lián)網(wǎng)上如何尋找信息 要在互聯(lián)網(wǎng)上獲得信息有不少基本方法: 1 如果有網(wǎng)址,直接訪問該網(wǎng)站 2瀏覽 3探索一個主題目錄 4使用網(wǎng)絡(luò)搜索引擎進行搜索 5在Web上的數(shù)據(jù)庫中檢索信息,即所謂的“深度Web” 6 加入 e-mail討論組或者 Usenet新聞組 下面將詳細介紹上面的每一個方法。 1. 如果有網(wǎng)址,就直接訪問該網(wǎng)站 如果你知道要訪問的網(wǎng)站的網(wǎng)址,可以使用 Web瀏覽器來訪問該站點。需要的是在地址窗口輸入該URL。URL代表統(tǒng)一資源定位符( Uniform Resource Locator)。 URL指明了對應(yīng)的電子文檔的互聯(lián)網(wǎng)地址。互聯(lián)網(wǎng)上的每個文件,無論其訪問協(xié)議是什么,都有一個獨一無二的URL。 Web瀏覽器使用 URL來存取主機目錄中的文件。該文件隨之顯示在用戶計算機的屏幕上。 URL的格式為 protocol://host/path/filename 例如: http://www.yesky.com/ServerIndex/77131840200114176/index.shtml ——Web中的一個超文本文件 ftp://ftp.uu.net/graphics/picasso —— 一個FTP站點中的文件 telnet://www.mysite.com —— 一個Telnet連接 可以在Web瀏覽器的地址窗口進行輸入上面這些地址。 2. 瀏覽 瀏覽Web主頁可以找到有用的信息,這個方法雖然有趣但不常見。 因為鏈接是由主頁的創(chuàng)建者設(shè)定的,你不會預(yù)先知道這些鏈接會連接到哪里。質(zhì)量高的起始頁面通常包含高質(zhì)量的鏈接。大學(xué)圖書館的網(wǎng)站就包含了鏈接到Web中的好的鏈接,這是你開始探索的好地方。 3.探索主題目錄 越來越多的大學(xué),圖書館,公司,機構(gòu),甚至志愿者正在創(chuàng)建主題目錄,以便對互聯(lián)網(wǎng)上部分信息進行分類。這些目錄按著主題分類,包含著同這些主題相關(guān)的互聯(lián)網(wǎng)資源的鏈接。Web上的主題目錄存儲在有重復(fù)但各不相同的數(shù)據(jù)庫中。大多數(shù)主題目錄提供搜索功能,可以讓用戶根據(jù)需要查詢數(shù)據(jù)庫。 何時使用主題目錄?對于一般的,需要探索的論題,以及供用戶瀏覽的論題,主題目錄是有用的。 有兩種基本類型的主題目錄:學(xué)術(shù)和專業(yè)目錄通常由行業(yè)專家創(chuàng)建和維護,以便為研究服務(wù),而商業(yè)門戶網(wǎng)站中包含的目錄通常是為了滿足普通大眾的需要,且為了吸引用戶的訪問量。你需要判斷有關(guān)主題目錄是否適合你的需要。 位于美國加州大學(xué)的INFOMINE,就是一個學(xué)術(shù)性的主題目錄的范例。 Yahoo就是一個最著名的商業(yè)門戶的例子 不同的主題目錄在內(nèi)容選擇方面,差別很大。例如著名的Yahoo在添加網(wǎng)頁到其數(shù)據(jù)庫中時,對于用戶提交的內(nèi)容并不作仔細審核。因此它不是一個可靠的研究資源,且不應(yīng)該用作研究。而INFOMINE僅選擇對于學(xué)術(shù)和研究團體有用的資源。需要考慮到你所訪問的目錄的搜集策略。對于這個問題的一個挑戰(zhàn)是:不是所有的目錄服務(wù)供應(yīng)者都愿意披露其搜集策略,同樣他們也不愿意透露對其網(wǎng)站進行評論的人的身份和資質(zhì)。不少主題目錄包含描述或者評估網(wǎng)站內(nèi)容的注解的鏈接。來自知名評論人士的質(zhì)量好的注解比諸如Yahoo! 這樣的由網(wǎng)站創(chuàng)建者寫的注解更有價值。 某些目錄是多年來的人們的智力勞動成果的結(jié)晶,了解這一點是有用的。所以,當(dāng)在Web上開展研究時,查詢主題目錄是很重要的。 建議: 如果你打算查找大量的資源,可以試一試 圖書館的互聯(lián)網(wǎng)索引 。由美國聯(lián)邦政府支持的該索引,搜集了大量的加州圖書館的資源,以及對大量論題的網(wǎng)絡(luò)資源的注解。 經(jīng)過精心的和細致的搜集整理,加上其客觀的富有價值的注解,以及層次化的組織,使得該索引成為“知識界的 Yahoo”。 WWW虛擬圖書館是網(wǎng)絡(luò)上最久遠的,也是最令人動心的主題了。其目錄包含了單個的主題的集合,其中不少主題是由位于全球的大學(xué)來維護的。 INFOMINE 是一個由加州大學(xué)維護的大型學(xué)術(shù)網(wǎng)站目錄,該目錄可以通過主題,關(guān)鍵字,或者標(biāo)題來瀏覽。對于每個列出的網(wǎng)站都有描述。 4. 使用Web搜索引擎,開展研究 一個互聯(lián)網(wǎng)搜索引擎可以讓用戶輸入同論題相關(guān)的關(guān)鍵字,查到包含相關(guān)信息的網(wǎng)站。有多種支持各種互聯(lián)網(wǎng)協(xié)議的搜索引擎。例如,Archie用于搜索存儲在匿名FTP網(wǎng)站中的文件。 目前,Web本身已經(jīng)成為互聯(lián)網(wǎng)環(huán)境的首選,位于Web中的搜索引擎越來越受到歡迎。Web搜索引擎能夠提供位于互聯(lián)網(wǎng)中的大量網(wǎng)站的信息。不少搜索引擎匯集了多種互聯(lián)網(wǎng)協(xié)議的數(shù)據(jù)庫,包括HTTP, FTP和Usenet。它們也能夠在Web中深入搜索到多媒體或者其他類型的文件,且可進行單項搜索。雖然Web搜索引擎主要由私營公司開發(fā),但其中的大多數(shù)是免費的。 一個Web搜索引擎包含三個部分: 爬蟲:能夠從一個鏈接到另外一個鏈接,遍歷網(wǎng)絡(luò),且識別和閱讀網(wǎng)頁的程序。 注意爬蟲程序是不加選擇地進行遍歷的,要知道一些搜集到的資源可能是過時的,不準(zhǔn)確或者不完整的。剔除這些不準(zhǔn)確的資源,其他的查到的資源當(dāng)然是有根有據(jù)的和有價值的。需要仔細評估所有的搜索結(jié)果。 大多數(shù)搜索引擎使用時,是在搜索項中填寫表格,之后請求搜索。該搜索引擎查詢其索引,之后生成一個包含你的搜索項的部分或者全部內(nèi)容的鏈接資源的頁面。這些資源列表的排列通常是有次序的,對于搜索內(nèi)容的打分比較曾經(jīng)是個流行的方法,如果你的搜索項在一個文檔中(包括在文檔的標(biāo)題中,在文檔的開始,在文檔的結(jié)束位置等)出現(xiàn)的次數(shù)越多,那么該文檔在就在搜索結(jié)果列表中就越處于開始的地位。 這類引擎被認為是第一代搜索引擎。 在搜索引擎技術(shù)中更為復(fù)雜的一項技術(shù)是根據(jù)概念,關(guān)鍵字,網(wǎng)址,鏈接或者流行度來對搜索結(jié)果排序。支持這些功能的搜索引擎被認為是第二代搜索引擎。這些搜索引擎對排序結(jié)果進行了改進。這是因為在決定相關(guān)度的時候,需要加上人為因素。例如,Google根據(jù)鏈接到其他頁面的網(wǎng)頁的排序得分對搜索結(jié)果進行排序。 如果有其他得分高的頁面鏈接到該頁面,那么該頁面的得分就高。這個策略結(jié)合了技術(shù)和人為的判斷。 所有的搜索引擎都有查尋規(guī)則。在開始搜索之前,你需要閱讀幫助文件,在線教程也可以幫助你學(xué)會這些規(guī)則。本文的最后列出了一些推薦教程。 建議: 從Google開始。這是個著名的第二代搜索引擎,其頁面的排序是基于熱門網(wǎng)頁鏈接到的數(shù)量來決定的。包含這些鏈接的網(wǎng)頁越熱門,該頁面的排列位置越靠前。這些熱門網(wǎng)頁的排列位置同樣也是這樣確定的。 這里用到的思想是:高質(zhì)量的網(wǎng)頁可以通過另外一個高質(zhì)量的網(wǎng)頁的鏈接找到。Google在市場上大獲成功,這就是該排序理念的見證。 另外一個有趣的鏈接排序引擎是Teoma。該搜索工具把搜索結(jié)果組成為三個部分:按照得分高低排序的網(wǎng)頁列表,專家給出的相關(guān)網(wǎng)站的鏈接, 以及基于論題關(guān)鍵字的概念分類。這些分類是動態(tài)生成的,可以細化你的搜索結(jié)果。排序同Google有些不同,Teoma在搜索論題時,在同一類別中來對網(wǎng)頁排序。 它們被稱為“特定主題的流行度”。 如果你的論題不太明確,或者你打算一次用一個搜索語句獲得多個搜索引擎的結(jié)果,那么Ixquick 是個好去處。該服務(wù)同時使用多個搜索工具,并返回剔除了重復(fù)頁面的搜索結(jié)果。這種搜索處理稱為元搜索。值得一提的是:Ixquick在源搜索服務(wù)中,僅僅返回最靠前的10個相關(guān)結(jié)果。這就意味著你一次可以使用多個搜索引擎來查詢。其他推薦的元搜索引擎包括 Vivisimo和ProFusion。 5. 探索“深度Web” “深度”或者“不可見”Web的概念近來開始浮現(xiàn),這是指存儲在Web數(shù)據(jù)庫中的,但搜索引擎訪問不到的內(nèi)容。換句話說,對于搜索引擎來說是“不可見”的。不同于檢索靜態(tài)頁面,爬蟲程序無法進入到數(shù)據(jù)庫中檢索內(nèi)容,以往,這些數(shù)據(jù)庫數(shù)量少,被稱為專門數(shù)據(jù)庫,主題數(shù)據(jù)庫等。 在不可見Web中訪問信息的最好方法是搜索這些數(shù)據(jù)庫,這些數(shù)據(jù)庫包羅萬象,從學(xué)術(shù)資源到商業(yè)信息。近來,動態(tài)生成的信息很可能是存儲在數(shù)據(jù)庫中,包括新聞,求職信息,飛機航班信息等等。隨著通過Web訪問的數(shù)據(jù)庫數(shù)量的增加,通過數(shù)據(jù)庫來在Web上尋找信息將成為主流。 其他未被爬蟲搜集的內(nèi)容包括非文本文件,諸如多媒體文件,圖像文件,以及象PDF這樣的非標(biāo)準(zhǔn)格式文件。Google對此是個例外,它可以檢索到PDF, Word和其他文檔。 注意:不少搜索引擎網(wǎng)站以及商業(yè)門戶網(wǎng)站把能夠搜索深度Web作為其服務(wù)項目之一,這種內(nèi)容匯集是大勢所趨。例如,你可以訪問AltaVista,查找新聞,地圖,職位信息,拍賣,購物信息等等,所有這些都處于爬蟲程序搜索的范圍之外,另外一個例子,Google把 PDF和Microsoft Office文件的檢索功能集成到其通用搜索服務(wù)中。 此處列舉了一些能夠搜索深度Web的網(wǎng)站: The Invisible Web 擁有超過10,000個數(shù)據(jù)庫的目錄,可以搜索你所需要的數(shù)據(jù)庫 Invisible-web.net 尤其適合于研究人員,擁有高質(zhì)量的數(shù)據(jù)庫 Search.Com 來自CNET的數(shù)十個基于論題的數(shù)據(jù)庫 6. 加入電子郵件討論組或者USENET新聞組 加入數(shù)以千計的電子郵件討論組或者Usenet新聞組。這些討論組涵蓋了大量論題。你可以提出專業(yè)問題且能夠得到來自其他人的回答。加入這些組之后,你每天就會收到一份你所感興趣的論題的新聞簡報。在互聯(lián)網(wǎng)上,這些討論組提供了一個很好的途徑來跟蹤你的專業(yè)課題。另外,討論組可以幫助你找到你需要的信息,無論是在線的和離線的。 有一些學(xué)術(shù)機構(gòu)的電子郵件討論組,不少論題是關(guān)于自然科學(xué)的,如果在參與者中找到一些專家是不奇怪的,Usenet新聞組涵蓋的論題的范圍更廣,參與者中有不少專業(yè)人士。對于任何論壇中的觀點和信息要小心評估。也要注意一小部分電子郵件討論組也發(fā)布到Usenet新聞組。例如,早期音樂電子郵件組EARLYM-L也存在于新聞組 rec.music.early。 電子郵件討論組由軟件程序管理,常見的程序有三種:Listserv, Majordomo和Listproc。使用這些程序的命令類似。 新聞組列表可以通過新聞閱讀程序訪問,諸如Netscape Communicator 這樣的Web瀏覽器也包含新聞閱讀器。這就可以在圖形環(huán)境下方便地訪問Usenet。 有一個很好的,基于Web的目錄可以幫助找到電子郵件討論組和Usenet新聞組,這就是Tilen.et, 網(wǎng)址為: http://tile.net/. WEB搜索引擎實戰(zhàn) 如何形成查詢語句 進行數(shù)據(jù)庫搜索需要進行三個步驟: 1明確你的概念 當(dāng)進行數(shù)據(jù)庫搜索時,你需要把你的論題分解成幾個部分,例如,如果你打算尋找美國總統(tǒng)布什和民主黨之間的預(yù)算協(xié)定的信息, 這里有三個概念:布什,民主黨,預(yù)算。 2對于每個概念,列出關(guān)鍵字 一旦明確了概念,就需要列出描述每個概念的關(guān)鍵字,一些概念也許只有一個關(guān)鍵字,其他一些概念則可能有若干關(guān)鍵字。 例如: 布什 民主黨 眾議院發(fā)言人 預(yù)算 預(yù)算協(xié)定 預(yù)算爭議 預(yù)算僵局 預(yù)算分配 根據(jù)你的搜索重點,也許有其他的關(guān)鍵字。 3 在你的關(guān)鍵字中明確邏輯關(guān)系 一旦明確了進行搜索的關(guān)鍵字,就需要建立這些關(guān)鍵字之間的邏輯關(guān)系。此處正式的名稱是布爾邏輯。布爾邏輯可以通過使用邏輯運算符 AND, OR和 NOT 來明確搜索項之間的關(guān)系。
一些搜索引擎可以進行布爾搜索,但沒有顯式用到邏輯運算符。 例如,你被要求列出所有搜索條件,并選擇搜索所有這些條件。這就表示AND邏輯。指明使用其中的任何一個條件,就表示OR邏輯。大多數(shù)搜索引擎使用一種隱含的布爾邏輯,其中用符號或者空格來表邏輯關(guān)系。例如, +bears +hibernation 表示 AND邏輯。 某些搜索引擎可以使用鄰近度運算符。這是一種規(guī)定了源文件中單詞之間的距離的AND邏輯。例如, AltaVista使用NEAR運算符。考慮如下搜索:布什 NEAR預(yù)算。在AltaVista中,這兩個單詞在源文件中相距不超過10個單詞。這就可以幫助你在搜索結(jié)果中保證了相關(guān)度。 大多數(shù)Web搜索引擎不能用一個搜索語句處理包含上面步驟2中的所有條件。 你可能需要使用不同的組合來修正的你的搜索,直到找到滿意的結(jié)果。例如,你可以從布什,民主黨,預(yù)算協(xié)定開始,用AND邏輯連接這些條件?纯茨愕乃阉鹘Y(jié)果,如果找不到,,用預(yù)算概念中的替換關(guān)鍵字重復(fù)上述過程。根據(jù)一開始的搜索結(jié)果,來看看需要添加哪些新搜索項。 要了解更多規(guī)范化搜索的信息,請參見互聯(lián)網(wǎng)上的布爾搜索。 進行搜索的11條技巧 1在每個搜索網(wǎng)站上閱讀指南,搜索的技巧取決于你使用的搜索引擎。在不同的搜索引擎中有大量選項。 2如果你進行多項條件的搜索,要清楚使用的布爾邏輯類型。例如,關(guān)于緯度和溫度的關(guān)系的搜索在不少Web搜索引擎上可以組合成: +緯度 +溫度,采用邏輯AND。 3 采用邏輯OR時,在搜索語句中包含同義詞或替代詞。 4 檢查拼寫。 5 如果搜索引擎區(qū)分大小寫,利用大寫的好處。 6 如不滿意搜索結(jié)果,用替代詞語再次搜索。 7 嘗試從不同的信息源,進行搜索,以便獲得多種結(jié)果。信息源包括 Usenet新聞組,互聯(lián)網(wǎng)FAQ,目錄中的評論頁面等等。 8 嘗試不同的搜索引擎,沒有兩個搜索引擎在同一索引中檢索。 9 嘗試可以同時啟動多個搜索引擎的搜索引擎。注意你將失去高級查詢選項功能,因為不是所有引擎都支持同一種查詢格式。 10 如果得到的搜索結(jié)果太多,或得到不相關(guān)的結(jié)果:
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|
Copyright © 2003 SoWang.com.All
Rights Reserved
中文搜索引擎指南網(wǎng)
版權(quán)所有