搜網全能搜,幫您一鍵實現對百度、google谷歌、360搜索、搜狗、搜搜等搜索引擎及影視娛樂、圖片、音樂歌曲、問題知識、論壇、微信、微博、淘寶網上購物等熱門網站搜索,方便快速找到您需要的東西!

 

·繁體版本
·企業服務
·網站地圖

  首 頁 - 搜網全能搜 - 搜索引擎大全 - 搜索入門到精通 - 搜索引擎登錄 - 搜索愛好者
 
搜索技巧>>正文

 搜索例舉(7)

原作: 曹溪   2002-10-20 23:36:39

    


10、能否查到黃梅“女人與小說”系列文章,印象中是發表在八十年代中后期《讀書》雜志上。

用GOOGLE查詢“黃梅 女人與小說”,只有3個網頁。其中2個網頁是“樸素”的個人書架,帶berkeley.edu的那個可能就是讀書雜志,點一下“網頁快照”,得知這是〈讀書〉雜志1988年第1期,雖然包含“黃梅”、“ 女人與小說”2個關鍵詞,可是“黃梅”一詞是在別人的文章里出現的,后面的《“女人與小說”雜談之四》像是黃梅的文章,也只有個開頭。如果我們對GOOGLE搜索沒有更多的了解或者沒有聽說過網上有20年的《讀書》雜志全文,搜索到這兒可能也就終止了。噢,用高級語法指定網域“黃梅 女人與小說 site:tiger.berkeley.edu”?不用多此一舉,那是用來縮小搜索范圍的。用“黃梅 site:tiger.berkeley.edu”和“女人與小說 site:berkeley.edu”來試探倒還可以。

事實上,如果我們后退返回查詢結果頁面,點擊網址進入網頁
http://tiger.berkeley.edu/wdluo/reading/vol-106
從頭瀏覽一遍,是能夠找到黃梅的《“女人與小說”雜談之四》全文的,那為什么網頁快照只有文章的開頭呢?這與GOOGLE的偵察兵的爬進能力有關,大一點的頁面,GOOGLE的SPIDER最多能CRAWL開始的110K文本內容,超過這個范圍的,就是invisible,是不能抓取、索引和搜索的。《“女人與小說”雜談之四》這篇文章,GOOGLE只抓取了標題和開頭部分,文章結尾的作者“黃梅”以及本期雜志最后的目錄中的“女人與小說”、“黃 梅”是不能抓取和索引的,查詢結果里,GOOGLE給這個網頁文本大小標注101K。我們開始所以能查到這個頁面,也是這2個關鍵詞趕巧碰到一塊了。如果沒有呂叔湘《葛德文其人》中“今年第八期《讀書》上刊出黃梅同志的《瑪麗們的命運》”那句話,以“黃梅 女人與小說”為關鍵詞,GOOGLE是搜索不到黃梅的文章的。20年的讀書雜志,GOOGLE能搜索的,不過是每期前面三分之一左右的內容。

現在已經找到了“雜談之四”,網址http://tiger.berkeley.edu/wdluo/reading/vol-106中的vol-106肯定是總期數,可以用直接增加或減少期數的辦法來尋找其他各篇,也可以先找總目錄。返回上一級地址http://tiger.berkeley.edu/wdluo/reading/點一下Parent Directory,我們知道這是在加州大學伯克萊分校上過學的Weidong Luo的個人網頁,點一下contents,噢,找到了《讀書》雜志的總目錄,這個頁面也夠長的,看著眼暈,用IE的“編輯”--“查找”(在當前頁)”或直接CTRL+F,查不到?呵,那是因為作者名字中間有空格,那就用“女人與小說”查吧。找到了87年第6期(總第99期)、87年第8期(總第101期)、87年第10期(總第103期)、88年第1期(總第106期)。返回http://tiger.berkeley.edu/wdluo/reading/,按總期數找到黃梅的《女人與小說》四篇文章。如果以后還需要查1979-98年《讀書》雜志的文章,就收藏這個網址吧,順便把contents另存為文本文件,下次再找就用不著GOOGLE了。

搜索專家Gary Price說搜索引擎AllTheWeb的SPIDER爬進能力特別強,“Unlike Google and AltaVista, this search engine does not have a limit on the amount of content crawled on a Web page.”,我們可以測試一下。在http://www.alltheweb.com中查詢“黃梅 女人與小說”,找到2個網頁,全是Berkeley的,《讀書》雜志總第99期、106期,標記的文本大小都是125KB,實際上這兩個網頁的文本內容是290K和266K。

最后的結論是:GOOGLE的SPIDER最多能爬110K的文本,AllTheWeb這方面的能力稍強一點點,專家Price王婆賣瓜式的所謂Priceless Tips也有不靠譜的胡言亂語。


Gary Price的網站
http://www.searchengineshowdown.com/

Web Search Engines FAQS: Questions, Answers, and Issues by Gary Price
http://www.infotoday.com/searcher/oct01/price.htm

本例寫作過程中,參閱過季米的貼子《如何查詢網上《讀書》二十年的文章?》。
http://www.softto.com.cn/books/detail.asp?BBS_ID=822092



Copyright ©  2001-2002 SOWANG.COM All rights reserved. 
中文搜索引擎指南網  版權所有