
|
10、能否查到黃梅“女人與小說”系列文章,印象中是發表在八十年代中后期《讀書》雜志上。
用GOOGLE查詢“黃梅 女人與小說”,只有3個網頁。其中2個網頁是“樸素”的個人書架,帶berkeley.edu的那個可能就是讀書雜志,點一下“網頁快照”,得知這是〈讀書〉雜志1988年第1期,雖然包含“黃梅”、“
女人與小說”2個關鍵詞,可是“黃梅”一詞是在別人的文章里出現的,后面的《“女人與小說”雜談之四》像是黃梅的文章,也只有個開頭。如果我們對GOOGLE搜索沒有更多的了解或者沒有聽說過網上有20年的《讀書》雜志全文,搜索到這兒可能也就終止了。噢,用高級語法指定網域“黃梅
女人與小說 site:tiger.berkeley.edu”?不用多此一舉,那是用來縮小搜索范圍的。用“黃梅
site:tiger.berkeley.edu”和“女人與小說
site:berkeley.edu”來試探倒還可以。
事實上,如果我們后退返回查詢結果頁面,點擊網址進入網頁
http://tiger.berkeley.edu/wdluo/reading/vol-106
從頭瀏覽一遍,是能夠找到黃梅的《“女人與小說”雜談之四》全文的,那為什么網頁快照只有文章的開頭呢?這與GOOGLE的偵察兵的爬進能力有關,大一點的頁面,GOOGLE的SPIDER最多能CRAWL開始的110K文本內容,超過這個范圍的,就是invisible,是不能抓取、索引和搜索的。《“女人與小說”雜談之四》這篇文章,GOOGLE只抓取了標題和開頭部分,文章結尾的作者“黃梅”以及本期雜志最后的目錄中的“女人與小說”、“黃
梅”是不能抓取和索引的,查詢結果里,GOOGLE給這個網頁文本大小標注101K。我們開始所以能查到這個頁面,也是這2個關鍵詞趕巧碰到一塊了。如果沒有呂叔湘《葛德文其人》中“今年第八期《讀書》上刊出黃梅同志的《瑪麗們的命運》”那句話,以“黃梅
女人與小說”為關鍵詞,GOOGLE是搜索不到黃梅的文章的。20年的讀書雜志,GOOGLE能搜索的,不過是每期前面三分之一左右的內容。
現在已經找到了“雜談之四”,網址http://tiger.berkeley.edu/wdluo/reading/vol-106中的vol-106肯定是總期數,可以用直接增加或減少期數的辦法來尋找其他各篇,也可以先找總目錄。返回上一級地址http://tiger.berkeley.edu/wdluo/reading/點一下Parent
Directory,我們知道這是在加州大學伯克萊分校上過學的Weidong
Luo的個人網頁,點一下contents,噢,找到了《讀書》雜志的總目錄,這個頁面也夠長的,看著眼暈,用IE的“編輯”--“查找”(在當前頁)”或直接CTRL+F,查不到?呵,那是因為作者名字中間有空格,那就用“女人與小說”查吧。找到了87年第6期(總第99期)、87年第8期(總第101期)、87年第10期(總第103期)、88年第1期(總第106期)。返回http://tiger.berkeley.edu/wdluo/reading/,按總期數找到黃梅的《女人與小說》四篇文章。如果以后還需要查1979-98年《讀書》雜志的文章,就收藏這個網址吧,順便把contents另存為文本文件,下次再找就用不著GOOGLE了。
搜索專家Gary Price說搜索引擎AllTheWeb的SPIDER爬進能力特別強,“Unlike
Google and AltaVista, this search engine does not have a limit
on the amount of content crawled on a Web page.”,我們可以測試一下。在http://www.alltheweb.com中查詢“黃梅
女人與小說”,找到2個網頁,全是Berkeley的,《讀書》雜志總第99期、106期,標記的文本大小都是125KB,實際上這兩個網頁的文本內容是290K和266K。
最后的結論是:GOOGLE的SPIDER最多能爬110K的文本,AllTheWeb這方面的能力稍強一點點,專家Price王婆賣瓜式的所謂Priceless
Tips也有不靠譜的胡言亂語。
Gary Price的網站
http://www.searchengineshowdown.com/
Web Search Engines FAQS: Questions, Answers, and Issues by Gary
Price
http://www.infotoday.com/searcher/oct01/price.htm
本例寫作過程中,參閱過季米的貼子《如何查詢網上《讀書》二十年的文章?》。
http://www.softto.com.cn/books/detail.asp?BBS_ID=822092
|