百度Google文檔搜索應用與比較
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
http://www.803ums.cn 2004年9月23日 作者:loverty |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
互聯網上除一般網頁外,還如PDF,DOC,RTF,xls,PPT(S)等的文檔文件,雖然這些文件不象
HTM文件那樣多,但這些文件通常會包含一些別處沒有的重要資料,因此具有獨特的價值和吸引力!所以對網絡中這部分資源的挖掘和利用也是搜索引擎的一個重要功能.對網絡的這部分資源的挖掘和分析的水平也成了衡量一個搜索引擎完整與否,成熟與否的重要指標.多文檔搜索是高級搜索的重要內容,與其他高級搜索功能一起,構成高級搜索功能體系.
主要比較文檔數量,語法使用的靈活性,準確性,多語法混合使用等等
數據
參比引擎
百度
Google
filetype:doc
搜索引擎
1050
743
filetype:doc
計算語言學
546
214
filetype:doc
計算機檢索
17700
6080
filetype:ppt課件
13900
1480
filetype:ppt
軟件開發模型
filetype:ppt 軟件
模型
560
697
919000
697
filetype:pdf
xml高級編程
55
116但是匹配的質量很差,由各自不同的分次特點決定的。
filetype:pdf
服務器安全
17800
6240
filetype:xls
報名
9940
1890
filetype:xls
名單
32300
3000
表1
文檔數量比較
性能
參比引擎
百度
Google
靈活性
支持三種方式查詢
支持三種方式查詢
準確性 整體上講根網頁搜索的效果差不多
,由于各自分詞的特點不同,所以對中文語義的理解上就會出現差異,所以在結果的數量并不是全部,但是對大多數關鍵詞來說,百度的結果還是比較符合搜索目標的,而個別google的搜索結果就不太能令人滿意。這也是由于google的強行前臺分詞造成的,結果數量多,并不精準。對于文檔搜索來說準確恰當才是最重要的,數量只是其次。
多語法混用
一般的邏輯搜索:+
- | 均能很好的支持
其他高級搜索指令:
其他支持
1
支持對所有文檔類型的搜索,filetype:all
1
不支持對所有文檔類型的搜索,
表2其他參數比較
一搜也提供文檔搜索,目前支持的文件類型不多,文檔的數量也不夠(或者可檢出的數量不夠),而且使用習慣與其他的不同(google,altavista,alltheweb等)所以不列入比較范圍。 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Copyright © 2001--2004 SoWang.com.All
Rights Reserved
中文搜索引擎指南網
版權所有