1 什么是“看不見的網(wǎng)頁”
“看不見的網(wǎng)頁”(The Invisible
Web),又叫隱形網(wǎng)頁,簡單說是那些因為各種原因,不能被普通搜索引擎如google,Yahoo!等搜索到的網(wǎng)頁。研究搜索引擎的Bright
Planet公司發(fā)表一份研究報告顯示,到2000年底,互聯(lián)網(wǎng)上未被搜索引擎收錄的網(wǎng)頁是是被收錄網(wǎng)頁的500倍。雖然現(xiàn)在搜索引擎技術(shù)日新月異飛速發(fā)展,但Bright
Planet公司估計,相比較于被普通搜索引擎收錄的10億網(wǎng)頁,仍有550,0億網(wǎng)頁未被收錄。而且“看不見的網(wǎng)頁”在網(wǎng)上增長最快,也就是說網(wǎng)上有更多的資源出現(xiàn),但我們不能用普通的搜索引擎查找到。
2 為什么會有“看不見的網(wǎng)頁”
“孤島網(wǎng)頁”。如果一個網(wǎng)頁沒有被其它網(wǎng)頁鏈接,網(wǎng)頁的主人又沒有把網(wǎng)址提交給搜索引擎,搜索引擎就無法收錄這些網(wǎng)頁。或者網(wǎng)頁主人有意設(shè)置口令保護、禁止索引的網(wǎng)站標記。
一些以非普通的html格式存在的網(wǎng)頁,搜索引擎收錄存在技術(shù)問題。雖然搜索引擎技術(shù)在不斷發(fā)展,象google等搜索引擎已經(jīng)可以搜到 pdf和MS
Word,但對于網(wǎng)上其他格式如wkx,mw,flash,ps,rtf 及圖象、聲音、視頻等文件,一般搜索引擎是很難搜到的。
專用網(wǎng)頁(The Proprietary
Web),某些網(wǎng)頁只有注冊用戶才能瀏覽,需要填寫口令密碼,認證后才能訪問,搜索引擎的Spider不會思考不會填表,當然也就沒法索引收集。
搜索引擎無法找到“動態(tài)網(wǎng)頁” 動態(tài)頁面是在用戶“輸入內(nèi)容”或者進行“選擇”時動態(tài)生成的,但是搜索引擎的SPIDER也無法“輸入”和“選擇”。
另外還有實時信息,如最新新聞,某一時刻公司股票價格等,因為其實時在變化,搜索引擎不去收錄,或者說收錄的都是過時的信息。
3 搜索“看不見的網(wǎng)頁”
可以從網(wǎng)站目錄 、“看不見的網(wǎng)頁”搜索站點(引擎)、免費網(wǎng)頁數(shù)據(jù)庫以及一些專業(yè)搜索引擎來搜索“看不見的網(wǎng)頁”,下面是一些列表
· Direct Search ( http://www.freepint.com/gary/direct.htm )
· Profusion ( http://www.profusion.com )
· The Invisible Web Directory( http://www.invisible-web.net/ )
· Complete Planet ( http://www.completeplanet.com/ )
· Librarians' Index to the Internet( http://www.lii.org )
· Find Articles( http://www.findarticles.com/PI/index.jhtml )
原發(fā)于: http://bujai.51.net/blog/index.php?p=121