中文搜索引擎指南網(wǎng)

 找回密碼
 禁止注冊(cè)

QQ登錄

只需一步,快速開(kāi)始

搜索
查看: 9360|回復(fù): 0
打印 上一主題 下一主題

搜索引擎工作原理

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
1#
發(fā)表于 2021-2-9 15:48:49 | 只看該作者 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
基本流程

抓取網(wǎng)頁(yè)。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序爬蟲(chóng)(Spider)。爬蟲(chóng)順著網(wǎng)頁(yè)中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過(guò)超鏈接分析連續(xù)訪問(wèn)抓取更多網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。

處理網(wǎng)頁(yè)。搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。

提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。


搜索引擎的自動(dòng)信息搜集功能

提交網(wǎng)站搜索。站長(zhǎng)主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)定向向你的網(wǎng)站派出爬蟲(chóng),掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于搜索引擎索引規(guī)則相對(duì)于過(guò)去已發(fā)生很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此站長(zhǎng)應(yīng)該在網(wǎng)站內(nèi)容上多下功夫,并讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。

當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶。
分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏

Archiver|手機(jī)版|小黑屋|教你搜 ( 魯ICP備16006309號(hào)

GMT+8, 2025-3-15 01:43 , Processed in 3.011010 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回復(fù) 返回頂部 返回列表