在傳統(tǒng)信息檢索中,衡量系統(tǒng)的基本指標(biāo):查全率(Recall)和查準(zhǔn)率(Pricision),查全率是檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率;查準(zhǔn)率是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率。對于一個檢索系統(tǒng)來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。
對于搜索引擎系統(tǒng)來講,因為沒有一個搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁,所以召回率很難計算。由于互聯(lián)網(wǎng)海量信息的特征,查詢返回的結(jié)果大都非常多,因此目前的搜索引擎系統(tǒng)都非常關(guān)心精度。同時,互聯(lián)網(wǎng)的信息是動態(tài)變化的,搜索引擎必須反映這種變化。
簡單來講,搜索引擎要滿足用戶對信息查詢的需求,提高用戶的搜索體驗。以下是幾個比較重要的指標(biāo):
1. 網(wǎng)頁覆蓋率。提高查全率,是保證查準(zhǔn)率的基礎(chǔ)。
2. 返回結(jié)果的準(zhǔn)確性,主要是第一頁結(jié)果的準(zhǔn)確性。大部分用戶僅僅察看搜索結(jié)果的第一頁。
3. 重復(fù)信息返回的過濾。返回結(jié)果應(yīng)該盡可能不出現(xiàn)重復(fù)、類似的結(jié)果。
4. 網(wǎng)頁更新速度。取決于新網(wǎng)頁的發(fā)現(xiàn),和死鏈(指無法訪問網(wǎng)頁)的及時刪除。結(jié)果中大量的死鏈和過時信息的鏈接,將會降低用戶體驗。
5. 搜索服務(wù)的相應(yīng)時間,也就是用戶提交檢索后得到結(jié)果返回的等待時間,一般要低于一秒即可。
6. 搜索服務(wù)的系統(tǒng)穩(wěn)定性。