搜索引擎9238
搜索結果不理想,有很多原因,其中一種是中文搜索引擎特有的,叫分詞(或切詞)。
舉例來說,你搜索關鍵詞“品行”可能搜到大量“商品行情”,又如搜索關鍵詞“和會”,得到的搜索結果可能大量包含“展覽和會議”“吉祥物和會歌”“商務中心和會務”“被物化和會過期的”“亞太經和會議”。它們文字中都有“和會”,但不是你要找的“巴黎和會”“中東和會”。這是中文本身特點導致的搜索缺陷,中文搜索引擎技術人員在努力改善它,但不會完全解決。
在這里,我不談分詞原理,想了解更多的自己去搜。
今天,我只想教你一點小技巧,幫你擺平這個搜索中常見的挫折。
方法很簡單:減去錯誤分詞的衍生詞。
比如剛才的“和會”,你可以改用以下這個關鍵詞來搜索:
“和會 -和會議 -防御和會 -和會歌 -和會務 -物化和會 -和會員 -和會計 -音樂和會”
這個關鍵詞的意義是:要求網頁中含有“和會”,但不含有跟“和會”連在一起的那些錯誤分詞的網頁。
這是個示范,一般情況下不用減那么多,減去幾個曝光率高的就行了。
需要被減去的,“和會”旁邊的字或詞,選擇原則是:
1、本應連在一起的,如會議、會員、會計本應連在一起的,那么就選擇和會議、和會員、和會計。
2、獨立的常見詞組,如防御、物化、音樂。
這是一個完美的搜索技巧,因為無論加法還是減法,它們的缺陷之一是可能被你用的關鍵詞屏蔽了不應該屏蔽的網頁,但這種減去含主關鍵詞的衍生關鍵詞,則幾乎沒有這個問題。你放心減吧,那些含有被減去詞中獨立單字或詞組(如歌、議、防御、務、物化、員、計、音樂)的網頁,都好好在呢,你可以用如“和會 -和會歌 歌”找出來。
這個技巧,也可以對付一些有衍生詞的關鍵詞,如搜索關鍵詞“曹溪”,你發現有個版主叫曹溪、有個地方叫曹溪鎮、有個派別叫曹溪宗、有個廟叫曹溪寺、有條路叫曹溪路。
如果你只想搜索版主曹溪,你可以用加法,找一個跟版主曹溪相關的關鍵詞一起搜;你也可以用普通減法,尋找跟曹溪鎮、曹溪宗、曹溪寺、曹溪路相關的一個關鍵詞,但以上兩種方法都容易屏蔽部分你想找的網頁。
如果你減去的是含有曹溪的這些衍生詞,則幾乎不會屏蔽合理網頁,除了一種網頁。哪一種網頁?當然是象我這一篇文章一樣,莫名其妙的把曹溪、曹溪鎮、曹溪寺、曹溪路扯到一起的網頁了!不過如果你確定這種網頁是你需要的,你也可以很容易的直接搜出這種網頁。
另外,如果你輸入的關鍵詞多了,google只會搜一部分,并提示說搜索框中只能支持最多10個字詞(10個字詞是google現在的規矩,可能也是專對中文或雙字節語言的規矩,英文搜索支持的關鍵詞要長一點。google以前甚至曾對漢字搜索只支持最多6個,差點沒把我氣暈了,不過不到一周它就醒悟了),我不明白它的10個字詞是怎么計算的,用不用語法,用什么語法和詞組長短差別很大,反正我既碰到過超過10個字詞就不能查的,也查過21個字的。以我的經驗,用空格能搜的關鍵詞多一點,用減法能搜的關鍵詞就少一點,10個多不了多少的。所以如果要減的衍生關鍵詞超過10個字,可以選用baidu,baidu的搜索框支持最多三十幾個字詞。
“我們若能更妥善地搜尋資料,實在已經改變世界。”
|