搜索引擎的工作原理(三)

2016年2月20日13:54:23 發表評論

阿里云服務器

搜索引擎會有一定的策略從網絡上搜集回網頁,然而這些剛搜集回來的網頁是沒有辦法直接投入使用的,搜索引擎還需要對這些網頁進行一定的預處理,才能為之后的查詢服務打好基礎。

預處理主要工作

預處理主要是對搜集回來的網頁進行分析處理,將每個網頁有意義的東西提取出來,只有這樣,才能減少干擾因素,讓搜索引擎能對每個頁面進行更好的定位。在預處理的過程中,主要做的是下面4件亊情。

1、關鍵詞的提取

因為當搜索引擎得到一個網頁的源代碼時,看到的是大量的HTML代碼,這些代碼充斥著大量無用的信息,搜索引擎就必項先對網頁進行關鍵詞的提取,這樣才能更好的分析出一個網頁主題。可以用站長工具中的“機器人模擬抓取”進行查詢,如下圖是對 http://www.lnwbju.shop/網頁進行關鍵詞提取后,得到的關鍵詞。

搜索引擎的工作原理(三)

2、重復或轉載頁面的清除

互聯網一大特點就是信息共享,這樣的特點導致在互聯網上復制一篇文章非常簡單。因此,互聯網上充斥著大量復制的網頁,如果搜索引擎要將每篇網頁都進行搜集處理,會浪費很多時間,以及在用戶查詢的時候可能會返回多個相同的結果,這是用戶和搜索引擎都不希望看到的,因此,搜索引擎需要進行重復頁的清除。

如下圖假設網頁A是原創的文章,網頁 B、C、D 都是復制A的,那么搜索引擎需要一定的技術將 B、C、D識別出來,然后作為重復項頁面刪除掉。

搜索引擎的工作原理(三)

3、鏈接分析

搜索引擎是根據鏈接在互聯網上爬行的,因此搜索引擎需要對每個搜集回來的網頁進行連接分析,以找到新的網頁以及網頁間的關系。

搜索引擎的工作原理(三)

4、網頁重要程度的計算

在預處理的過程中,搜索引擎會將搜集回來的網頁進行權重計算,給每個網頁建立一個重要性指標,該指標會作為查詢服務階段最織形成結果排序的部分參數。

搜索引擎的工作原理(三)

以上就是搜索引擎預處理的簡介,搜索引擎在預處理的過程中會涉及到中文分詞、分析網頁和建立倒排文件、網頁凈化和消重等問題。

maolai

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: