什么是搜索引擎索引庫

2015年6月16日10:53:56 發表評論

阿里云服務器

搜索引擎的資料庫

1)我們在查詢任何一個關鍵詞的時候,搜索引擎不是現查現找的,而是提前準備好了一個數據庫,就等著我們支查詢,簡單來講就是把搜索引擎提前將把它認為重要的頁面信息盡可能地下載好,放在了它的數據庫當中,這個供用戶查詢相關結果的已經下載好的數據庫就是搜索引擎的資料庫。

2)不同的搜索引擎他們的數據庫也是不一樣的,一般是在幾十到100億個網頁左右。

索引庫

我們在搜索一個關鍵詞的時候,搜索引擎要在浩瀚的網頁世界里給我們找到我們需要的網頁—— 這就是搜索引擎的本職工作。那么搜索引擎為什么那么快?我們在幾萬字的文檔上找一個詞用ctrl+f都要花一點時間,但是在上百億的網頁當中去尋找卻只需要幾分之一秒,原因就是搜索引擎已經對這些網頁進行了分類處理,就像在圖書館,我們尋找我們要的圖書一樣,按照分類就可以節省很多時間。這個經過分類的頁面信息資料庫就是我們講的索引庫。

什么是搜索引擎索引庫

索引庫的分類和建立

不論是中文還是英文,網頁的總數是不斷激增的,因為相關的新產品新話題也是不斷增加的,但是詞語的總數是不變的如所有的中文詞語加起來也就不到10萬,英文也就上百萬個的單詞。

英文100萬個單詞,按照詞來分類,一個單詞一類:100億/100萬=1萬;中文如按照10萬個詞來算,也按照詞來分類,一個詞一類:100億/10萬=10萬。這種級別的數據對于搜索引擎的計算機來講還是很容易處理的。除了計算的方便,還有另外一個好處就是可以直接命中用戶的搜索習慣,因為用戶的習慣也是根據詞來搜索的,通俗來理解,搜索引擎的索引庫就是這樣的。

什么是搜索引擎索引庫

如上圖,當用戶輸入關鍵詞“汽車輪胎”搜索時,搜索引擎就從“汽車”那行和“輪胎”那么里拿出同時都有的、交集的url來即可。當然實際上搜索引擎的工作遠比這些復雜,但是原理是類似的。

maolai

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: