搜索引擎工作原理基礎知識

2015年6月15日10:47:45 發表評論

阿里云服務器

百度是如何的工作呢?可以參考(百度搜索引擎基礎知識)http://zhanzhang.baidu.com/college/articleinfo?id=46的文章。世界各大搜索引擎發展到現在,其實技術水平都是差不多的,所以了解百度原理之后,對其他搜索引擎也是一樣的。

頻率值:搜索引擎的硬件是有限的,不可能有太多資源對每一個網頁頻繁光顧,簡單來理解就是不同的網站,搜索引擎光顧的頻率是不一樣的。有些網站一天來抓取幾百上千次,但是有的一天只有一次,也可能幾天才來一次。

影響頻率值:雖然蜘蛛針對不用的網站的有不同頻率值,但是可以通過做一些事情影響它的頻率值。

提升頻率度的方法:經常更新的網站,往往頻率值會比較高,所以可以持續更新;搜索引擎會形成習慣,為了更加高效的工作,它會特別關注那些經常更新的網站。

歷史記錄:我們網站所有的歷史會被搜索引擎記錄下來,搜索引擎的計算過程會參考你的網站在歷史中的表現。網站前期不要犯錯誤,必須在進行網站建設的時候不要做錯誤的事情,一定要謹慎,比如原創、網站結構等等。在后期評估頁面質量的時候會參考你前期的工作。三歲看到老,道理都一樣:搜索引擎執行的是人的意志。你在“小時候”的行為搜索引擎都會記錄在案的。

搜索引擎工作原理基礎知識

過度優化:

在網頁中加入隱藏的文字、隱藏的鏈接;與網頁內容不相關的關鍵詞;具有欺騙性跳轉或者有欺騙性的重定向;專門針對搜索引擎的橋頁,即所謂的過度頁;針對程序生成的內容:制造大量的內容,命中搜索引擎結果;大量重復無價值的內容;充斥著大量惡意廣告、惡意代碼的頁面;群發鏈接等等。

過濾:1、不要欺騙用戶;2、對內容的把握上很多人是沒什么概念的;比如采集,很多人樂此不疲,其實對收錄有很壞的影響。3、誤區:所謂搜索引擎抓取就是搜索引擎收錄了;事實上搜索引擎抓取一個頁面,跟搜索引擎收錄一個頁面是不同的,他們之間還有一個環節叫做過濾,搜索引擎做算法調整更多是對過濾環節的調整。4、 收錄的問題往往集中在否能夠通過“過濾”:蜘蛛來抓我們的頁面向來不是問題。沒有收錄的頁面不是因為蜘蛛沒過來,往往是因為在搜索引擎看來頁面對用戶沒有價值。被過濾掉就進不了搜索引擎的一個數據庫,也就是沒收錄。

索引:這個提醒我們keywords已經不重要了。

輸出結果:1、按照道理到這里搜索引擎的工作應該就結束了,事實上搜索引擎的工作才剛剛開始,它要對搜索結果進行持續關注;2、比如同一個詞的搜索結果,排名第一的網站,用戶的跳出率極高,而排名第三頁面用戶體驗非常好的話,那么排名的順序就要再次進行調整了。

以上是搜索引擎工作最基本的原理。

maolai

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: