搜索引擎優(yōu)化基本原理(網(wǎng)站搜索引擎優(yōu)化案例)
網(wǎng)站優(yōu)化100問第一篇我們講了搜索引擎的搜索搜索抓取篇,也認(rèn)識了搜索引擎是引擎優(yōu)化原理引擎優(yōu)化怎么把網(wǎng)站的內(nèi)容抓取的,搜索引擎蜘蛛把網(wǎng)站的基本內(nèi)容抓取回去后用戶在搜索的時候就能夠直接展現(xiàn)出來了嗎?得到的答案肯定不是,用戶在搜索引擎查詢的網(wǎng)站時候,在億級為單位的案例網(wǎng)頁數(shù)據(jù)庫中查找某個特定的關(guān)鍵詞簡直是猶如大海里面撈針,需要很長的搜索搜索時間才可以完成查找并得到相關(guān)內(nèi)容,如果是引擎優(yōu)化原理引擎優(yōu)化這樣,用戶會等待嗎?所以搜索引擎在建設(shè)的基本初期就從用戶體驗角度考慮,必須在毫秒級別給予用戶滿意的網(wǎng)站結(jié)果展示,否則用戶只能流失搜索引擎也只能倒閉,案例那么搜索引擎是搜索搜索怎樣完成這樣的工作呢?那就是今天講到的預(yù)處理了

數(shù)據(jù)分析系統(tǒng),是引擎優(yōu)化原理引擎優(yōu)化處理搜索引擎蜘蛛抓取回來的網(wǎng)頁,那么數(shù)據(jù)分析這一塊又分為了一下幾個:1、基本網(wǎng)頁結(jié)構(gòu)化分析下載回來的網(wǎng)站網(wǎng)頁,刪除網(wǎng)頁無用和不能分析的案例代碼,分析網(wǎng)站標(biāo)簽2、消噪在網(wǎng)頁結(jié)構(gòu)化中,已經(jīng)刪掉了網(wǎng)頁代碼,僅剩下了文字內(nèi)容,那么消噪是為什么呢?。
都知道在網(wǎng)頁中我們會出現(xiàn)很多的常用詞 如:我們,的、地、得、版權(quán)、申明等信息,這些常見而且無用的詞,都將在此環(huán)節(jié)清理3、去重去重比較好理解,就是系統(tǒng)在對比查找重復(fù)的網(wǎng)頁與內(nèi)容,如果找到重復(fù)的頁面,就放在一起,經(jīng)過后面的其它步驟繼續(xù)處理。
4、分詞(切詞)分詞更多說的是中文分詞,就是搜索引擎蜘蛛在進(jìn)行了前面的步驟,然后提取出正文的內(nèi)容,然后把我們的內(nèi)容分成N個詞語,然后排列出來,存入索引庫!同時也會計算這一個詞在這個頁面出現(xiàn)了多少次(做優(yōu)化比較久的都知道做好百度分詞的話對網(wǎng)站排名有很大的幫助,在后續(xù)我會單獨的介紹分詞,現(xiàn)在只是給大家普及一下知識)。
5、鏈接分析鏈接關(guān)系分析是預(yù)處理中很重要的一部分,計算相應(yīng)頁面的網(wǎng)站和頁面的鏈接權(quán)值;鏈接關(guān)系分析的基礎(chǔ)是超鏈接頁面之間的內(nèi)容推薦與主題相關(guān)特性;鏈接分析算法包含HITS算法、TR算法、Hilltop算法等等。
(6)各種過濾舉例可能包含過濾掉死鏈、重復(fù)數(shù)據(jù)、色情、垃圾結(jié)果以及你懂的;(7)最終排序,將最能滿足用戶需求的結(jié)果排序在最前,可能包括的有用信息如:網(wǎng)站的整體評價、網(wǎng)頁質(zhì)量、內(nèi)容質(zhì)量、資源質(zhì)量、匹配程度、分散度、時效性等等
更多精彩內(nèi)容關(guān)注:微信訂閱號:jxzmt87