欧美丰满大乳高跟鞋-性av无码天堂-亚洲欧美色中文字幕在线-老熟妇高潮喷了╳╳╳

奇沃云科技公司

SEO算法深度分析之倒排索引,來解釋SEO排名的問題_深圳網(wǎng)站建設(shè)_深圳網(wǎng)站制作_深圳網(wǎng)頁設(shè)計

發(fā)布時間:2018-08-15 09:55
作者:秦羽
來源:盧松松的博客

今天給大家分享一下倒排索引的一些事情,為什么要說倒排索引呢?因為當(dāng)用戶搜索一個詞的時候,返回的搜索結(jié)果頁面就是經(jīng)過倒排索引和一系列算法過濾后的結(jié)果排序,seo苦苦追求的不就是排名的多少嗎?

說的通俗一點,其實搜索引擎的索引好比是我們平時看書時的目錄,為了讓大家更快找到適合自己的東西,比如導(dǎo)航站其實就是互聯(lián)網(wǎng)上小型索引的結(jié)構(gòu)案例。

上面會有一些分類比如新聞、電影、小說、圖片等等板塊,讓用戶快速的找到自己所需。

索引是搜索引擎中最為核心的技術(shù)之一,因為在大量的網(wǎng)頁中,怎樣才能更快、更精準(zhǔn)的找到用戶查詢這個詞的搜索意圖。

先給大家說幾個概念,為了下面的講述中,大家都能看得懂。

1、文檔:我們是以網(wǎng)頁的形式看到互聯(lián)網(wǎng)頁面的,而網(wǎng)頁中包含很多的東西,比如:TXT、EXCEL、PDF等等很多各式各樣的文件都被成為文檔。

2、文檔集合:由很多的文檔組成一個集合,稱為文檔集合。

3、文檔編號:互聯(lián)網(wǎng)上每一個文檔都有各自且獨一無二的編號。

4、單詞編號:每個單詞都有各自的唯一編號,用編號來代表這個單詞或、短語者句子。

5、倒排索引:是在搜索引起的索引庫中,以單詞對應(yīng)網(wǎng)頁的一種存儲的形式,可以根據(jù)單詞快速的獲取相關(guān)的文檔。

其實倒排索引非常的簡單,下面就結(jié)合一些特征案例來漸漸深入的分析這個算法,大家先了解一些基本的思路即可。

上圖是每個文檔編號對應(yīng)的不同文檔,如編號“1”對應(yīng)“小明吃早飯”,編號“2”對應(yīng)“小明早上吃了什么”,以此類推。

另外由于中文和英文的文化屬性不相同,中文的漢字之間沒有明顯像英文單詞那樣的分隔符,索引首先對中文要進行一下分詞(下面舉例中暫時不去掉停止詞),這樣就把一句話變成了一個個的詞組,如下圖。

上圖單詞的ID記錄了每個單詞的編號,第二列是編號所對應(yīng)的單詞,第三列是哪幾個文檔中包含了這個單詞。

比如單詞“小明”,其其單詞編號為“1”,倒排列表“1,2,4,5”,表示這幾個文檔集合中都包含了這個單詞。實際上搜索引擎更為復(fù)雜,不僅僅記錄了單詞的文檔編號,還記錄了單詞的頻率(TF,什么意思呢?很多seo從業(yè)者都在說關(guān)鍵詞的密度,

市面上計算頁面中關(guān)鍵詞密度的計算公式有三個:

公式一: 關(guān)鍵詞次數(shù)/頁面總字數(shù) x100%

公式二: 關(guān)鍵詞次數(shù)/頁面總字數(shù)/關(guān)鍵詞字數(shù) x 100%

公式三: 關(guān)鍵詞次數(shù)/頁面分詞數(shù)量 x 100%

先不討論哪個公式的計算方式更加精準(zhǔn),我們發(fā)現(xiàn)公式中都出現(xiàn)了關(guān)鍵詞的次數(shù),那這個TF就是該單詞在頁面中出現(xiàn)的次數(shù))

這個TF在搜索引擎計算搜索結(jié)果排序時,分析查詢詞和文檔庫中哪個文檔更為相關(guān)的一個參考因素。

上圖是比較復(fù)雜的,我們來看看文檔頻率為多個文檔包含這個單詞,如:“小明”在“ 4 個文檔”中出現(xiàn)了?!俺浴痹凇?4 個文檔”中出現(xiàn)了,后面的以此類推。倒排列表小明 (1;1<1>), 1 為文檔1,中間的 1 為這個詞在這個文檔中出現(xiàn)的頻率,<1>是這個詞在文檔中出現(xiàn)的位置1,即在文檔中第一個詞。

實戰(zhàn)應(yīng)用,在紙上談的再多,不如通過實戰(zhàn)去驗證這個論點,是否對排名有幫助。下面就來看看。

以首頁自然排名的 10 個網(wǎng)站的網(wǎng)頁類型和標(biāo)題為例:

首頁,排名第一,“早點培訓(xùn)_早餐培訓(xùn)班_早點培訓(xùn)學(xué)?!久赓M吃住】”

首頁,排名第二,“早餐培訓(xùn)_早餐培訓(xùn)班_早餐培訓(xùn)學(xué)校【免費加盟】”

首頁,排名第三,“上海頂正小吃培訓(xùn)學(xué)校_早點培訓(xùn)_生煎包培訓(xùn)_燒烤培訓(xùn)全國最專.....”

首頁,排名第四,“上海早點培訓(xùn)|重慶小面培訓(xùn)|山東雜糧餅培訓(xùn)|鹵菜培訓(xùn)|小吃培訓(xùn).......”

首頁,排名第五,“小吃培訓(xùn)_特色小吃_小吃項目加盟-老灶臺特色小吃培訓(xùn)學(xué)校”

內(nèi)頁,排名第六,“早點培訓(xùn) 正規(guī)早點培訓(xùn)班-培訓(xùn)通”

首頁,排名第七,“藝尚食代-早餐早點培訓(xùn)”

首頁,排名第八,“小吃培訓(xùn),早點培訓(xùn),上海面點培訓(xùn),上海德志廚藝美食培訓(xùn)中心021-...”

首頁,排名第九,“早餐店加盟_營養(yǎng)早餐加盟_特色早點加盟店_早餐店連鎖加盟培訓(xùn)_開...”

內(nèi)頁,排名第十,“早點培訓(xùn)班 正宗早點培訓(xùn)中心-培訓(xùn)通”

分析得出:早點培訓(xùn)在這個 10 個網(wǎng)站中基本上都出現(xiàn)了 2 詞,大家有沒有發(fā)現(xiàn)早點和早餐是近義詞,(比如:我早點吃了什么,我早餐吃了什么。這兩句話表達的是同一個意思。)等于是增加了一遍詞頻,也就是 3 次了,在這里提醒大家關(guān)鍵詞千萬不要堆砌,要保持一個自然性。

另外通過之前的實驗數(shù)據(jù)得出標(biāo)題最左邊的詞權(quán)重最高,僅僅結(jié)合這兩點,排名第一的網(wǎng)站標(biāo)題做的比其他的網(wǎng)站標(biāo)題都到位。另外標(biāo)題結(jié)尾處“【免費吃住】”這是一個吸引用戶點擊的營銷點,所以標(biāo)題是技術(shù)與藝術(shù)的結(jié)合。

下圖是網(wǎng)站從上線到目前的收錄和權(quán)重的部分截圖:

從上面的兩張圖片我們可以看出,這個網(wǎng)站的權(quán)重從 2017 年 12 月 11 日的站長權(quán)重是0, 4 天后權(quán)重到達1,還是比較輕松的。而且后來站內(nèi)文章到投稿為止已經(jīng) 5 個月沒有更新了,為什么有些seoer天天更新文章,網(wǎng)站排名卻做不起來?有小伙伴說如果不寫文章,那么每天都不知道做些什么。

在我看來這個不是影響排名的重要因素,因為前期網(wǎng)站信任度做好可以節(jié)省后期的很多事情(PS:這就是佛系SEO,讓網(wǎng)站自己讓排名)。

通過上圖發(fā)現(xiàn)早點培訓(xùn)這個詞一直在首頁第一,非常的穩(wěn)定。所以通過算法來優(yōu)化網(wǎng)站還是非常靠譜的。

搜索引擎是這個世界上最復(fù)雜的程序之一,公開的算法不勝其數(shù),有興趣的小伙伴們可以看看搜索引擎公司他們申請專利的一個文檔,文檔中也會涉及到高等數(shù)學(xué)等等知識,如果你能堅持的去看并且結(jié)合實踐的話,那么你優(yōu)化網(wǎng)站不用再靠猜排名了。

作者:秦羽

來源:盧松松博客

著作權(quán)歸作者所有。







標(biāo)簽:SEO

掃一掃在手機上閱讀本文章