大部分SEOer在考慮這個(gè)問題時(shí)往往會(huì)以SEO為出發(fā)點(diǎn),感覺百度就是通過自己布局關(guān)鍵詞的幾個(gè)地方來判斷頁面關(guān)鍵詞的。拋開sEO,假設(shè)一個(gè)網(wǎng)站沒有做 SEO,任何SEO細(xì)節(jié)都沒有考慮,甚至頁面Tile. H、加粗之類的標(biāo)簽都沒有使用,但是頁面中有對(duì)用戶十分有用的內(nèi)容(比如一些政府或組織的網(wǎng)站),那百度還需要索引這樣的網(wǎng)站和頁面嗎?還需要判斷這些頁面的核心關(guān)鍵詞嗎?答案顯然是“需要”那么這些在大眾SEO眼中的一些重要位置沒有布局關(guān)鍵詞的頁面,百度還能判斷其核心關(guān)鍵詞嗎?答案當(dāng)然是“可以”,不然百度和其他搜索引擎都不要混了。
搜索引擎判斷頁面的核心關(guān)鍵詞時(shí),會(huì)比較注重頁面Title、H標(biāo)簽、內(nèi)容中加粗變色標(biāo)簽、主體內(nèi)容靠前部分中關(guān)鍵詞的出現(xiàn)頻率等,但是這并不是搜索引擎判斷頁面關(guān)鍵詞的主要渠道,而只是促進(jìn)搜索引擎認(rèn)為這個(gè)頁面和SEO人員在這些地方所布局的關(guān)鍵詞更相關(guān)而已。從在采集內(nèi)容中硬性插入關(guān)鍵詞,單純以頁面幾個(gè)重要地方著重關(guān)鍵詞和硬性提升內(nèi)容中關(guān)鍵詞密度的所謂“偽原創(chuàng)”方法已經(jīng)基本失效,就可以了解到搜索引擎并不只是根據(jù)大眾SEO所注重的幾個(gè)地方來判斷頁面關(guān)鍵詞的。
搜索引擎判斷一個(gè)頁面的核心關(guān)鍵詞的流程應(yīng)該有:
(1) 抽取頁面內(nèi)容部分,對(duì)內(nèi)容進(jìn)行分詞處理
(2)根據(jù)各個(gè)關(guān)鍵詞在頁面中的頻率以及在全網(wǎng)中的頻率來判斷哪些詞是該頁面的主要關(guān)鍵詞,這里一般使用的是TF-IDF 。
(3) 根據(jù)更為先進(jìn)的語義識(shí)別算法進(jìn)行判定。
(4) 把頁面Title、H1標(biāo)簽、內(nèi)容開頭部分內(nèi)容(有時(shí)甚至只是第一句)、內(nèi)容中加粗變色文字中所提取的關(guān)鍵詞與其他算法判定的關(guān)鍵詞進(jìn)行加權(quán)計(jì)算,從而最后得出這個(gè)頁面和哪些關(guān)鍵詞相關(guān),并按照相關(guān)度把關(guān)鍵詞進(jìn)行排序,前幾個(gè)關(guān)鍵詞一般就可以被判定為該頁面的核心關(guān)鍵詞。
作為對(duì)SEO的指導(dǎo)是:需要特別注意在頁面重要位置和標(biāo)簽內(nèi)突出我們心中的核心關(guān)鍵詞,但是更要注重內(nèi)容的自然建設(shè),而不是為了堆積關(guān)鍵詞而堆積關(guān)鍵詞,不能把工作重心本末倒置。搜索引擎已經(jīng)不像當(dāng)年那樣容易騙了,“他們已經(jīng)被SEO通得沒有那么單純了”。