昨天深圳網(wǎng)絡(luò)公司【創(chuàng)絡(luò)】特意將網(wǎng)站優(yōu)化過程中比較接近數(shù)據(jù)挖掘?qū)用娴男畔⒆隽艘幌潞?jiǎn)單的介紹,今天創(chuàng)絡(luò)將繼續(xù)介紹有關(guān)搜索引擎是如何去掉網(wǎng)站上的噪聲數(shù)據(jù)的。可能有很多朋友在做網(wǎng)站優(yōu)化的時(shí)候,會(huì)經(jīng)常偽原創(chuàng)一些文章來放到自己的網(wǎng)站上,但是收錄的效果和網(wǎng)站的權(quán)重卻沒有實(shí)質(zhì)上的提升,這就是沒有搞清楚搜索引擎是如何去判斷一個(gè)文章是否是原創(chuàng)的機(jī)理,這個(gè)問題創(chuàng)絡(luò)將在本文中加以說明。
搜索引擎會(huì)去掉文章中無意義的停止詞,例如:“的”、“地”、“得”。其實(shí),無論是英文還是中文,頁(yè)面中都會(huì)出現(xiàn)一些頻率很高卻對(duì)內(nèi)容沒有影響的詞,還有一些感嘆詞和副詞也是如此,例如:“啊”、“呀”、“以”、“卻”等等。這些詞在搜索引擎眼里統(tǒng)稱為停止詞,搜索引擎在索引一篇文章之前會(huì)講這些詞語刪除掉,以使索引到的數(shù)據(jù)更加干凈且便于節(jié)省計(jì)算時(shí)間。
搜索引擎還會(huì)去掉那些相關(guān)性很差的網(wǎng)頁(yè)內(nèi)容,因?yàn)檫@些頁(yè)面有極大的可能對(duì)網(wǎng)站的主題沒有任何幫助,比如版權(quán)聲明、聯(lián)系方式等。還有在論壇中,我們常見的無意義回帖和不相關(guān)的回帖都不會(huì)被收錄,這就是為什么大多數(shù)的論壇會(huì)對(duì)這樣的帖子加以處罰的原因。這樣的噪聲數(shù)據(jù)對(duì)網(wǎng)站內(nèi)容本身沒有意義,還分散了網(wǎng)站的主題內(nèi)容,如果對(duì)這些噪聲數(shù)據(jù)加以索引,那就是在浪費(fèi)時(shí)間。
如果要偽原創(chuàng)一篇文章,那么就根據(jù)本文前面一部分提到的內(nèi)容一樣,不要簡(jiǎn)單的處理掉原來文章中的那些副詞和感嘆詞,這樣跟沒做完全一樣。