怎樣推測(cè)百度的收錄機(jī)制 迅速提升收錄量
來源:SEO優(yōu)化 2012-06-20
網(wǎng)站要在搜索引擎獲得良好的流量,就一定要提高網(wǎng)站的收錄,以站內(nèi)頁面更加多的潛在關(guān)鍵字盡可能在搜索排名上占領(lǐng)一席之地。國內(nèi)網(wǎng)站普遍瞄準(zhǔn)的SEO市場(chǎng)就是百度搜索引擎,可是站長到最后都會(huì)發(fā)現(xiàn),除了收錄首頁之外,站內(nèi)的頁面寥寥無幾。為何它現(xiàn)在都不再隨便收錄我們的內(nèi)頁?
很多網(wǎng)站一直普遍做法就是在首頁加上自己的主關(guān)鍵字,再在站內(nèi)使用采集或者機(jī)器添加一些亂七八糟的文章,目的是用來維持網(wǎng)站在百度快照日期的“新鮮度”(認(rèn)為這是毫無意義的事情)——互聯(lián)網(wǎng)的車亂從沒有停止過并且發(fā)展到今天,我認(rèn)為這就是如今導(dǎo)致搜索引擎不再隨便收錄網(wǎng)頁原因。如何才能讓百度收錄你的網(wǎng)站的更多頁面信息,你就必須從搜索引擎收錄機(jī)制的角度出發(fā)。
推測(cè)百度的收錄機(jī)制,就要明白“蜘蛛”工作的原理
百度搜索引擎有一個(gè)俗稱“蜘蛛”的自動(dòng)程序(英文名是“Baiduspider”),它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁、圖片、視頻等內(nèi)容,建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁、圖片、視頻等內(nèi)容。搜索引擎的基本工作原理包括如下三個(gè)過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時(shí)對(duì)信息進(jìn)行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并將查詢結(jié)果返回給用戶。
1、“蜘蛛”只不過是也采集器,只是比較先進(jìn)而已。
作為全球最大的中文搜索引擎,面對(duì)著單單要處理的中文網(wǎng)站目前就有幾百萬個(gè),那么網(wǎng)站內(nèi)頁的數(shù)量就如天上的繁星。現(xiàn)在從科學(xué)的角度來個(gè)假設(shè),既然百度“蜘蛛”叫得上為自動(dòng)程序,那么的是會(huì)越來越先進(jìn)的東西(就像未來的機(jī)器人一樣越來越智能了),讓它們能夠自動(dòng)判斷捕捉到的頁面內(nèi)容到底有沒有用,有的話就直接把數(shù)據(jù)放進(jìn)口袋,然后再根據(jù)當(dāng)前頁面的鏈接爬到新的頁面來個(gè)循環(huán)捕捉,直到口袋裝滿了就把信息帶回去給服務(wù)器經(jīng)過一系列更加專業(yè)的計(jì)算去對(duì)比……去判斷是否需要正式收錄進(jìn)數(shù)據(jù)庫。整個(gè)過程就像采集器一樣,按照預(yù)先設(shè)置好采集規(guī)則,然后過濾不符合規(guī)則的信息。
2、可能被判斷會(huì)被收錄進(jìn)數(shù)據(jù)庫的信息
我很多時(shí)都逛很多知名的數(shù)碼網(wǎng)站,發(fā)現(xiàn)他們的內(nèi)容很多都是千遍一律的互相采集(復(fù)制),并且沒有作任何修改處理,居然還被各大搜索引擎收錄展示?蓱z的小站長辛苦采集了成千上萬的數(shù)據(jù),再苦等一段日子后,居然只有首頁或大不了多幾個(gè)站內(nèi)頁面被收錄。是否有有人埋怨這太不公平了,為何他們采集數(shù)據(jù)可以被收錄,而我的不行。百度搜索引擎收錄機(jī)制其中有一個(gè)這樣的參考因素,“權(quán)重”(就是搜索引擎對(duì)站點(diǎn)權(quán)威的判斷)。
網(wǎng)站被“蜘蛛”捕捉過的第一天起就會(huì)一直監(jiān)視網(wǎng)站的一舉一動(dòng),并且給出該網(wǎng)站的域名一個(gè)“分?jǐn)?shù)”作為衡量“權(quán)重”有多高。筆者認(rèn)為影響權(quán)重的其中一個(gè)主要因素,以“新浪網(wǎng)”為例,它被百度搜索引擎監(jiān)測(cè)到很多獨(dú)家內(nèi)容(原創(chuàng))從“第一現(xiàn)場(chǎng)”被轉(zhuǎn)載到其它地方,還有很多帶有文字鏈接和不帶鏈接的靜態(tài)網(wǎng)址、網(wǎng)站名稱(新浪網(wǎng)、新浪)頻繁地出現(xiàn)在各大小網(wǎng)站——也即“曝光率”。
其實(shí)搜索引擎這樣的收錄機(jī)制去處理數(shù)據(jù)是非常明智的,不但節(jié)省了時(shí)間、還減輕了服務(wù)器的負(fù)擔(dān),也是非常有經(jīng)濟(jì)效益的手段。
網(wǎng)站權(quán)重高低的收錄待遇
假設(shè):A站和B站等權(quán)重都為9分,大于C站權(quán)重為2分;
(1)如果A站采集了B的內(nèi)容,搜索引擎多數(shù)會(huì)收錄,并快速顯示搜索結(jié)果
(2)如果A站采集了C的內(nèi)容,搜索引擎多數(shù)會(huì)收錄,并快速顯示搜索結(jié)果
(3)如果C站采集了A站、B站的內(nèi)容,可能不會(huì)被收錄,又或者就算收錄了也要好幾天會(huì)顯示出搜索結(jié)果
高權(quán)重網(wǎng)站無論向是否同級(jí)別的網(wǎng)站獲取內(nèi)容會(huì)更容易被收錄,并且會(huì)快速顯示出來。因?yàn)楦邫?quán)重的網(wǎng)站在搜索引擎里面代表的是一種權(quán)威性、曝光度,所以搜索引擎就很可能會(huì)認(rèn)為該網(wǎng)站提供的信息無論與否采集、歷史是否悠久的內(nèi)容對(duì)于網(wǎng)民很有可能是有一定需要。也意味著這個(gè)網(wǎng)站上的信息平時(shí)很多人瀏覽、傳播速度很快,及時(shí)把內(nèi)容收錄起來并以最快速度向進(jìn)行搜索的用戶展示其相關(guān)結(jié)果是非常有必要的,從而提升用戶在搜索引擎中的良好體驗(yàn)。
權(quán)重不太高的網(wǎng)站復(fù)制和轉(zhuǎn)載一些目前熱門或者比較過去式的內(nèi)容,當(dāng)這些內(nèi)容被“蜘蛛”判斷分析過后,發(fā)現(xiàn)該內(nèi)容已經(jīng)有很多尤其是高權(quán)重的網(wǎng)站轉(zhuǎn)載過了,覺得沒有必要再把數(shù)據(jù)帶回去給搜索引擎的服務(wù)器進(jìn)行處理。為什么要會(huì)這樣判斷?既然搜素引擎的數(shù)據(jù)庫里面早已經(jīng)有這樣的信息,還是在一些高權(quán)重網(wǎng)站獲取回來的,就算用戶搜索與其相關(guān)信息時(shí),也可以提供到很多相關(guān)內(nèi)容,并且權(quán)威性也比較強(qiáng)。假如你是百度搜索引擎的工程師,當(dāng)用戶搜索“扁桃體炎”的時(shí)候,你也會(huì)告訴用戶百度百科不錯(cuò)、某某健康網(wǎng)也挺專業(yè)的。搜索引擎作為用戶的朋友不會(huì)無緣無故推薦一個(gè)江湖游醫(yī)給你身邊的人,弄不好還會(huì)給人臭罵一頓。
例如:某大型網(wǎng)站今天發(fā)布了去年已經(jīng)被轉(zhuǎn)載無數(shù)次的考試作文,由于權(quán)重高的網(wǎng)站搜索引擎對(duì)它有一種信任感,認(rèn)為該他們提供這條信息一定是有必要性的才被重新發(fā)布。當(dāng)有用戶正在搜索以該作文有關(guān)的信息時(shí),搜索引擎會(huì)查詢數(shù)據(jù)庫里擁有相關(guān)匹配的信息,然后再根據(jù)網(wǎng)站當(dāng)前頁面的權(quán)重高低以排名方式展示其搜索結(jié)果。把搜索引擎就像你的朋友一樣,當(dāng)你問百度哪里查找到有關(guān)“iPhone4S”的最新消息?搜索引擎就會(huì)告訴你,我認(rèn)識(shí)一堆江湖兄弟叫做太平洋、新浪、網(wǎng)易……它們好像知道,你去那里看看有沒有相關(guān)資訊,如果沒有你可以打開第二頁或者繼續(xù)往后看看一些不太熟悉的朋友有沒有相關(guān)信息。
網(wǎng)站權(quán)重就是一個(gè)網(wǎng)站在搜索引擎的命根
現(xiàn)在開始你除了學(xué)會(huì)更新內(nèi)容之外,還要學(xué)會(huì)如何增加網(wǎng)站的曝光率,盡量讓百度“蜘蛛”發(fā)現(xiàn)。只要以正常做站的心態(tài),然后不斷重復(fù)兩個(gè)步驟,更新維護(hù),站外推廣。只要你做好這一個(gè)做站的循環(huán),網(wǎng)站的權(quán)重就會(huì)不斷地提升,收錄自然就不再是問題,最大的好處就是總體的關(guān)鍵字在搜索引擎中的排名也會(huì)有所提高。
原文:陽光小宅博客 出處:
文章編輯: 365webcall客服系統(tǒng)(www.365webcall.com)
我的評(píng)論
登錄賬號(hào): | 密碼: | 快速注冊(cè) | 找回密碼 |