解讀百度就“違反Robots協(xié)議”向360巨額索賠:一場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)
來源:站長(zhǎng)新聞 2013-11-01
攪局者360面臨的巨額訴訟官司即將開庭。百度起訴奇虎360違反“Robots協(xié)議”(又稱機(jī)器人協(xié)議或爬蟲協(xié)議)抓取、復(fù)制其網(wǎng)站內(nèi)容的不正當(dāng)競(jìng)爭(zhēng)行為,并索賠1億元人民幣。這個(gè)官司在今年2月便已立案,或許由于Robots協(xié)議太棘手,等了大半年才開庭。
Robots抓取案根源是百度數(shù)據(jù)優(yōu)勢(shì)
筆者在今年1月6日便率先發(fā)現(xiàn)360內(nèi)測(cè)360百科,大量詞條從界面風(fēng)格、到詞條屬性、到擴(kuò)展閱讀幾乎保持一致。當(dāng)時(shí)我推測(cè)360搜索在2013年的發(fā)展方向或?qū)⑹?在產(chǎn)品線上,360搜索完全走百度的模式——從新聞、網(wǎng)頁(yè)、問答、地圖、音樂到視頻等(軟件和應(yīng)用搜索是360特有的)。不過奇虎360后續(xù)陸續(xù)推出了“雷電手機(jī)搜索”“軟件搜索”“良醫(yī)搜索”以及“購(gòu)物搜索”,實(shí)現(xiàn)與百度產(chǎn)品的差異化。
一方面綜合搜索百度有先發(fā)優(yōu)勢(shì),有著十多年的數(shù)據(jù)和技術(shù)積累,360想在這方面趕超幾無可能;另一方面360爬取百度數(shù)據(jù)的做法,遭到后者多重打壓:既有懸在頭上的訴訟,也有重定向等技術(shù)手段。在360搜索結(jié)果點(diǎn)擊百度知道、百科等頁(yè)面,將被重定向,二次點(diǎn)擊使得用戶無法享受完整的搜索體驗(yàn)。
當(dāng)360搜索從無到有,并快速搶占22%(CNZZ最新)市場(chǎng)份額躋身中國(guó)搜索老二時(shí),360在PC客戶端渠道掌控上優(yōu)勢(shì)盡現(xiàn),反過來,就搜索來說百度也有反制360的手段:數(shù)據(jù)。細(xì)心觀察Google、360等搜索引擎會(huì)發(fā)現(xiàn),首頁(yè)結(jié)果出現(xiàn)百度知道、百科和貼吧內(nèi)容的幾率非常大,搜搜問問、愛問知識(shí)人和奇虎問答則是補(bǔ)充。如果搜索引擎沒有百度的數(shù)據(jù),用戶找到想要的結(jié)果的幾率會(huì)降低很多。
百度在2004年開始每年推出一個(gè)重量級(jí)產(chǎn)品:貼吧、知道和百科。現(xiàn)在百度的數(shù)據(jù)優(yōu)勢(shì)顯示了當(dāng)初UGC策略的英明之處。這些用戶創(chuàng)造的數(shù)據(jù)已經(jīng)成為百度的核心資產(chǎn),同時(shí)百度官方運(yùn)營(yíng)人員也功不可沒,而360直接將百度辛苦積攢的數(shù)據(jù)拿去使用,百度自然難以接受。數(shù)據(jù)是否豐富將很大程度決定搜索體驗(yàn)。
Robots協(xié)議,網(wǎng)站維護(hù)自身利益的工具?
Robots協(xié)議是網(wǎng)站站長(zhǎng)與搜索引擎之間共同討論后形成、通過Robots.txt落地。網(wǎng)站站長(zhǎng)用它決定對(duì)搜索引擎的開放程度,引導(dǎo)爬蟲如何更有效地爬取自己,F(xiàn)被廣泛采用。Google、百度等搜索引擎均嚴(yán)格遵守。通常網(wǎng)站可以在服務(wù)器根目錄下的“Robots.txt”中指明哪些內(nèi)容可以被搜索引擎抓取,哪些不可以;也可以指明對(duì)那個(gè)搜索引擎開放,或者對(duì)哪個(gè)不開放。限制某個(gè)搜索引擎,Robots初衷是限制“BadRob”,即壞爬蟲。所謂壞,是指存在安全或隱私問題,抑或太高頻率爬取導(dǎo)致服務(wù)器壓力。
事實(shí)上,Robots最初是用來約束搜索引擎的。搜索引擎夢(mèng)想是獲取所有數(shù)據(jù),Robots限制了這一點(diǎn)。Robots也可以設(shè)置站點(diǎn)地圖、屏蔽死鏈接以及減輕服務(wù)器壓力不讓爬蟲爬取大文件。但整體而言搜索引擎是不歡迎Robots的,據(jù)某站長(zhǎng)介紹,如何要想從搜索引擎獲得更多流量,最好別用Robots文件。
不過百度是一家搜索公司,也是一家內(nèi)容網(wǎng)站——當(dāng)被Google、360等搜索引擎爬取時(shí),李彥宏的角色就是網(wǎng)站站長(zhǎng)。Robots協(xié)議對(duì)其也有保護(hù)作用。對(duì)360啟用Robots限制很大程度是為了維護(hù)自身數(shù)據(jù)優(yōu)勢(shì),防范競(jìng)爭(zhēng)。Robots協(xié)議現(xiàn)在已逐步成為網(wǎng)站主維護(hù)利益的工具。
2008年淘寶屏蔽了Google、百度等搜索引擎也是利用Robots協(xié)議,理由是欺詐風(fēng)險(xiǎn),今年淘寶屏蔽微信也是類似的理由。京東商城也通過Robots協(xié)議屏蔽了阿里旗下的購(gòu)物搜索引擎一淘:因?yàn)橐惶晕唇?jīng)允許抓取京東商品評(píng)價(jià),而這些評(píng)價(jià)花費(fèi)了京東上億的積分激勵(lì)資源。屏蔽一淘得到蘇寧易購(gòu)的效仿。
360對(duì)百度不滿意之處在于:百度的Robots采用了允許部分網(wǎng)站的方式,360被排除在外。其他搜索引擎例如搜狗就可以搜索百度內(nèi)容。據(jù)接近百度內(nèi)部人士介紹,搜索引擎要加入百度robots協(xié)議的白名單,一般需要與之簽署一份書面協(xié)議。盡管360前幾天與百度打了一場(chǎng)足球賽,但暫時(shí)應(yīng)該還難以與之簽署書面協(xié)議。
顯而易見,百度屏蔽360、淘寶屏蔽百度、京東和蘇寧易購(gòu)屏蔽一淘,均是利用Robots協(xié)議來應(yīng)對(duì)競(jìng)爭(zhēng)對(duì)手,而不是因?yàn)閷?duì)方的爬蟲是“壞爬蟲”。
用戶創(chuàng)造內(nèi)容的版權(quán)歸屬成為焦點(diǎn)
Robots的效力與“口頭約定”差不多。但進(jìn)入搜索引擎行業(yè)的均會(huì)遵循這個(gè)游戲規(guī)則,這得靠自律。但是違反協(xié)議本身是否被法律制裁,現(xiàn)在難以判斷。如果爭(zhēng)論焦點(diǎn)圍繞著作權(quán),屆時(shí)還要看360的行為是否符合避風(fēng)港原則。
360認(rèn)為百度不應(yīng)該將Robots協(xié)議這么用,他們抓取的數(shù)據(jù)是用戶創(chuàng)造的,百度不應(yīng)該屏蔽。并且百度不應(yīng)該只對(duì)自己屏蔽。就算360覺得委屈,更合適的方式是推動(dòng)Robots協(xié)議修訂,并且說服業(yè)界接受,這很難。但現(xiàn)在360采用不遵守協(xié)議直接爬取的方法,有點(diǎn)“以暴制暴”的感覺:“規(guī)則不公平,抑或有人濫用來對(duì)付我,我就不遵守這個(gè)規(guī)則。”
用戶創(chuàng)造內(nèi)容是否可以不經(jīng)過網(wǎng)站允許被抓取呢?百度用戶創(chuàng)造的內(nèi)容并沒有明確的所有權(quán)歸屬。國(guó)內(nèi)只有知乎等少數(shù)UGC社區(qū)有CC協(xié)議(知識(shí)共享),百度內(nèi)容究竟是屬于用戶還是百度,UGC社區(qū)需要更加明確的版權(quán)協(xié)議。但360并不能因此就要求百度必須開放數(shù)據(jù)。況且這些數(shù)據(jù)的產(chǎn)生百度確實(shí)有所付出,例如運(yùn)營(yíng)、技術(shù)、軟硬件資源等。
那么國(guó)外有無先例呢?在12年前,美國(guó)加州北部的聯(lián)邦地方法院,eBay起訴Bidder’s Edg案中,Bidder‘Edg違反Robots協(xié)議抓取eBay數(shù)據(jù),BE敗訴。但是在2011年4月微軟向歐盟起訴Google,因?yàn)镚oogle限制競(jìng)爭(zhēng)對(duì)手的搜索引擎正常訪問YouTube,微軟卻獲勝了。
難以預(yù)測(cè)本次百度起訴360案結(jié)局怎么樣,因?yàn)榭梢越梃b的先例也給出了不同的答案。不過本案結(jié)局勢(shì)必會(huì)給接下來國(guó)內(nèi)的互聯(lián)網(wǎng)內(nèi)容歸屬、非法律范疇協(xié)議糾紛值提供重大的借鑒意義。
本案也將很大程度影響360搜索此后的發(fā)展方向。2008年奇虎便推出了問答,但與百度知道還有差距。接下來360很可能會(huì)收購(gòu)知乎這類內(nèi)容社區(qū),還會(huì)加強(qiáng)自有UGC社區(qū)建設(shè),很簡(jiǎn)單,如果人才智力是互聯(lián)網(wǎng)公司最有價(jià)值的流動(dòng)資產(chǎn),那么數(shù)據(jù)將是未來最重要的固定資產(chǎn)。360現(xiàn)在的數(shù)據(jù)集中在底層安全數(shù)據(jù),應(yīng)用型數(shù)據(jù)還太少。這是它冒著被索賠1億元的風(fēng)險(xiǎn)去爬取別家數(shù)據(jù)的根本原因。
文章編輯: 365webcall網(wǎng)站客服系統(tǒng)(www.365webcall.com)
我的評(píng)論
登錄賬號(hào): | 密碼: | 快速注冊(cè) | 找回密碼 |