搜索引擎核心算法:自然語言和布爾搜索
來源:SEO優(yōu)化 2013-08-07
剛開始時有2000個網(wǎng)頁,但使用布爾邏輯運算符來分解數(shù)據(jù)集合,就大大減小了搜索范圍
本人從事搜索引擎相關(guān)的工作已有十一年,今天與大家一起談談搜索引擎核心算法之:自然語言和布爾搜索論述引出了如下結(jié)論:搜索爬蟲和搜索引擎使用某種啟發(fā)式方法給網(wǎng)頁排名,并返回結(jié)果爬蟲觀察模式,以確定某網(wǎng)頁的內(nèi)容,搜索引擎在搜索查詢中查找模式,并與爬蟲識別的模式進行比較,并返回結(jié)果
這個理論的復雜性在于,我們使用的是活躍的、不斷成長、不斷演變的語言,這意味著語言的使用模式也在不斷變化為了跟上這種變化,搜索引擎也必須是活躍的、不斷成長、不斷演變的,所以在理解如何針對搜索引擎定位阿站時,啟發(fā)式方法是一個非常重要的概念理解它的最簡單方法是比較過去和現(xiàn)在的搜索行為,確定搜索是如何演變的
開始時使用布爾搜索
今天,人們的搜索方式與搜索引擎剛剛問世時的搜索方式完全不同記得以前提過 Archie、Gopher、Jughead和verojnuca 這些早期的索引和搜索程序的能力是相當有限的,要在索引中查找信息,必須對索引非常了解實際上,使用Archie和Gopher時,必須知道所要查找的文檔或文件的確切位置
有了Jughead和Veronica后,就可以實際搜索信息了:但那時,搜索仍是非;镜漠斔阉髯罱K變?yōu)榭赡軙r,如何查找文件是有一些嚴苛的規(guī)則的在搜索引擎的早期,還沒有今天非常普遍的自然語言搜索
用戶必須指定他們要搜索“這個短語”,而不是搜索“那個短語”,或者精確搜索某個短語.輸入靠爾邏輯——在索引中查找正確的文件或文檔所需的方法布爾邏輯基于GeorgeBoole在19世紀中葉提出的邏輯代數(shù)系統(tǒng)
實際上,布爾邏輯就是把數(shù)據(jù)分解為集合,直到數(shù)據(jù)集合非常小,滿足初始查詢提出的要求為止例如,在搜索時,網(wǎng)絡上可能有1000個網(wǎng)頁有關(guān)“pools”,有1000個網(wǎng)頁有關(guān)“saltwater”,如果搜索“saltwater pools”,就會返回所有2000個阿頁這實在太多了但合并這兩個術(shù)語,僅查找既包含“saltwater”、又包含“pools”的網(wǎng)頁,則只返同原來2000個阿頁中的一小部分,如圖5—1所示
為了使這個例子更進一步,可以添加一個限制符,例如“not chlorine”,以縮小數(shù)據(jù)集合添加這個限制符時,會去除另外部分數(shù)據(jù),滿足“pools,saltwater. but not chlorine”查詢的選項就更少了,如
這個例子演示了布爾搜索中使用的3個運算符:與、或、非布爾邏輯基于邏輯代數(shù)系統(tǒng),所以這些運算符都可以用一個符號表示:
·與:+
·非;
·或:默認運算符,返回包含任意一個單詞的所有頁面,而不管它們的接近程度如何該運算符用單詞之間的空格表示現(xiàn)在找到需要的內(nèi)容的可能性更大,且查找速度更快
在互聯(lián)網(wǎng)搜索的早期.布爾邏輯幫助用戶定位需要的文件和文檔從啟發(fā)式方法的角度來看,布爾邏輯為搜索提供了完美的問題解決能力但技術(shù)會逐漸成熟起來……
小站(BET365)
文章編輯: 365webcall網(wǎng)上客服軟件(www.365webcall.com)
我的評論
登錄賬號: | 密碼: | 快速注冊 | 找回密碼 |