Python無(wú)監(jiān)督抽詞
來(lái)源:SEO優(yōu)化 2012-10-13
如何快速正確分詞,對(duì)于SEO來(lái)說(shuō),是提取tags聚合,信息關(guān)聯(lián)的好幫手。
目前很多分詞工具都是基于一元的分詞法,需要詞庫(kù)來(lái)輔助。
通過(guò)對(duì)Google黑板報(bào)第一章的學(xué)習(xí),如何利用統(tǒng)計(jì)模型進(jìn)行分詞。
本方法考慮了3個(gè)維度:
凝聚程度:兩個(gè)字連續(xù)出現(xiàn)的概率并不是各自獨(dú)立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個(gè)字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實(shí)上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨(dú)立概率之積。所以我們可以認(rèn)為“上床”是一個(gè)詞。
左鄰字聚合熵:分出的詞左邊一個(gè)字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過(guò)去”這個(gè)詞,前面可以用“走過(guò)去”,“跑過(guò)去”,“爬過(guò)去”,“打過(guò)去”,“混過(guò)去”,“睡過(guò)去”,“死過(guò)去”,“飛過(guò)去”等等,信息熵就非常高。
右鄰字聚合熵:分出的詞右邊一個(gè)詞的信息量,同上。
下面是一個(gè)利用Python實(shí)現(xiàn)的demo(轉(zhuǎn)自:/?p=682
收藏本文
文章編輯: 365webcall在線(xiàn)客服系統(tǒng)(www.365webcall.com)
我的評(píng)論
登錄賬號(hào): | 密碼: | 快速注冊(cè) | 找回密碼 |