日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

NLP文本分類——豆瓣圖書分類實踐

 QJKKK 2019-07-19

文章大綱:
1.從0到1分類系統(tǒng)搭建流程介紹
2.相關(guān)技術(shù)背景和知識原理
3.分類測評結(jié)果

前言

有一段時間沒有重新寫文章了,這次主要寫的內(nèi)容是自己剛?cè)腴T的機器學(xué)習(xí)領(lǐng)域中的文本分類。起初做這個的目的是考慮到一個問題,就是當(dāng)我想去學(xué)習(xí)一個新的領(lǐng)域的知識或者嘗試了解一些不同方向的東西時,我都需要去尋找這一領(lǐng)域的入門的資料或者書籍(途徑之一,不絕對)。那我第一的想法就是去詢問這一方面的朋友或者網(wǎng)絡(luò)上查找有什么這一塊入門的書籍推薦。所以想嘗試通過大數(shù)據(jù)訓(xùn)練的方式來完成這個分類和篩選。

新手入門,如果有技術(shù)上的錯誤或者更正的地方,請多多指教。文章中說的大部分模塊都放在了我的Github頁面上,歡迎各種star和交流,提出issue等,非常感謝。

分類系統(tǒng)流程圖

豆瓣圖書分類系統(tǒng)

總結(jié)了一下整個工作的過程,然后用導(dǎo)圖的形式給出來。

稍微的解釋一下,第一部分我需要去豆瓣上抓取書籍?dāng)?shù)據(jù),這里我抓取了書籍的基本信息和書籍的評論(根據(jù)書籍的受歡迎程度不同,有的書幾百條,有的書有10萬條),這里主要依靠的是免費髙匿代理IP框架來進行網(wǎng)絡(luò)請求,因為目標(biāo)網(wǎng)站反爬蟲的原因,所以需要源源不斷有新鮮的IP血液。針對豆瓣圖書我已經(jīng)編寫好了爬蟲規(guī)則,同時對里面的異常做了處理還有詳細的日志,感興趣數(shù)據(jù)抓取部分的可以移步這里,為了以后方便使用將數(shù)據(jù)存儲在MongoDB中

第二部分就是數(shù)據(jù)的一些預(yù)處理階段,需要對數(shù)據(jù)進行分詞,使用了比較流行的中文分詞的Python庫jieba分詞,之后清洗的階段就需要對詞進行一些過濾,把沒用的詞匯給剔除出去。

第三部分訓(xùn)練前的準(zhǔn)備,就是需要對訓(xùn)練和測試集進行劃分,我是把整個數(shù)據(jù)集中拿出40%作為測試集,這個比例你可以自己定義,我是大概規(guī)定了,沒有什么學(xué)術(shù)的依據(jù)。然后進入比較重要的一步,就是特征降維和特征選擇,其實特征的選擇目的一個是為了達到特征降維的目的,還有就是可以將有效的或者其關(guān)鍵作用的特征篩選出來,提高分類器的效果和效率。

常用的特征選擇函數(shù)有圖中的幾種,我在下面會具體介紹。這次也是使用了圖中的那些來進行測試,選擇效果最好的一種來為分類器做準(zhǔn)備。

第四部分就是開始訓(xùn)練了,訓(xùn)練的時候就是將我們的訓(xùn)練數(shù)據(jù)和分類標(biāo)簽給到分類器,它就會開始訓(xùn)練了。這里拿了四個分類器進行測試,然后這里我測試的時候是直接一次性訓(xùn)練完成的。那么在實際的應(yīng)用中可能需要使用增量學(xué)習(xí),因為數(shù)據(jù)在不斷的變化和更替,而且一次性訓(xùn)練過大的數(shù)據(jù)也不能達到memory-friendly的要求。

第五部分就是對結(jié)果進行評估,看看準(zhǔn)確率、召回率、F值等。

技術(shù)背景

互信息(Mutual Information)

互信息(Mutual Information)衡量的是某個詞和類別之間的統(tǒng)計獨立關(guān)系,某個詞t和某個類別Ci傳統(tǒng)的互信息定義如下:互信息是計算語言學(xué)模型分析的常用方法,它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度。

信息增益方法(Information Gain)

信息增益方法是機器學(xué)習(xí)的常用方法,在過濾問題中用于度量已知一個特征是否出現(xiàn)于某主題相關(guān)文本中對于該主題預(yù)測有多少信息。通過計算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。信息增益G(w)的訓(xùn)算公式如下:其中P(w)是詞w出現(xiàn)的概率,P(Ci)是取第i個目錄時的概率,P(Ci|w) 是假定w出現(xiàn)時取第i個目錄的概率。

TF-IDF

其中TF 稱為詞頻,用于計算該詞描述文檔內(nèi)容的能力。IDF 稱為反文檔頻率,用于計算該詞區(qū)分文檔的能力。TF-IDF法是以特征詞在文檔d中出現(xiàn)的次數(shù)與包含該特征詞的文檔數(shù)之比作為該詞的權(quán)重,即其中,Wi表示第i個特征詞的權(quán)重,TFi(t,d)表示詞t在文檔d中的出現(xiàn)頻率,N表示總的文檔數(shù),DF(t)表示包含t的文檔數(shù)。用TF-IDF算法來計算特征詞的權(quán)重值是表示當(dāng)一個詞在這篇文檔中出現(xiàn)的頻率越高,同時在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對于表示這篇文檔的區(qū)分能力越強,所以其權(quán)重值就應(yīng)該越大。

word2vec詞向量

一種最簡單的詞向量是one-hot representation,就是用一個很長的向量來表示一個詞,向量的長度是詞典D的大小N,向量的分量只有一個為1,其他全為0,1的位置對應(yīng)該詞在詞典中的索引。這種詞向量表示有一些缺點:容易受維數(shù)災(zāi)難的困擾。另一種詞向量是Distributed Representation,它最早是Hinton于1986年提出來的,可以克服one-hot representation的上述缺點。其基本想法是:通過訓(xùn)練將某種語言中的每個詞映射成一個固定長度的短向量。所有這些向量構(gòu)成一個詞向量空間,每個向量是該空間中的一個點,在這個空間上引入距離,就可以根據(jù)詞之間的距離來判斷它們之間的(詞法、語義上的)相似性了。如何獲取Distributed Representation的詞向量呢?有很多不同的模型可以用來估計詞向量,包括有名的LSA、LDA和神經(jīng)網(wǎng)絡(luò)算法。Word2Vec就是使用度比較廣的一個神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)的詞向量計算工具。

各種分類器

篇幅有限,請翻閱周志華的《機器學(xué)習(xí)》西瓜書或者網(wǎng)上查閱相關(guān)理論。
這里鏈接一篇樸素貝葉斯的
算法雜貨鋪——分類算法之樸素貝葉斯分類(Naive Bayesian classification)

測評結(jié)果

這里我使用了pycharm為我的IDE,然后分別選取了200本入門書籍和200本非入門書籍進行測試。

先將各個特征選擇的選擇結(jié)果大概放出來看一下,有個直觀的印象。


WLLR特征選擇前10位特征
MI特征選擇前10位特征
IG特征選擇前10位特征
word2vec特征選擇前10位特征

從這里可以看出特征選擇上,word2vec的優(yōu)勢,在于能夠更好的理解語義,不僅從概率上來選擇。避免了低頻詞和部分文檔信息的丟失。

WLLR特征選擇下的四種分類器測評結(jié)果
MI特征選擇下的四種分類器測評結(jié)果
IG特征選擇下的四種分類器測評結(jié)果
詞向量特征選擇下的四種分類器測評結(jié)果

結(jié)論:WLLR和word2vec下的MultinomialNB分類器效果最接近。

最后我在項目中,還是使用了詞向量模型,主要是覺得它更能理解語義,相信通過對模型的優(yōu)化和調(diào)參(沒錯,我就是網(wǎng)友戲稱的調(diào)參民工!)能夠在這一塊提高準(zhǔn)確率。

使用300本入門和300本非入門,然后進行簡單的詞向量模型的調(diào)參之后的結(jié)果。

WLLR和詞向量的對比

還是有一點變化的,詞向量的特征選擇出來的分類器結(jié)果有了一些改變。

最后提一下,我使用的機器學(xué)習(xí)庫是Python的scikit-learn,然后在github上也訓(xùn)練了一個word2vec詞向量中文模型,使用的是搜狗全網(wǎng)新聞?wù)Z料(70多萬詞匯)??梢韵螺d下來直接嘗試一下詞向量語義理解能力的強大

參考文獻:
文本數(shù)據(jù)的機器學(xué)習(xí)自動分類方法(上)
文本數(shù)據(jù)的機器學(xué)習(xí)自動分類方法(下)
強烈推薦上面兩篇infoQ的文章,我就是從這里入門了解整個文本分類的過程和工作的。那對于這一塊還有很多相關(guān)的知識和理論不了解,所以沒有形成很好的對比和實踐。如果有更好的解決方案,請告訴我一起來完成。謝謝!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多