Py之jieba:Python包之jieba包(中文分詞最好的組件)簡介、安裝、使用方法之詳細(xì)攻略
jieba簡介
應(yīng)該算得上是分詞領(lǐng)域的佼佼者,想要使用python做文本分析,分詞是必不可少的一個環(huán)節(jié)。
(1)支持三種分詞模式:
(1)精確模式:試圖將句子最精確的切開,適合文本分析。
(2)全模式:把句子中所有可以成詞的詞語都掃描出來,速度非???#xff0c;但是不能解決歧義。
(3)搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
(2)支持繁體分詞
(3)支持自定義詞典
?
jieba安裝
pip install jieba


好啦,大功告成,開始使用吧!
jieba使用方法
1、進(jìn)行分詞
import jieba
text='周杰倫(Jay Chou),1979年1月18日出生于臺灣省新北市,祖籍福建省泉州市永春縣,中國臺灣流行樂男歌手、原創(chuàng)音樂人、演員、導(dǎo)演等,畢業(yè)于淡江中學(xué)。'
text_cut = jieba.cut(text, cut_all=False)
print(list(text_cut))
['周杰倫', '(', 'Jay', ' ', 'Chou', ')', ',', '1979', '年', '1', '月', '18', '日出', '生于', '臺灣省', '新北市', ',', '祖籍', '福建省', '泉州市', '永春縣', ',', '中國臺灣', '流行樂', '男歌手', '、', '原創(chuàng)', '音樂', '人', '、', '演員', '、', '導(dǎo)演', '等', ',', '畢業(yè)', '于', '淡江', '中學(xué)', '。']
?