【原】Py之jieba：Python包之jieba包(中文分詞最好的組件)簡介、安裝、使用方法之詳細(xì)攻略

處女座的程序猿 2021-09-28

展開全文

Py之jieba：Python包之jieba包(中文分詞最好的組件)簡介、安裝、使用方法之詳細(xì)攻略

jieba簡介

應(yīng)該算得上是分詞領(lǐng)域的佼佼者，想要使用python做文本分析，分詞是必不可少的一個環(huán)節(jié)。
(1)支持三種分詞模式：
　　(1)精確模式：試圖將句子最精確的切開，適合文本分析。
　　(2)全模式：把句子中所有可以成詞的詞語都掃描出來，速度非?？?#xff0c;但是不能解決歧義。
　　(3)搜索引擎模式：在精確模式的基礎(chǔ)上，對長詞再次切分，提高召回率，適合用于搜索引擎分詞。
(2)支持繁體分詞
(3)支持自定義詞典
?

jieba安裝

pip install jieba

好啦，大功告成，開始使用吧！

jieba使用方法

1、進(jìn)行分詞

import jieba
text='周杰倫（Jay Chou），1979年1月18日出生于臺灣省新北市，祖籍福建省泉州市永春縣，中國臺灣流行樂男歌手、原創(chuàng)音樂人、演員、導(dǎo)演等，畢業(yè)于淡江中學(xué)。'
text_cut = jieba.cut(text, cut_all=False)
print(list(text_cut))

['周杰倫', '（', 'Jay', ' ', 'Chou', '）', '，', '1979', '年', '1', '月', '18', '日出', '生于', '臺灣省', '新北市', '，', '祖籍', '福建省', '泉州市', '永春縣', '，', '中國臺灣', '流行樂', '男歌手', '、', '原創(chuàng)', '音樂', '人', '、', '演員', '、', '導(dǎo)演', '等', '，', '畢業(yè)', '于', '淡江', '中學(xué)', '。']
?