jieba.NET是jieba中文分詞的.NET版本（C#實(shí)現(xiàn)）。

株野 2017-08-04

展開全文

jieba.NET是jieba中文分詞的.NET版本（C#實(shí)現(xiàn)）。

當(dāng)前版本為0.38.2，基于jieba 0.38，提供與jieba一致的功能與接口，以后可能會(huì)在jieba基礎(chǔ)上提供其它擴(kuò)展功能。關(guān)于jieba的實(shí)現(xiàn)思路，可以看看這篇wiki里提到的資料。

如果您在開發(fā)中遇到與分詞有關(guān)的需求或困難，請(qǐng)?zhí)峤灰粋€(gè)Issue，I see u:)

特點(diǎn)

支持三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文本分析；
- 全模式，把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非?？?，但是不能解決歧義。具體來(lái)說(shuō)，分詞過(guò)程不會(huì)借助于詞頻查找最大概率路徑，亦不會(huì)使用HMM；
- 搜索引擎模式，在精確模式的基礎(chǔ)上，對(duì)長(zhǎng)詞再次切分，提高召回率，適合用于搜索引擎分詞。
支持繁體分詞
支持添加自定義詞典和自定義詞
MIT 授權(quán)協(xié)議

算法

基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖 (DAG)
采用了動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
對(duì)于未登錄詞，采用了基于漢字成詞能力的HMM模型，使用了Viterbi算法

安裝和配置

當(dāng)前版本基于.NET Framework 4.5，可以手動(dòng)引用項(xiàng)目，也可以通過(guò)NuGet添加引用：

PM> Install-Package jieba.NET

安裝之后，在packages\jieba.net目錄下可以看到Resources目錄，這里面是jieba.Net運(yùn)行所需的詞典及其它數(shù)據(jù)文件，最簡(jiǎn)單的配置方法是將整個(gè)Resources目錄拷貝到程序集所在目錄，這樣jieba.NET會(huì)使用內(nèi)置的默認(rèn)配置值。如果希望將這些文件放在其它位置，則要在app.config或web.config中添加如下的配置項(xiàng)：

<appSettings>
    <add key="JiebaConfigFileDir" value="C:\jiebanet\config" />
</appSettings>

需要注意的是，這個(gè)路徑可以使用絕對(duì)路徑或相對(duì)路徑。如果使用相對(duì)路徑，那么jieba.NET會(huì)假設(shè)該路徑是相對(duì)于當(dāng)前應(yīng)用程序域的BaseDirectory。

配置示例：

采用絕對(duì)路徑時(shí)，比如配置項(xiàng)為C:\jiebanet\config，那么主詞典的路徑會(huì)拼接為：C:\jiebanet\config\dict.txt。
采用相對(duì)路徑時(shí)（或未添加任何配置項(xiàng)，那么將會(huì)使用默認(rèn)的相對(duì)路徑：Resources），比如配置項(xiàng)為..\config（可通過(guò)..來(lái)調(diào)整相對(duì)路徑），若當(dāng)前應(yīng)用程序域的BaseDirectory是C:\myapp\bin\，那么主詞典的路徑會(huì)拼接為：C:\myapp\config\dict.txt。

主要功能

1. 分詞

JiebaSegmenter.Cut方法接受三個(gè)輸入?yún)?shù)，text為待分詞的字符串；cutAll指定是否采用全模式；hmm指定使用是否使用hmm模型切分未登錄詞；返回類型為IEnumerable<string>
JiebaSegmenter.CutForSearch方法接受兩個(gè)輸入?yún)?shù)，text為待分詞的字符串；hmm指定使用是否使用hmm模型；返回類型為IEnumerable<string>

代碼示例

var segmenter = new JiebaSegmenter();
var segments = segmenter.Cut("我來(lái)到北京清華大學(xué)", cutAll: true);
Console.WriteLine("【全模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("我來(lái)到北京清華大學(xué)");  // 默認(rèn)為精確模式
Console.WriteLine("【精確模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("他來(lái)到了網(wǎng)易杭研大廈");  // 默認(rèn)為精確模式，同時(shí)也使用HMM模型
Console.WriteLine("【新詞識(shí)別】：{0}", string.Join("/ ", segments));

segments = segmenter.CutForSearch("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所，后在日本京都大學(xué)深造"); // 搜索引擎模式
Console.WriteLine("【搜索引擎模式】：{0}", string.Join("/ ", segments));

segments = segmenter.Cut("結(jié)過(guò)婚的和尚未結(jié)過(guò)婚的");
Console.WriteLine("【歧義消除】：{0}", string.Join("/ ", segments));

輸出

【全模式】：我/ 來(lái)到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)
【精確模式】：我/ 來(lái)到/ 北京/ 清華大學(xué)
【新詞識(shí)別】：他/ 來(lái)到/ 了/ 網(wǎng)易/ 杭研/ 大廈
【搜索引擎模式】：小明/ 碩士/ 畢業(yè)/ 于/ 中國(guó)/ 科學(xué)/ 學(xué)院/ 科學(xué)院/ 中國(guó)科學(xué)院/ 計(jì)算/ 計(jì)算所/ ，/ 后/ 在/ 日本/ 京都/ 大學(xué)/ 日本京都大學(xué)/ 深造
【歧義消除】：結(jié)過(guò)婚/ 的/ 和/ 尚未/ 結(jié)過(guò)婚/ 的

2. 添加自定義詞典

加載詞典

開發(fā)者可以指定自定義的詞典，以便包含jieba詞庫(kù)里沒(méi)有的詞。雖然jieba有新詞識(shí)別能力，但是自行添加新詞可以保證更高的正確率
JiebaSegmenter.LoadUserDict("user_dict_file_path")
詞典格式與主詞典格式相同，即一行包含：詞、詞頻（可省略）、詞性（可省略），用空格隔開
詞頻省略時(shí)，分詞器將使用自動(dòng)計(jì)算出的詞頻保證該詞被分出

如

創(chuàng)新辦 3 i
云計(jì)算 5
凱特琳 nz
臺(tái)中
機(jī)器學(xué)習(xí) 3

調(diào)整詞典

使用JiebaSegmenter.AddWord(word, freq=0, tag=null)可添加一個(gè)新詞，或調(diào)整已知詞的詞頻；若freq不是正整數(shù)，則使用自動(dòng)計(jì)算出的詞頻，計(jì)算出的詞頻可保證該詞被分出來(lái)
使用JiebaSegmenter.DeleteWord(word)可移除一個(gè)詞，使其不能被分出來(lái)

3. 關(guān)鍵詞提取

基于TF-IDF算法的關(guān)鍵詞提取

JiebaNet.Analyser.TfidfExtractor.ExtractTags(string text, int count = 20, IEnumerable<string> allowPos = null)可從指定文本中抽取出關(guān)鍵詞。
JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerable<string> allowPos = null)可從指定文本中抽取關(guān)鍵詞的同時(shí)得到其權(quán)重。
關(guān)鍵詞抽取基于逆向文件頻率（IDF），組件內(nèi)置一個(gè)IDF語(yǔ)料庫(kù)，可以配置為其它自定義的語(yǔ)料庫(kù)。
關(guān)鍵詞抽取會(huì)過(guò)濾停用詞（Stop Words），組件內(nèi)置一個(gè)停用詞語(yǔ)料庫(kù)，這個(gè)語(yǔ)料庫(kù)合并了NLTK的英文停用詞和哈工大的中文停用詞。

基于TextRank算法的關(guān)鍵詞抽取

JiebaNet.Analyser.TextRankExtractor與TfidfExtractor相同的接口。需要注意的是，TextRankExtractor默認(rèn)情況下只提取名詞和動(dòng)詞。
以固定窗口大?。J(rèn)為5，通過(guò)Span屬性調(diào)整）和詞之間的共現(xiàn)關(guān)系構(gòu)建圖

4. 詞性標(biāo)注

JiebaNet.Segmenter.PosSeg.PosSegmenter類可以在分詞的同時(shí)，為每個(gè)詞添加詞性標(biāo)注。
詞性標(biāo)注采用和ictclas兼容的標(biāo)記法，關(guān)于ictclas和jieba中使用的標(biāo)記法列表，請(qǐng)參考：詞性標(biāo)記。

var posSeg = new PosSegmenter();
var s = "一團(tuán)碩大無(wú)朋的高能離子云，在遙遠(yuǎn)而神秘的太空中迅疾地飄移";

var tokens = posSeg.Cut(s);
Console.WriteLine(string.Join(" ", tokens.Select(token => string.Format("{0}/{1}", token.Word, token.Flag))));

一團(tuán)/m 碩大無(wú)朋/i 的/uj 高能/n 離子/n 云/ns ，/x 在/p 遙遠(yuǎn)/a 而/c 神秘/a 的/uj 太空/n 中/f 迅疾/z 地/uv 飄移/v

5. Tokenize：返回詞語(yǔ)在原文的起止位置

默認(rèn)模式

var segmenter = new JiebaSegmenter();
var s = "永和服裝飾品有限公司";
var tokens = segmenter.Tokenize(s);
foreach (var token in tokens)
{
    Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}", token.Word, token.StartIndex, token.EndIndex);
}

word 永和           start: 0   end: 2
word 服裝           start: 2   end: 4
word 飾品           start: 4   end: 6
word 有限公司         start: 6   end: 10

搜索模式

var segmenter = new JiebaSegmenter();
var s = "永和服裝飾品有限公司";
var tokens = segmenter.Tokenize(s, TokenizerMode.Search);
foreach (var token in tokens)
{
    Console.WriteLine("word {0,-12} start: {1,-3} end: {2,-3}", token.Word, token.StartIndex, token.EndIndex);
}

word 永和           start: 0   end: 2
word 服裝           start: 2   end: 4
word 飾品           start: 4   end: 6
word 有限           start: 6   end: 8
word 公司           start: 8   end: 10
word 有限公司         start: 6   end: 10

6. 并行分詞（暫未實(shí)現(xiàn)）

7. 與Lucene.NET的集成

jiebaForLuceneNet項(xiàng)目提供了與Lucene.NET的簡(jiǎn)單集成，更多信息請(qǐng)看：jiebaForLuceneNet

8. 其它詞典

jieba分詞亦提供了其它的詞典文件：

占用內(nèi)存較小的詞典文件 https://raw./anderscui/jieba.NET/master/ExtraDicts/dict.txt.small
支持繁體分詞更好的詞典文件 https://raw./anderscui/jieba.NET/master/ExtraDicts/dict.txt.big

9. 分詞速度

全模式：2.5 MB/s
精確模式：1.1 MB/s
測(cè)試環(huán)境： Intel(R) Core(TM) i3-2120 CPU @ 3.30GHz；圍城.txt（734KB）

10. 命令行分詞

Segmenter.Cli項(xiàng)目build之后得到j(luò)iebanet.ext，它的選項(xiàng)和實(shí)例用法如下：

-f       --file          the file name, (必要的).
-d       --delimiter     the delimiter between tokens, default: / .
-a       --cut-all       use cut_all mode.
-n       --no-hmm        don't use HMM.
-p       --pos           enable POS tagging.
-v       --version       show version info.
-h       --help          show help details.

sample usages:
$ jiebanet -f input.txt > output.txt
$ jiebanet -d | -f input.txt > output.txt
$ jiebanet -p -f input.txt > output.txt

https://github.com/anderscui/jieba.NET

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：株野 > 《中文分詞》

舉報(bào)/認(rèn)領(lǐng)