1.書籍中的文字電子化 1、OCR技術(shù)文獻數(shù)字化:基于OCR技術(shù)的文字識別軟件,可以將通過攝像機、掃描儀等光學輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉(zhuǎn)化為可供計算機識別和處理的文本信息。與傳統(tǒng)錄入方式相比,OCR技術(shù)極大的提高了資料存儲、檢索、加工的效率。 2、OCR技術(shù)的特點: 與傳統(tǒng)的手工資料錄入方式相比,文通文字識別軟件有以下優(yōu)勢: ?。?)效率高,其速度是人工錄入的上百倍甚至上千倍; (2)經(jīng)濟性好,大大節(jié)約了錄入人員的開銷; (3)準確性更高,根據(jù)數(shù)據(jù)統(tǒng)計顯示,OCR錄入方式的準確率遠高于人工錄入。 3、OCR的技術(shù)支持,文字識別軟件 2.手寫文字數(shù)字化 1)圖文輸入 是指通過輸入設(shè)備將文檔輸入到計算機中也就是實現(xiàn)原稿的數(shù)字化。在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識別的前提條件。恰當?shù)剡x擇掃描分辨率及相關(guān)參數(shù)是保證文字清楚、特征不丟失 的關(guān)鍵。 2)預處理 掃描一幅簡單的印刷文檔的圖像將每一個文字圖像分檢出來交給識別模塊識別這一過程稱為圖像預處理。預處理是指在進行文字識別之前的一些準備工作包括圖像凈化處理去掉原始圖像中的顯見噪聲干擾。 3)單字識別 單字識別是體現(xiàn)OCR文字識別的核心技術(shù)。從掃描文本中分檢出的文字圖 像由計算機將其圖形、圖像轉(zhuǎn)變成文字的標準代碼是讓計算機"認字"的關(guān) 鍵也就是所謂的識別技術(shù)。 4)后處理 后處理是指對識別出的文字或多個識別結(jié)果采用詞組方式進行上下匹配 即將單字識別的結(jié)果進行分詞與詞庫中的詞組進行比較以提高系統(tǒng)的識別 率減少誤識率。 |
|
來自: 昵稱47118512 > 《教育技術(shù)》