對于pdf文檔,大家平時(shí)在工作的時(shí)候,可能會遇到很多的問題,比如不知道文字提取功能是怎么操作的,所以很多時(shí)候都浪費(fèi)了時(shí)間。那么pdf文字提取是怎么操作的?pdf的作用及基本特征是什么?萬興PDF專家將為您詳細(xì)介紹。 PDF文檔 PDF是由Adobe公司所開發(fā)的獨(dú)特的跨平臺文件格式。是便攜文檔格式的外語簡稱,同時(shí)也是該格式的擴(kuò)展名。它可把文檔的文本、格式、字體、顏色、分辨率、鏈接及圖形圖像、聲音、動態(tài)影像等所有的信息封裝在一個(gè)特殊的整合文件中。它在技術(shù)上起點(diǎn)高,功能全,功能大大的強(qiáng)過了現(xiàn)有的各種流行文本格式;又有大名鼎鼎、實(shí)力超群Adobe公司的極力推廣,現(xiàn)在已經(jīng)成為了新一代電子文本的不可爭議的行業(yè)標(biāo)準(zhǔn)。 pdf的作用及基本特征 PDF文件不管是在Windows,Unix還是在蘋果公司的Mac OS操作系統(tǒng)中都是通用的。這一特點(diǎn)使它成為在Internet上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式。越來越多的電子圖書、產(chǎn)品說明、公司文告、網(wǎng)絡(luò)資料、電子郵件開始使用PDF格式文件。PDF格式文件目前已成為數(shù)字化信息事實(shí)上的一個(gè)工業(yè)標(biāo)準(zhǔn)。 Adobe公司設(shè)計(jì)PDF文件格式的目的是為了支持跨平臺上的,多媒體集成的信息出版和發(fā)布,尤其是提供對網(wǎng)絡(luò)信息發(fā)布的支持。為了達(dá)到此目的, PDF具有許多其他電子文檔格式無法相比的優(yōu)點(diǎn)。PDF文件格式可以將文字、字型、格式、顏色及獨(dú)立于設(shè)備和分辨率的圖形圖像等封裝在一個(gè)文件中。該格式文件還可以包含超文本鏈接、聲音和動態(tài)影像等電子信息,支持特長文件,集成度和安全可靠性都較高。 PDF文件使用了工業(yè)標(biāo)準(zhǔn)的壓縮算法,通常比PostScript文件小,易于傳輸與儲存。 pdf文字提取怎么操作? 1. 第一步:先用Adobe Reader打開想轉(zhuǎn)換的PDF文件,接下來選擇“文件→打印”菜單,在打開的“打印”窗口中將“打印機(jī)”欄中的“名稱”設(shè)置為“Microsoft Office Document Image Writer”,確認(rèn)后將該PDF文件輸出為MDI格式的虛擬打印文件。 第二步:運(yùn)行Microsoft Office Document Imaging,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,在彈出的窗口中選中“在輸出時(shí)保持圖片版式不變”,確認(rèn)后系統(tǒng)會提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時(shí)間”,不管它,確認(rèn)即可。 2. 情況一:如果pdf文檔本身就是用pagemaker或word轉(zhuǎn)換而來的(文字非常清晰銳利,很容易識別),那你就方便了。你可以先用acrobat打開,然后點(diǎn)文件——>另存為——>把他保存成rtf文檔,這樣將把所有的pdf頁保存成rtf文檔,在用word打開。注意最好保存成rtf文檔,要不很有可能產(chǎn)生亂碼。小技巧:如果你只想識別pdf文件中的其中幾頁,那你可以現(xiàn)把那幾頁另存為新的pdf文檔,再進(jìn)行識別。Ny1
pdf文字提取 情況二:如果你所得到的pdf文檔是用掃描儀掃進(jìn)去的圖片轉(zhuǎn)換的,那么就麻煩了,不過還是比手輸入快多了,所以繼續(xù)往下看。首先你用acrobat把pdf文件打開,然后點(diǎn)文件——>另存為——>把他保存成圖片格式*.tiff(這是無壓縮圖片格式,以便識別),然后到網(wǎng)上下載文字識別軟件,建議用尚書六號(現(xiàn)在好像出到七號了,很有名,隨處都可以下到),安裝好后,打開轉(zhuǎn)換好的tiff圖片,點(diǎn)擊識別,看,文字出來了吧,尚書系列文字識別軟件功能十分強(qiáng)大,你可以在里面把文字都編輯好了,再保存成rtf或txt文件,然后粘貼到word里就可以使用了,注意過濾回車符。 以上就是關(guān)于pdf文字提取的詳細(xì)介紹??赐晡恼?,大家對如何提取文字是不是清楚了很多,相信大家在以后的工作之中也會感到輕松,推薦使用萬興PDF專家。 |
|