日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

PDF文檔數(shù)據(jù)難處理?資深記者教你幾招 |

 rongycd87 2019-09-08

不少機(jī)構(gòu)選擇用PDF格式對(duì)外公布信息,避免遭篡改,而這樣做卻給記者和數(shù)據(jù)工作者們帶來了不大不小的麻煩:文字尚且可以復(fù)制粘貼,但表格一經(jīng)粘貼就亂了順序,只能新建一張表。

有沒有一些省時(shí)省力的工具呢?

有的。南非資深數(shù)據(jù)記者Laura Grant根據(jù)多年的經(jīng)驗(yàn)推薦了一組簡(jiǎn)單好用的工具,以及使用PDF文檔的小技巧。

Tabula

Tabula是個(gè)免費(fèi)的工具,可靠且易用。其官網(wǎng)上稱其“由記者設(shè)計(jì),為記者服務(wù)?!?難怪深受廣大非計(jì)算機(jī)專業(yè)人士的歡迎。

Tabula的一大好處是允許用戶先上傳一整份PDF文檔,再選擇其中的表格,一次導(dǎo)出單個(gè)或多個(gè)均可。輸出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等軟件打開。

然而對(duì)于經(jīng)過掃描生成的PDF文檔,或者橫向放置的表格,Tabula就無能為力了,但可以用接下來介紹的其它軟件解決。

Cometdocs

Cometdocs同樣深受記者歡迎,其中一個(gè)原因是美國(guó)的調(diào)查新聞從業(yè)人員可以免費(fèi)成為其高級(jí)會(huì)員,而另一個(gè)原因就是操作簡(jiǎn)便。

對(duì)于普通用戶,Cometdocs可以每周免費(fèi)轉(zhuǎn)換五份PDF文檔,超過這個(gè)數(shù)量就要收費(fèi),價(jià)格是每月9.99美元。如果一次性支付130美元?jiǎng)t可以終身使用。

使用的時(shí)候,將需要轉(zhuǎn)換的PDF文檔上傳,點(diǎn)擊“轉(zhuǎn)換”(convert)鍵,再選擇輸出的格式是Excel或ODS(用于Libre Office軟件),但缺點(diǎn)是不支持CSV格式。

Cometdocs的一大特點(diǎn)是支持光學(xué)字符識(shí)別(Optical Character Recognition, OCR)技術(shù),可以用于經(jīng)掃描生成的PDF文檔。由于其未必百分百準(zhǔn)確,所以轉(zhuǎn)換后仍需仔細(xì)檢查一遍。

與Tabula一樣,Cometdocs不能識(shí)別橫向放置的表格。

Adobe Export PDF

PDF的這個(gè)官方轉(zhuǎn)換工具需要付費(fèi)使用,但24美元一年的價(jià)格并不算離譜。

你可以在官方閱讀軟件Adobe Reader上使用該轉(zhuǎn)換工具,轉(zhuǎn)換后直接用Excel、Word、PowerPoint或RTF打開新文檔。

與Tabula類似,Export PDF可以快速處理大文檔,但也同樣不適用于掃描件或橫向轉(zhuǎn)置的表格。

Nitro Pro

Nitro Pro適合商業(yè)人士,功能強(qiáng)大但價(jià)格不菲,大約需要160美元。其缺點(diǎn)是只能用于Windows操作系統(tǒng),將廣大MacBook用戶排除在外。

Acrobat Pro

同樣是PDF官方出品,Windows和Mac均適用,但每月收費(fèi)15美元,而且最少要訂購(gòu)一年。

Zanran

同樣是收費(fèi)軟件,但可以試用,只要文件小于1.5MB,并提供你的郵箱。轉(zhuǎn)換后的文件將以電子郵件的形式發(fā)送給你。

Zamzar

同樣是需要用郵箱接收文件的網(wǎng)上軟件,但好處是免費(fèi)使用。

PDF轉(zhuǎn)換的其它技巧

表格轉(zhuǎn)置

有些出版物出于空間的考量會(huì)把表格“打橫”放,如果是印刷品還可以將其旋轉(zhuǎn)90度后閱讀,電子版的話就只能轉(zhuǎn)動(dòng)你的脖子了。

PDF文檔也會(huì)有類似的問題,而且這種橫向放置的表格一般不能被轉(zhuǎn)換軟件識(shí)別。解決的辦法是先轉(zhuǎn)置PDF中的表格,主要的工具有前面介紹過的Nitro Pro或Acrobat Pro。

Acrobat Pro的用法是:

  • 對(duì)于一份較大PDF文檔中的若干表格,較好的方法是先打開文檔,使用“Organize Pages”選項(xiàng)提取出含有表格的那幾頁,每一頁生成單獨(dú)的文檔。

  • 打開包含表格的頁面后,選擇“View”菜單,將表格旋轉(zhuǎn)至垂直的方向。

  • 打開“”Enhance Scans”選項(xiàng),選擇Recognize Text,確保選中“Save as editable text and images”。這可能要花幾分鐘,并且完成設(shè)置后可能表格又轉(zhuǎn)回去了。

  • 回到“View”菜單,將表格再度調(diào)整至適當(dāng)?shù)姆较虿⒈4嫖臋n。

  • 你可以嘗試將表格轉(zhuǎn)換成Excel的格式,但經(jīng)驗(yàn)表明用Tabula效果更好。

  • 再次檢查轉(zhuǎn)換后的文檔,尤其是看看”8″是否被誤作”6″或”B”。

導(dǎo)出掃描件中的表格

在掃描的PDF文件中,一般軟件會(huì)將表格識(shí)別為圖片而非文字,所以你首先要做的是將表格用具有光學(xué)字符識(shí)別(OCR)功能的軟件轉(zhuǎn)換成文字。

可以選擇的軟件包括前面提到的Cometdocs、Acrobat Pro或Nitro Pro。

對(duì)于掃描效果尚可的文檔,Acrobat Pro的“Enhance Scans”工具足以識(shí)別其中的文字。有時(shí)候,先用截屏的方式將表格保存為一份單獨(dú)的文檔可能效果更好,然后再用Tabula轉(zhuǎn)換成CSV格式。

有密碼鎖的文檔

有些PDF文檔被作者加了密碼鎖,未經(jīng)授權(quán)用戶不能隨意編輯或?qū)⑵滢D(zhuǎn)換為其它格式,但也不是沒有解決辦法。

蘋果Mac用戶可以使用電腦上的“Preview”功能打開PDF文檔,然后在“Menu”菜單中選擇“Export as PDF”。這樣你就生成了一個(gè)新的未經(jīng)加鎖的PDF文檔,基本上可以進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

編譯/周穗斌

編輯/Ivan Zhai,梁思然

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多