日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

文獻(xiàn)太多看不過來?教你用R語言快速挖掘pubmed文獻(xiàn)信息數(shù)據(jù)

 whwywu 2021-04-10

今天給大家分享兩個(gè)用來挖掘PubMed的R包,有了現(xiàn)成的工具,省去了不少自己寫爬蟲的功夫,可以實(shí)現(xiàn):快速分析研究方向的發(fā)文趨勢,通過關(guān)鍵詞找到合適自己的投稿期刊,看看自己領(lǐng)域內(nèi)的大牛人物;這么多好玩的功能,趕緊行動(dòng)起來吧,玩轉(zhuǎn)pubmed吧!

RISmed:適合快速分析pubmed文獻(xiàn),統(tǒng)計(jì)文章的機(jī)構(gòu)作者信息,期刊信息發(fā)表的年份等發(fā)文趨勢情況,這個(gè)包自帶網(wǎng)絡(luò)爬取功能,可以即時(shí)下載期刊信息。

pumed.mineR:比較適合用來做pubmed摘要文本的數(shù)據(jù)挖掘,有摘要英文文本分詞、詞頻統(tǒng)計(jì)的功能,摘要內(nèi)文本基因名的頻率統(tǒng)計(jì)的功能。

RISmed包的使用

1

RISmed下載文獻(xiàn)數(shù)據(jù)

沒有安裝RISmed可以從CRAN上安裝,先載入這個(gè)包。

按照Pubmed的檢索式寫一個(gè)字符串,并將他賦值給search_topic,這里我選擇了表觀遺傳和突觸可塑性兩個(gè)關(guān)鍵詞作為檢索式,中間用AND代表邏輯值同時(shí)包含兩個(gè)字段的文獻(xiàn),還可以通過添加[author]搜索作者,[Affiliation]搜索機(jī)構(gòu),各種pubmed支持的檢索詞都可以直接添加;接下來調(diào)用EUtilsSummary函數(shù),第一個(gè)參數(shù)傳入檢索式的字符串search_topic,db用于選擇NCBI的數(shù)據(jù)庫類型,可以選擇NCBI的其他基因蛋白數(shù)據(jù)庫,不僅限于Pubmed;retmax用于設(shè)置最大獲取量,這里為了演示只獲取了100條;mindatemaxdate分別設(shè)定檢索的開始時(shí)間和結(jié)束時(shí)間。這一步其實(shí)只返回了pubmedID,和pubmed檢索式,沒有真正進(jìn)行文獻(xiàn)信息爬取。最后使用summary查看檢索結(jié)果。我們可以看到它返回了pubmed實(shí)際的檢索式,年份以及網(wǎng)絡(luò)狀態(tài)碼。

2

文獻(xiàn)數(shù)據(jù)展現(xiàn)

接下來EUtilsGet這個(gè)函數(shù)將會(huì)依據(jù)之前的pubmedID進(jìn)行文獻(xiàn)信息爬取,并返回一個(gè)Medline對象,這一步需要一定網(wǎng)絡(luò)速度,特別是連接pubmed的速度,國內(nèi)有的地方速度還是很慢的,就不一定能下載下來哦,可以多執(zhí)行幾次試試。

這個(gè) Medline是一個(gè)S4的對象,里面包含了文章的接收、發(fā)表日期,全部的作者和作者機(jī)構(gòu),文章的摘要。

有了文章的摘要,其實(shí)可以利用文本分析工具進(jìn)行英文分詞,計(jì)算詞頻,但是這個(gè)工作用后面介紹的包pumed.mineR進(jìn)行效率更高。接下來可以可視化一下,分析這個(gè)領(lǐng)域內(nèi)發(fā)論文最多的雜志,還怕找不到合適的期刊投稿嗎?各種數(shù)據(jù)探索性數(shù)據(jù)分析的方法可以搭配使用,滿滿的潛力!我們可以看到表觀遺傳和突觸可塑性的文章,當(dāng)然這里樣本量有點(diǎn)少,等我網(wǎng)速好,可以增加點(diǎn)樣本量。

3

Mesh醫(yī)學(xué)主題詞統(tǒng)計(jì)

還有一個(gè)很厲害的功能是提取Mesh醫(yī)學(xué)主題詞,提取出來的word是一個(gè)list,list里面是每一篇文章的Mesh,它以一個(gè)data.frame存儲(chǔ);里面有些文章是沒有mesh信息的。所以第一步先去除缺失值,再將list使用unlist拆開一下,使用dplyr包去除重復(fù)詞,并提取里面所有的mesh主題詞,使用table函數(shù)計(jì)算詞頻。

4

詞云可視化

下面繪制詞云,可視化結(jié)果,載入wordcloud2包繪制可交互的詞云,這包傳入兩列數(shù)據(jù),第一列是詞,第二列是頻率,一鍵自動(dòng)化圖;也可以用wordcloud和RColorBrewer繪制,這個(gè)可以到處PDF矢量圖。

pumed.mineR的使用

1

下載文獻(xiàn)數(shù)據(jù)構(gòu)建對象

這個(gè)包并不能即時(shí)的通過包內(nèi)函數(shù)爬取pubmed數(shù)據(jù),需要自行從pubmed上下載,摘要信息,然后導(dǎo)入包內(nèi)的函數(shù)。

我們首先先從pubmed上根據(jù)自己的需要檢索文獻(xiàn),如圖點(diǎn)擊SAVE,選擇ALL RESULTS,數(shù)據(jù)類型選擇ABSTRACT,即可下載所有的文章摘要等信息數(shù)據(jù),下載好的數(shù)據(jù)是一個(gè)txt文本文件。

如果需要特定的幾篇文章,可以選中文章前面的勾,不打勾默認(rèn)是下載全部文章信息,這里下載了1059篇文章的信息。導(dǎo)入摘要數(shù)據(jù)成一個(gè)S4對象。

重點(diǎn)來了,廢了我好大的功夫才找到solution,之前在文本分詞的時(shí)候出現(xiàn)錯(cuò)誤,后來發(fā)現(xiàn)由于分詞時(shí)遇到特殊字符造成,通過 Sys.setlocale設(shè)置系統(tǒng)參數(shù)解決。接下來分詞,計(jì)算詞頻。

2

詞頻的統(tǒng)計(jì)及可視化

選取前15個(gè)出現(xiàn)頻率最高的詞可視化一下。

3

基因名統(tǒng)計(jì)與可視化

gene_atomization函數(shù)原理大概是把文獻(xiàn)的摘要進(jìn)行分詞,比對摘要中出現(xiàn)的基因名并進(jìn)行統(tǒng)計(jì),我們從圖中可以看到表觀遺傳和突觸可塑性的研究中,出現(xiàn)最多的基因有HDAC2、DNMT1。

總 結(jié)

通過比較RISmed 、pumed.mineR這兩個(gè)R包的函數(shù),RISmed可以用于查詢某領(lǐng)域內(nèi)文獻(xiàn)的逐年發(fā)文趨勢,發(fā)文機(jī)構(gòu),發(fā)文作者等信息,方便對整個(gè)研究建立全局的了解。pumed.mineR則適合用來挖掘摘要文本,它內(nèi)置文本處理函數(shù),短時(shí)間內(nèi)了解上千篇文獻(xiàn)的研究不是夢。

有了這兩個(gè)R包神器,還怕文獻(xiàn)讀不過來嗎?趕緊分析一下自己研究方向的文獻(xiàn),看看自己研究領(lǐng)域的發(fā)文趨勢吧!

征 稿 啟 事

“醫(yī)學(xué)方”始終致力于服務(wù)“醫(yī)學(xué)人”,將最前沿、最有價(jià)值的臨床、科研原創(chuàng)文章推送給各位臨床醫(yī)師、科研人員。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多