一、中心成立及定位 國家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center,簡稱NGDC)于2019年6月經(jīng)科技部、財政部通知公布,由中國科學(xué)院北京基因組研究所(國家生物信息中心)作為依托單位,聯(lián)合中國科學(xué)院生物物理研究所和中國科學(xué)院上海營養(yǎng)與健康研究所共同建設(shè)。中心面向我國人口健康和社會可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立生命與健康大數(shù)據(jù)匯交存儲、安全管理、開放共享與整合挖掘研究體系,研發(fā)大數(shù)據(jù)前沿交叉與轉(zhuǎn)化應(yīng)用的新方法和新技術(shù),建設(shè)支撐我國生命科學(xué)發(fā)展、國際領(lǐng)先的基因組科學(xué)數(shù)據(jù)中心。 中心定位與目標 二、中心運行機制與組成 中心主任:鮑一明研究員 中心副主任:章張研究員、趙文明正高級工程師(任期至2023年11月)、宋述慧研究員(2023年11月至今) 工作團隊:組學(xué)原始數(shù)據(jù)歸檔庫、基因組數(shù)據(jù)庫、基因組變異數(shù)據(jù)庫、基因表達數(shù)據(jù)庫、表觀基因組數(shù)據(jù)庫、非編碼RNA數(shù)據(jù)庫、精準醫(yī)學(xué)知識庫、生物信息工具庫和系統(tǒng)運維部等。 中心集體照 三、年度主要科研進展 1.?多組學(xué)數(shù)據(jù)資源體系持續(xù)拓展和更新 國家基因組科學(xué)數(shù)據(jù)中心持續(xù)拓展和更新多組學(xué)數(shù)據(jù)資源體系。2023年重點加強多組學(xué)數(shù)據(jù)整合、知識融合、新庫開發(fā),以及核心數(shù)據(jù)庫升級。其中,新開發(fā)了多個數(shù)據(jù)庫,包括原生生物(P10K)、細菌(NTM-DB, MPA)、植物(PPGR, SoyOmics, PlantPan)和疾病/性狀關(guān)聯(lián)(CROST, HervD Atlas, HALL, MACdb, BioKA, RePoS, PGG.SV, NAFLDkb)等數(shù)據(jù)資源。截至2023年12月底,已支持各類科技項目17,000多個,匯交數(shù)據(jù)量達40PB,相關(guān)數(shù)據(jù)已在572種國內(nèi)外期刊的3,000多篇文章發(fā)表,為國家基因組科學(xué)數(shù)據(jù)的匯交共享、安全管理和挖掘利用提供了重要支撐。數(shù)據(jù)庫建設(shè)整體情況以“Database resources of the National Genomics Data Center, China National Center for Bioinformation in 2024”為題在Nucleic Acids Research?在線發(fā)表。 國家基因組科學(xué)數(shù)據(jù)中心多組學(xué)數(shù)據(jù)資源體系 2.?GSA數(shù)據(jù)庫入選全球核心生物數(shù)據(jù)資源 2023年12月11日,國家基因組科學(xué)數(shù)據(jù)中心建設(shè)的組學(xué)原始數(shù)據(jù)歸檔庫(Genome Sequence Archive, GSA)成功入選由國際生物數(shù)據(jù)聯(lián)盟(Global Biodata Coalition, GBC)發(fā)起的全球核心生物數(shù)據(jù)資源(Global Core Biodata Resource, GCBR)。GCBR現(xiàn)收錄52個國際數(shù)據(jù)庫,GSA是我國目前唯一入選的數(shù)據(jù)庫。作為生命組學(xué)原始測序數(shù)據(jù)匯交、存儲、管理和共享的公益性數(shù)據(jù)庫,GSA旨在推動全球生命組學(xué)數(shù)據(jù)的共享與應(yīng)用。此次入選GCBR有利于促進我國生命科學(xué)組學(xué)數(shù)據(jù)的統(tǒng)一管理與開放共享,推動與國際社會的深度交流合作,并加速我國在大數(shù)據(jù)時代的生命科學(xué)研究進程。 GSA入選GCBR 3.?全球生物數(shù)據(jù)庫目錄Database Commons入選2022年度“中國生物信息學(xué)十大進展” 生物數(shù)據(jù)庫作為全球各類生命科學(xué)研究的基礎(chǔ)支撐,極大促進了大數(shù)據(jù)向知識的轉(zhuǎn)化,并推動了眾多研究領(lǐng)域的重要創(chuàng)新。NGDC自2015年起建設(shè)全球生物數(shù)據(jù)庫目錄Database Commons,聯(lián)合國內(nèi)外多家科研機構(gòu),持續(xù)開展數(shù)據(jù)積累和功能完善。截至2023年底,已審編收錄76個國家/地區(qū)2,142家機構(gòu)發(fā)布的6,380個數(shù)據(jù)庫。同時,創(chuàng)新設(shè)計了z-index用于評估數(shù)據(jù)庫的科學(xué)影響,并根據(jù)數(shù)據(jù)庫文章引用和z-index對生物數(shù)據(jù)庫及其隸屬機構(gòu)和國家進行排名。Database Commons提供了全球生物數(shù)據(jù)庫的系列統(tǒng)計數(shù)據(jù)和趨勢,為更好地了解數(shù)據(jù)庫發(fā)展態(tài)勢及其對生命健康科學(xué)的影響提供全球視角。該成果以“Database Commons: a catalog of worldwide biological databases”為題在?Genomics Proteomics Bioinformatics?在線發(fā)表,并入選2022年度“中國生物信息學(xué)十大進展”。 Database Commons入選2022年度“中國生物信息學(xué)十大進展” 4.發(fā)布基因序列數(shù)據(jù)庫GenBase 基因的序列和注釋信息(包括DNA、RNA和蛋白序列信息)是支撐基因功能研究的核心基礎(chǔ)數(shù)據(jù)之一。為保障我國基因序列數(shù)據(jù)的主權(quán)和安全,滿足我國科研人員在基因序列數(shù)據(jù)匯交、管理和共享過程中的現(xiàn)實需求,NGDC開發(fā)了基因序列數(shù)據(jù)庫GenBase,于2023年3月正式上線,為用戶提供基因序列數(shù)據(jù)匯交共享和查詢下載服務(wù)。GenBase對標美國國家生物信息中心NCBI的GenBank數(shù)據(jù)庫,立足中國,服務(wù)全球,可接收來自全球科研人員的數(shù)據(jù)提交,并且通過數(shù)據(jù)交換機制實現(xiàn)與GenBank的無縫共享。 GenBase網(wǎng)站頁面 5.2019新冠病毒信息庫(RCoV19)持續(xù)升級更新 2023年RCoV19進一步升級,開發(fā)了全自動化的數(shù)據(jù)智能審編模型和數(shù)據(jù)共享頁面,建立了基因組快速變異解析流程、單倍型網(wǎng)絡(luò)演化構(gòu)建算法以及基于機器學(xué)習(xí)的高風(fēng)險株系預(yù)警模型,開發(fā)了新冠病毒傳播演化實時監(jiān)測平臺、高風(fēng)險變異株預(yù)警可視化系統(tǒng)和交互式突變譜快速比對功能模塊,實現(xiàn)了新冠病毒基因組序列、變異和演化支系的可視化動態(tài)監(jiān)測,高風(fēng)險變異株的及早預(yù)警,以及重要序列或譜系的變異特征規(guī)律分析,成為集新冠病毒基因組數(shù)據(jù)自動整合、變異監(jiān)測、風(fēng)險預(yù)警和突變效應(yīng)知識于一體的全鏈條綜合性平臺。截至2023年12月25日,RCoV19已收錄新冠病毒序列超1,700萬條,為全球182個國家/地區(qū)400多萬名訪客提供數(shù)據(jù)服務(wù),累計數(shù)據(jù)下載達190多億條。該成果以“RCoV19: a one-stop hub for SARS-CoV-2 genome data integration, variant monitoring, and risk pre-warning”為題在Genomics Proteomics Bioinformatics 在線發(fā)表。 RCoV19一站式平臺 6.開發(fā)人類癌癥代謝物關(guān)聯(lián)知識庫MACdb 隨著代謝組學(xué)研究的發(fā)展,針對不同癌癥類型、基因組異常、藥物反應(yīng)評估的代謝物關(guān)聯(lián)關(guān)系已被廣泛報道。MACdb是一個基于人工審編的知識庫,用于收錄代謝產(chǎn)物與癌癥之間的關(guān)聯(lián)關(guān)系。目前已整合基于269個癌癥特征的40,710個關(guān)聯(lián)關(guān)系,涵蓋17類高發(fā)病率或高死亡率的癌癥,是當前涵蓋癌癥類型最全的癌癥—代謝物關(guān)聯(lián)知識庫。MACdb提供直觀的瀏覽功能及多維度關(guān)聯(lián)檢索,通過知識圖譜實現(xiàn)對癌癥、特征和代謝產(chǎn)物間整體情況的展示。此外,NameToCid和Enrichment工具可用于標準化代謝物及富集代謝產(chǎn)物與各種癌癥類型和特征的關(guān)聯(lián)。該成果以“MACdb: a curated knowledgebase for metabolic associations across human cancers”為題于2023年7月在Molecular Cancer Research正式發(fā)表,并被選為該刊當期封面故事。 MACdb知識庫入選MCR期刊封面故事 7.開發(fā)人類內(nèi)源性逆轉(zhuǎn)錄病毒相關(guān)疾病知識庫HervD Atlas 人內(nèi)源性逆轉(zhuǎn)錄病毒(HERVs)是遠古時期外源性逆轉(zhuǎn)錄病毒感染宿主生殖細胞或胚胎干細胞并整合到人類基因組上的前病毒序列,近年研究表明其在正常生理和病理發(fā)展等重要生命過程中發(fā)揮重要作用。為此,NGDC與本所陳非團隊合作開發(fā)了人類內(nèi)源性逆轉(zhuǎn)錄病毒相關(guān)疾病知識庫HervD Atlas,整合250多篇HERVs相關(guān)疾病研究文獻數(shù)據(jù),通過人工審編獲得60,726條高質(zhì)量的HERVs與疾病關(guān)聯(lián)條目,涵蓋21,790種HERVs,149種疾病和610個受影響基因。該數(shù)據(jù)庫系統(tǒng)整合HERVs、疾病和基因的關(guān)聯(lián)信息,構(gòu)建了交互式知識圖譜,為關(guān)聯(lián)知識整合及推斷提供了界面友好的可視化平臺。該成果以“HervD Atlas: a curated knowledgebase of associations between human endogenous retroviruses and diseases”為題在Nucleic Acids Research?在線發(fā)表。 HervD Atlas概覽 8.發(fā)布生物標志物知識庫BioKA 生物標志物(Biomarker)不僅是診斷分析發(fā)展、確定新藥研發(fā)靶標的基礎(chǔ),也是培育新品種的基礎(chǔ),在個性化醫(yī)療、藥物研發(fā)、臨床護理和分子育種等多個領(lǐng)域發(fā)揮重要作用。為此,NGDC開發(fā)了生物標志物知識庫BioKA,從4,747篇文獻中人工審編與整合了人和30個動物物種總共951個疾病/性狀相關(guān)的16,296個生物標志物,并提供了經(jīng)過標準化后的308個品種以及相應(yīng)的生物標志物信息。BioKA不僅豐富了人類標志物信息,也填補了已有的生物標志物數(shù)據(jù)資源在動物疾病和動物分子育種方面的空缺。該成果以“BioKA: a curated and integrated biomarker knowledgebase for animals”為題在Nucleic Acids Research 在線發(fā)表。 9.開發(fā)空間轉(zhuǎn)錄組綜合資源存儲庫CROST 隨著空間轉(zhuǎn)錄組測序技術(shù)的發(fā)展,空間轉(zhuǎn)錄組數(shù)據(jù)的激增急需一個用戶友好的數(shù)據(jù)庫系統(tǒng),以便于輕松訪問數(shù)據(jù),并進行可視化和個性化分析。為此,NGDC與本所方向東團隊合作開發(fā)了空間轉(zhuǎn)錄組綜合資源存儲庫CROST,應(yīng)用標準化處理流程整合了182個高質(zhì)量的空間轉(zhuǎn)錄組數(shù)據(jù)集,涵蓋8個不同物種、35種組織類型和56種疾病的1,033個子數(shù)據(jù)集。針對單個樣本提供了全面的生物信息分析,包括空間變異基因(SVG)分析、細胞類型注釋、空間相關(guān)性、空間共定位、通訊分析和功能注釋等。CROST通過集成空間轉(zhuǎn)錄組、經(jīng)典轉(zhuǎn)錄組、表觀基因組和基因組的數(shù)據(jù)全面闡明了腫瘤相關(guān)SVG,是用戶(尤其是臨床醫(yī)生)快速評估特定癌癥類型中基因表達水平、甲基化水平、拷貝數(shù)變異以及預(yù)后的寶貴工具。該成果以“CROST: a comprehensive repository of spatial transcriptomics”為題在Nucleic Acids Research在線發(fā)表。 CROST概覽 10.發(fā)布開放生物醫(yī)學(xué)影像存檔庫OBIA 生物醫(yī)學(xué)影像數(shù)據(jù)中包含大量的隱私信息,如何構(gòu)建生物醫(yī)學(xué)影像數(shù)據(jù)管理平臺,既保障數(shù)據(jù)隱私信息的安全,又能促進全球數(shù)據(jù)的共享,是當前生物醫(yī)學(xué)影像數(shù)據(jù)使用中急需解決的問題。為此,NGDC與中國人民解放軍總醫(yī)院第七醫(yī)學(xué)中心合作開發(fā)了開放生物醫(yī)學(xué)影像存檔庫OBIA,向國內(nèi)外科研人員提供醫(yī)學(xué)影像數(shù)據(jù)遞交、歸檔、發(fā)布與共享的公共服務(wù)。為保障影像數(shù)據(jù)中隱私信息的安全,OBIA制定了統(tǒng)一的去識別和質(zhì)量控制流程,并設(shè)置了開放訪問和受控訪問兩種不同類型的數(shù)據(jù)訪問策略。目前OBIA收錄的影像數(shù)據(jù)包含子宮內(nèi)膜癌、卵巢癌和宮頸癌三大婦科腫瘤,來自4,136項研究的937個個體,包括24,701個系列和1,938,309幅影像,涵蓋了9種模態(tài)和30個解剖部位。該成果以“OBIA: an open biomedical imaging archive”為題在 Genomics Proteomics Bioinformatics 在線發(fā)表。 11.開發(fā)大豆多維組學(xué)數(shù)據(jù)庫SoyOmics 高通量測序技術(shù)的發(fā)展促使大豆組學(xué)研究不斷深入。實現(xiàn)大豆多維組學(xué)數(shù)據(jù)的整合分析,將為大豆遺傳育種提供有力支持。為此,NGDC與中國科學(xué)院遺傳發(fā)育所田志喜團隊合作開發(fā)了大豆多維組學(xué)數(shù)據(jù)庫SoyOmics。該庫目前收錄了27個大豆品系的從頭組裝基因組數(shù)據(jù),并對相應(yīng)基因組信息進行了全面的基因組注釋,從基因組、變異組、轉(zhuǎn)錄組、表型組等不同層面整合了大豆相關(guān)數(shù)據(jù)集,實現(xiàn)了不同層次組學(xué)數(shù)據(jù)的交互查詢和聯(lián)合比較分析,為大豆遺傳學(xué)及育種研究提供基礎(chǔ)數(shù)據(jù)支撐和全新的觀察視角。該成果以“SoyOmics: a deeply integrated database on soybean multi-omics”為題在Molecular Plant?在線發(fā)表。 12.發(fā)布熱帶作物組學(xué)數(shù)據(jù)庫TCOD 測序技術(shù)的飛速發(fā)展推動了熱帶作物研究領(lǐng)域里程碑式的發(fā)展,積累了海量的多組學(xué)數(shù)據(jù),然而,大量的數(shù)據(jù)分散在不同的數(shù)據(jù)中心或網(wǎng)站,給數(shù)據(jù)利用帶來了不便,亟需開發(fā)一個綜合數(shù)據(jù)整合與共享平臺。為此,NGDC與海南大學(xué)王文泉團隊等合作開發(fā)了熱帶作物組學(xué)數(shù)據(jù)庫TCOD(Tropical Crop Omics Database)。目前TCOD已整合15種熱帶作物的基因組、變異組、轉(zhuǎn)錄組和品種數(shù)據(jù),以基因為橋梁關(guān)聯(lián)多種組學(xué)數(shù)據(jù),為用戶提供便捷的數(shù)據(jù)瀏覽、檢索和下載等服務(wù)。TCOD不僅提供了物種間的同源基因關(guān)系用于跨物種功能探索,還提供了一系列在線工具用于數(shù)據(jù)挖掘,為熱帶作物選擇育種和性狀改良研究提供支撐。該成果以“TCOD: an integrated resource for tropical crops”為題于2023年10月在Nucleic Acids Research 在線發(fā)表。 TCOD數(shù)據(jù)庫概覽 13.開發(fā)多年生木本植物基因組與調(diào)控信息庫PPGR 多年生木本植物是林業(yè)作物中重要的植物類群,其生命周期長,基因組大且雜合度高,具有獨特的生理代謝途徑和脅迫抵抗特性。全面整合多年生木本植物組學(xué)數(shù)據(jù)資源,建立系統(tǒng)的遺傳調(diào)控網(wǎng)絡(luò),對于闡明該植物類群的關(guān)鍵生物學(xué)過程和獨特性狀具有重要意義。為此,NGDC與北京林業(yè)大學(xué)謝劍波團隊合作開發(fā)了多年生木本植物基因組與調(diào)控信息庫PPGR。該信息庫是首個專注于多年生木本植物的在線資源平臺,目前已整合60種重要多年生木本植物的基因組數(shù)據(jù),應(yīng)用標準化流程分析了9,016個植物轉(zhuǎn)錄組樣本,鑒定了107,344個轉(zhuǎn)錄因子、10,263個抗病基因以及53,829個水平轉(zhuǎn)移基因,系統(tǒng)構(gòu)建了多維基因調(diào)控網(wǎng)絡(luò),將為林木基因組學(xué)和基因調(diào)控研究領(lǐng)域科研突破和發(fā)現(xiàn)提供強大的數(shù)據(jù)支持和信息保障。該成果以“PPGR: a comprehensive perennial plant genomes and regulation database”為題在Nucleic Acids Research在線發(fā)表。 14.開發(fā)植物圖像及相關(guān)性狀開放歸檔庫OPIA 隨著高通量植物表型采集技術(shù)在植物表型組學(xué)研究中的廣泛應(yīng)用,產(chǎn)生了大量的圖像和基于圖像的性狀數(shù)據(jù),這些數(shù)據(jù)是種質(zhì)篩選、植物病蟲害鑒定、農(nóng)藝性狀挖掘等應(yīng)用的重要資源。為此,NGDC與中國科學(xué)院遺傳發(fā)育所胡偉娟團隊合作開發(fā)了植物圖像及相關(guān)性狀開放歸檔庫OPIA,為國內(nèi)外科研人員提供植物圖像及相關(guān)性狀數(shù)據(jù)遞交與共享的公共服務(wù)。OPIA采用標準化人工審編流程整合了56個高質(zhì)量的植物圖像數(shù)據(jù)集,涵蓋11個物種、6種組織類型,總計566,225張圖像、2,417,186個注釋實例。通過對來自不同傳感器類型的圖像樣本及相應(yīng)標簽數(shù)據(jù)的運用,有利于促進研究人員進一步提高智能預(yù)測方法的精度,揭示植物生長的動態(tài)規(guī)律,進而推動全球植物表型組學(xué)領(lǐng)域的創(chuàng)新和發(fā)展。該成果以“OPIA: an open archive of plant images and related phenotypic traits”為題在Nucleic Acids Research在線發(fā)表。 OPIA功能概覽 四、獲獎與榮譽 國家基因組科學(xué)數(shù)據(jù)中心榮獲2023年北京市朝陽區(qū)“最美科技創(chuàng)新團隊” 全球生物數(shù)據(jù)庫目錄Database Commons入選2022年度“中國生物信息學(xué)十大進展” 鮑一明研究員榮獲“全國歸僑僑眷先進個人” 趙文明正高級工程師榮獲“中國科學(xué)院優(yōu)秀黨務(wù)工作者” 馬利娜副研究員榮獲2023年度中國科學(xué)院青促會優(yōu)秀會員 陳梅麗高級工程師入選2023年度中國科學(xué)院技術(shù)支撐人才 2023年度研究生國家獎學(xué)金:宗文婷、麥嘉琳 2023年度中國科學(xué)院朱李月華優(yōu)秀博士生獎:李昭 |
|