編者按 最近國(guó)內(nèi)統(tǒng)計(jì)學(xué)屆召開(kāi)多次學(xué)科建設(shè)相關(guān)會(huì)議,故重發(fā)本報(bào)告作為一種思路參考。本報(bào)告討論了統(tǒng)計(jì)學(xué)科面臨的機(jī)遇和挑戰(zhàn),由“統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用/價(jià)值”、“科學(xué)和社會(huì)應(yīng)用中的挑戰(zhàn)”、“基礎(chǔ)研究”、“專(zhuān)業(yè)文化與社區(qū)責(zé)任”、“博士教育”五部分組成,內(nèi)容來(lái)源于2018年10月15日至10月17日在弗吉尼亞州舉行的“十字路口的統(tǒng)計(jì):數(shù)據(jù)科學(xué)時(shí)代的挑戰(zhàn)和機(jī)遇”研討會(huì)的報(bào)告。該報(bào)告由Xuming He組織并由指導(dǎo)委員會(huì)(成員為James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner)審核,由吳喜之老師翻譯,已得到委員會(huì)和譯者授權(quán)。 什么是未來(lái)?未來(lái)的數(shù)據(jù)分析能夠涉及巨大的進(jìn)步,克服真正的困難,并為科技的各個(gè)領(lǐng)域提供出色的服務(wù)。會(huì)是這樣嗎?這完全依賴(lài)于我們,依賴(lài)于我們是愿意選擇解決實(shí)際問(wèn)題的坎坷道路,還是選擇由不真實(shí)的假定、武斷的準(zhǔn)則及脫離實(shí)際的抽象的結(jié)果構(gòu)成的平坦的道路。誰(shuí)來(lái)應(yīng)對(duì)挑戰(zhàn)? ——JOHN W. TUKEY (1962), “FUTURE OF DATA ANALYSIS” 執(zhí)行摘要 我們的世界越來(lái)越依賴(lài)數(shù)據(jù)和計(jì)算來(lái)創(chuàng)造知識(shí)、做出關(guān)鍵決策以及更好地預(yù)測(cè)未來(lái)。數(shù)據(jù)科學(xué)已成為一個(gè)新的領(lǐng)域,通過(guò)集成和開(kāi)發(fā)來(lái)自統(tǒng)計(jì)、計(jì)算機(jī)科學(xué)及實(shí)際領(lǐng)域的想法、概念和工具來(lái)支持這些數(shù)據(jù)驅(qū)動(dòng)的活動(dòng)。數(shù)據(jù)科學(xué)現(xiàn)在推動(dòng)著生物學(xué)、天文學(xué)、材料科學(xué)、政治科學(xué)和醫(yī)學(xué)等多元化領(lǐng)域,更不用說(shuō)全球經(jīng)濟(jì)的廣闊領(lǐng)域、政府的主要活動(dòng)以及日常社交和社會(huì)功能。 統(tǒng)計(jì)領(lǐng)域正處于十字路口:我們要么通過(guò)擁抱和引領(lǐng)數(shù)據(jù)科學(xué)而蓬勃發(fā)展,要么拒絕并變得無(wú)關(guān)緊要。從長(zhǎng)遠(yuǎn)來(lái)看,要繁榮發(fā)展,我們必須重新定義、擴(kuò)展和轉(zhuǎn)變統(tǒng)計(jì)領(lǐng)域。我們必須發(fā)展并成長(zhǎng)為從數(shù)據(jù)中收集和提取有用信息的跨學(xué)科科學(xué)。隨著各數(shù)據(jù)科學(xué)實(shí)體在校園、行業(yè)和政府中快速建立,成功轉(zhuǎn)型的機(jī)會(huì)窗口有限,我們絕不能錯(cuò)過(guò)。為實(shí)現(xiàn)這個(gè)變革,我們現(xiàn)在必須通過(guò)重新構(gòu)想我們的教育計(jì)劃、重新思考教師的招聘和晉升以及加速必要的文化變遷。 我們的領(lǐng)域受益于對(duì)畢業(yè)生日益增長(zhǎng)的需求,但一些新領(lǐng)域提供了更相關(guān)的訓(xùn)練,而至少相對(duì)而言,統(tǒng)計(jì)教育停滯不前。此外,在領(lǐng)導(dǎo)位置上缺乏統(tǒng)計(jì)人員,我們并沒(méi)有主導(dǎo)校園或其他地方的數(shù)據(jù)科學(xué)對(duì)話。如果我們現(xiàn)在不站出來(lái),我們就有可能失去資源、人才,甚至失去統(tǒng)計(jì)的未來(lái)。今天,我們的畢業(yè)生很容易找到工作,這反映出數(shù)據(jù)科學(xué)家對(duì)市場(chǎng)的絕望,不應(yīng)該讓我們感到輕松。 學(xué)術(shù)院系必須采取大膽和戰(zhàn)略性的步驟來(lái)領(lǐng)導(dǎo)和推動(dòng)轉(zhuǎn)型,然而,我們現(xiàn)有的大多數(shù)教師都準(zhǔn)備不足,無(wú)法引領(lǐng)道路。使問(wèn)題更加復(fù)雜的是,那些尚未接觸到統(tǒng)計(jì)可以解決實(shí)際問(wèn)題的天才學(xué)生正傾向于那些更明顯地這樣做的學(xué)科,從而扼殺了將產(chǎn)生急需的未來(lái)統(tǒng)計(jì)領(lǐng)袖的關(guān)鍵教師渠道。我們需要重新思考我們?nèi)绾纹刚?qǐng)統(tǒng)計(jì)教師、如何資助他們的工作、以及用于規(guī)范和獎(jiǎng)勵(lì)學(xué)術(shù)生涯發(fā)展的指標(biāo)。統(tǒng)計(jì)領(lǐng)域正在擴(kuò)大,并將繼續(xù)這樣做,但戰(zhàn)略性的及不斷變化的資源分配必須仍然是學(xué)術(shù)院系的高度優(yōu)先事項(xiàng)。統(tǒng)計(jì)學(xué)家需要與現(xiàn)實(shí)世界的問(wèn)題合作,以影響外部世界,超越具體的問(wèn)題解決,以區(qū)別于領(lǐng)域科學(xué)家,并開(kāi)發(fā)基于經(jīng)驗(yàn)證據(jù)和理論研究的一般工具,在程式化模型下,為數(shù)據(jù)科學(xué)提供見(jiàn)解。 理論可以為實(shí)踐提供關(guān)鍵的支架。例如,Stein關(guān)于James-Stein估計(jì)的開(kāi)創(chuàng)性理論工作是思想開(kāi)放的和根本的;它引導(dǎo)我們進(jìn)行規(guī)范化,這在當(dāng)今的大數(shù)據(jù)問(wèn)題中非常有用。理論分析還提供了經(jīng)驗(yàn)上成功的自助法、廣義估計(jì)方程和序貫蒙特卡羅的見(jiàn)解和支持。另一方面,如果統(tǒng)計(jì)中的理論工作既與實(shí)踐無(wú)關(guān),也無(wú)源于實(shí)踐的動(dòng)機(jī),那么,前面引用的Tuky(1962)的話,“不真實(shí)的假定、武斷的標(biāo)準(zhǔn)和抽象的結(jié)果”,那么大多數(shù)此類(lèi)工作的僅有的實(shí)際目的將是在簡(jiǎn)歷中生成一個(gè)條目(并犧牲從審稿者到編輯的大量工作)。優(yōu)雅和深度是數(shù)學(xué)中合理的治理指標(biāo);偶爾統(tǒng)計(jì)理論也可以?xún)?yōu)雅而深入,但不管怎樣,我們的指標(biāo)是不同的。良好的統(tǒng)計(jì)理論必須指導(dǎo)和加強(qiáng)實(shí)踐,否則我們?cè)诶速M(fèi)我們的時(shí)間和精力——時(shí)間和精力可以更好地花費(fèi)并且在數(shù)據(jù)科學(xué)時(shí)代推動(dòng)統(tǒng)計(jì)工作是十分必要的。 統(tǒng)計(jì)是一門(mén)基礎(chǔ)學(xué)科,對(duì)數(shù)據(jù)科學(xué)至關(guān)重要。與我們的計(jì)算機(jī)科學(xué)和領(lǐng)域科學(xué)的伙伴合作,我們可以在我們的基礎(chǔ)上構(gòu)建并轉(zhuǎn)換統(tǒng)計(jì)成為Fisher、Box、Tukey和Breiman最初設(shè)想的學(xué)科。統(tǒng)計(jì)包括實(shí)踐、計(jì)算和理論,但這些組成部分之間的平衡已經(jīng)嚴(yán)重扭曲,而且缺乏聯(lián)系。在必須繼續(xù)推動(dòng)理論界限的同時(shí),更多的統(tǒng)計(jì)人員需要投入于實(shí)踐以證明我們對(duì)社會(huì)的價(jià)值,為基礎(chǔ)研究方向提供信息,并有效地教學(xué),使學(xué)生學(xué)習(xí)實(shí)用技能?,F(xiàn)在,更新基本概念、基礎(chǔ)設(shè)施、教學(xué)模式和適應(yīng)新的數(shù)據(jù)科學(xué)時(shí)代的文化的時(shí)機(jī)已經(jīng)成熟。更具體地說(shuō),我們總結(jié)我們的主要調(diào)查結(jié)果和建議如下: 1. 實(shí)踐的中心作用 今天,我們緊迫地需要以相關(guān)的計(jì)算和理論為支撐,把實(shí)踐放在學(xué)科的中心。統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的研究和教育必須著眼于解決現(xiàn)實(shí)世界的問(wèn)題,總體上必須投入科學(xué)和領(lǐng)域問(wèn)題,對(duì)統(tǒng)計(jì)以外的領(lǐng)域產(chǎn)生可衡量的影響和貢獻(xiàn)。隨著數(shù)據(jù)科學(xué)的迅速成熟,這是行業(yè)轉(zhuǎn)型以擁抱和引領(lǐng)以數(shù)據(jù)為中心的世界的關(guān)鍵時(shí)期。統(tǒng)計(jì)領(lǐng)域的領(lǐng)導(dǎo)人需要做更多的工作,以加快轉(zhuǎn)型,并將這一領(lǐng)域推廣到廣大科學(xué)界和公眾領(lǐng)域。 2. 強(qiáng)調(diào)影響 該專(zhuān)業(yè)需要在學(xué)術(shù)成就評(píng)估中更加重視統(tǒng)計(jì)研究的科學(xué)和社會(huì)影響。NSF等政府機(jī)構(gòu)應(yīng)鼓勵(lì)統(tǒng)計(jì)學(xué)家和其他科學(xué)家之間的研究伙伴關(guān)系,以確?;A(chǔ)研究在科學(xué)、工程和社會(huì)方面具有良好基礎(chǔ)。ASA和IMS等專(zhuān)業(yè)組織也應(yīng)促進(jìn)這一點(diǎn)。主要大學(xué)的晉升和任期研究評(píng)估需要更廣闊的視野,不僅要衡量專(zhuān)業(yè)內(nèi)的影響,還要衡量在應(yīng)用領(lǐng)域的影響。社區(qū)需要重視軟件/平臺(tái)開(kāi)發(fā)的重要性。當(dāng)前過(guò)分強(qiáng)調(diào)出版物的數(shù)量對(duì)專(zhuān)業(yè)是有害的。對(duì)于實(shí)踐和理論而言,質(zhì)量和影響應(yīng)該是主要的評(píng)估指標(biāo)。 3. 為更好的實(shí)踐做研究? 為了使統(tǒng)計(jì)研究有效地支持科學(xué)與現(xiàn)實(shí)世界中的數(shù)據(jù)問(wèn)題,毋庸置疑,統(tǒng)計(jì)研究的表述必須反映和捕捉現(xiàn)代數(shù)據(jù)問(wèn)題中存在的現(xiàn)實(shí)。例如,基礎(chǔ)研究在動(dòng)態(tài)建模,因果分析和關(guān)于依賴(lài)性及異質(zhì)性的推斷方法中是需要的。 4. 迎接重大挑戰(zhàn) 該領(lǐng)域已準(zhǔn)備好接受重大研究問(wèn)題,以開(kāi)發(fā)經(jīng)過(guò)實(shí)踐證明的統(tǒng)計(jì)調(diào)查過(guò)程,包括問(wèn)題制定、數(shù)據(jù)處理以及統(tǒng)計(jì)和機(jī)器學(xué)習(xí)方法/算法,用于分析新興數(shù)據(jù)類(lèi)型(例如文本,圖像,關(guān)系型數(shù)據(jù))、開(kāi)發(fā)支持和推進(jìn)此類(lèi)工作的相關(guān)理論、發(fā)展計(jì)算平臺(tái),這些計(jì)算平臺(tái)考慮了統(tǒng)計(jì)效率、計(jì)算、通信和存儲(chǔ)成本以及人員參與成本之間的各種平衡。我們必須解決統(tǒng)計(jì)和數(shù)據(jù)科學(xué)所有研究領(lǐng)域的研究協(xié)議、評(píng)估指標(biāo)和基礎(chǔ)架構(gòu)開(kāi)發(fā)方面的問(wèn)題。 5. 更廣泛的方法評(píng)估指標(biāo) 方法論的發(fā)展需要較少關(guān)注單一目標(biāo)下的最優(yōu)性,而應(yīng)更多地關(guān)注涉及穩(wěn)定性/穩(wěn)健性、可再現(xiàn)性、公平性、計(jì)算可行性、經(jīng)驗(yàn)證據(jù)和在領(lǐng)域科學(xué)中已證明的影響的適當(dāng)指標(biāo)。 6. 訓(xùn)練現(xiàn)代技能 我們必須培養(yǎng)在批判性思維、建模、計(jì)算和交流等方面有重要技能的下一代統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家。我們需要重新構(gòu)想我們的博士學(xué)位課程,以適應(yīng)統(tǒng)計(jì)學(xué)的必要轉(zhuǎn)變。 背景 “十字路口的統(tǒng)計(jì):數(shù)據(jù)科學(xué)時(shí)代的挑戰(zhàn)和機(jī)遇”研討會(huì)于2018年10月15日星期一至10月17日星期三在弗吉尼亞州阿靈頓的萬(wàn)豪水晶門(mén)戶酒店舉行。此次研討會(huì)聚集了約48位領(lǐng)先的研究人員和教育工作者,利用數(shù)據(jù)科學(xué)時(shí)代前所未有的機(jī)遇和挑戰(zhàn),為統(tǒng)計(jì)領(lǐng)域制定10-20年的愿景。2018年9月10日至10月2日舉行了兩次研討會(huì)前網(wǎng)絡(luò)研討會(huì),數(shù)百名在線參與者參加了此次研討會(huì)。網(wǎng)絡(luò)研討會(huì)和研討會(huì)由來(lái)自Knowinnovation的促進(jìn)團(tuán)隊(duì)協(xié)助,目的是尋求社區(qū)的廣泛投入,并牢記以下三個(gè)目標(biāo): 1.識(shí)別需要新的統(tǒng)計(jì)基礎(chǔ),方法論和計(jì)算思想的新興研究主題; 2.應(yīng)對(duì)不同應(yīng)用領(lǐng)域中數(shù)據(jù)驅(qū)動(dòng)的重要挑戰(zhàn),并促進(jìn)跨學(xué)科合作以應(yīng)對(duì)重要的科學(xué)挑戰(zhàn); 3.創(chuàng)建一個(gè)充滿活力的研究社區(qū),在統(tǒng)計(jì)的不同子領(lǐng)域之間保持適當(dāng)?shù)钠胶?包括對(duì)基金會(huì)的投資。 該項(xiàng)目由NSF贊助,由指導(dǎo)委員會(huì)和一組主題負(fù)責(zé)人組織。這個(gè)由六名成員組成的指導(dǎo)委員會(huì)由James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu和Jon Wellner組成,負(fù)責(zé)項(xiàng)目的總體規(guī)劃。十名主題負(fù)責(zé)人負(fù)責(zé)主持和總結(jié)在線論壇和研討會(huì)上的討論。主題負(fù)責(zé)人包括David Banks, Alicia Carriquiry, David Higdon, Jennifer Hill, Nicholas Horton, Michael Jordan, Marianthi Markatou, Dylan Small, Marina Vannucci和Ming Yuan。 本執(zhí)行摘要由Xuming He, David Madigan, Bin Yu和Jon Wellner編寫(xiě)。該報(bào)告的第一版是由Xuming He組織并由指導(dǎo)委員會(huì)監(jiān)督的大量撰稿人提供的。我們的撰稿人代表不同的統(tǒng)計(jì)人員小組,他們共享報(bào)告中討論的核心價(jià)值,但不一定在每個(gè)細(xì)節(jié)上都達(dá)成一致。指導(dǎo)委員會(huì)有意選擇在報(bào)告中包含挑釁性言論,以鼓勵(lì)更廣泛社區(qū)的討論和辯論。 該報(bào)告旨在能讓廣泛的統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域的主要利益相關(guān)的讀看到,包括學(xué)術(shù)院系,大學(xué)行政管理部門(mén)和資助機(jī)構(gòu)。 在第1節(jié)中討論了統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用和價(jià)值之后,本報(bào)告重點(diǎn)關(guān)注與新興研究和應(yīng)用中的數(shù)據(jù)驅(qū)動(dòng)挑戰(zhàn)相關(guān)的兩個(gè)目標(biāo)。第2節(jié)從科學(xué)和社會(huì)應(yīng)用引起的數(shù)據(jù)挑戰(zhàn)中確定新興研究主題,第3節(jié)討論基礎(chǔ)研究中的許多新興領(lǐng)域。執(zhí)行摘要中還總結(jié)了如何應(yīng)對(duì)這些數(shù)據(jù)驅(qū)動(dòng)的挑戰(zhàn)并促進(jìn)跨學(xué)科合作。第4節(jié)(專(zhuān)業(yè)文化和社區(qū)責(zé)任)和第5節(jié)(博士教育)涉及創(chuàng)建充滿活力的研究社區(qū)并保持適當(dāng)平衡的第三個(gè)目標(biāo)。 1. 統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的作用/價(jià)值 2002年,NSF舉辦了一個(gè)研討會(huì),討論統(tǒng)計(jì)學(xué)界未來(lái)的挑戰(zhàn)和機(jī)遇;參見(jiàn)Lindsay Kettenring, and Siegmund(2004)。那時(shí),統(tǒng)計(jì)界看到了越來(lái)越多的大規(guī)模數(shù)據(jù)的出現(xiàn)帶來(lái)的快速變化和持續(xù)增長(zhǎng)。從那時(shí)起,該領(lǐng)域的發(fā)展加速了,包括統(tǒng)計(jì)領(lǐng)域的本科和研究生課程的規(guī)模以及統(tǒng)計(jì)領(lǐng)域與其他領(lǐng)域之間相互作用的廣度。同時(shí),公共和私營(yíng)部門(mén)都接受了大數(shù)據(jù),因?yàn)樵絹?lái)越多的人認(rèn)識(shí)到大數(shù)據(jù)可以深入了解生物過(guò)程的本質(zhì)、精密醫(yī)學(xué)、氣候變化、社會(huì)和經(jīng)濟(jì)行為、風(fēng)險(xiǎn)評(píng)估和決策。數(shù)據(jù)科學(xué)已將自身展示為一種自然的跨領(lǐng)域發(fā)現(xiàn)方法。 毫無(wú)疑問(wèn),被認(rèn)為是從數(shù)據(jù)中學(xué)習(xí)的統(tǒng)計(jì)學(xué)在數(shù)據(jù)科學(xué)中具有中心地位。實(shí)際上,一些統(tǒng)計(jì)系最近更名為統(tǒng)計(jì)和數(shù)據(jù)科學(xué)系(例如,耶魯大學(xué),卡內(nèi)基梅隆大學(xué)和UT奧斯汀分校)。全國(guó)各地的大學(xué)(例如,密歇根大學(xué))現(xiàn)在都為本科生提供數(shù)據(jù)科學(xué)專(zhuān)業(yè),并且越來(lái)越多的機(jī)構(gòu)以各種名稱(chēng)提供了數(shù)據(jù)科學(xué)碩士學(xué)位課程,這些機(jī)構(gòu)來(lái)自各個(gè)領(lǐng)域,例如商學(xué)院,信息學(xué)院和計(jì)算機(jī)科學(xué)學(xué)院。統(tǒng)計(jì)界認(rèn)識(shí)到,我們正處在十字路口,擁有前所未有的機(jī)會(huì),使其自身現(xiàn)代化成為數(shù)據(jù)科學(xué)的主要參與者。 1.1 統(tǒng)計(jì)作為數(shù)據(jù)驅(qū)動(dòng)的學(xué)科 自從統(tǒng)計(jì)學(xué)作為一個(gè)領(lǐng)域誕生以來(lái),它就一直受到科學(xué)技術(shù)進(jìn)步的影響。今天,在幾乎每個(gè)學(xué)科中都需要收集和分析數(shù)據(jù)的情況下,這一點(diǎn)可能尤其如此。隨著數(shù)據(jù)驅(qū)動(dòng)的科學(xué)范式成為一種新規(guī)范,我們有機(jī)會(huì)改變自己的領(lǐng)域,并在數(shù)據(jù)科學(xué)中發(fā)揮領(lǐng)導(dǎo)作用,尤其是在統(tǒng)計(jì)思維與計(jì)算思維之間的相互作用上。正如Wender(2017)在國(guó)家科學(xué)院的報(bào)告所討論的那樣,大數(shù)據(jù)既有希望,也有危險(xiǎn)。統(tǒng)計(jì)數(shù)據(jù)正處于以數(shù)據(jù)為中心的世界的中心,可以幫助私營(yíng)和公共部門(mén)的科學(xué)家和領(lǐng)導(dǎo)者實(shí)現(xiàn)大數(shù)據(jù)的真正潛力。 為了融入當(dāng)今重要的社會(huì)和科學(xué)計(jì)劃,我們絕不能將研究局限于純粹的知識(shí)好奇心,也不能將對(duì)下一代統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家的培訓(xùn)僅限于傳統(tǒng)課程,無(wú)論它們?cè)?jīng)多么成功。10月的研討會(huì)以三位在精密醫(yī)學(xué)領(lǐng)域最前沿的數(shù)據(jù)科學(xué)家(Simon Tavaré)、微數(shù)據(jù)的使用(Julia Lane)和天文數(shù)據(jù)(Robert Lupton)的演講為開(kāi)端,并繼續(xù)討論了許多數(shù)據(jù)挑戰(zhàn)。我們同意,雖然統(tǒng)計(jì)數(shù)據(jù)本身就是一個(gè)領(lǐng)域,但它與應(yīng)用的緊密聯(lián)系必須繼續(xù)并加強(qiáng),這些應(yīng)用自然包括來(lái)自物理科學(xué)、社會(huì)科學(xué)、醫(yī)學(xué)、工程、金融、工業(yè)、治理、體育和藝術(shù)的各種數(shù)據(jù)問(wèn)題。 統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的核心價(jià)值在于它如何促進(jìn)科學(xué)和社會(huì)的理解與發(fā)現(xiàn)。合理的數(shù)據(jù)收集實(shí)驗(yàn)設(shè)計(jì)可提高效率和數(shù)據(jù)質(zhì)量。統(tǒng)計(jì)過(guò)程控制導(dǎo)致制造質(zhì)量的提高。不確定性的統(tǒng)計(jì)量化在確認(rèn)分析和減少錯(cuò)誤發(fā)現(xiàn)的風(fēng)險(xiǎn)中起著至關(guān)重要的作用。重采樣方法和貝葉斯計(jì)算在廣泛的應(yīng)用中很有用,因?yàn)樗鼈兛梢匀菁{復(fù)雜的模型。對(duì)于統(tǒng)計(jì)和數(shù)據(jù)科學(xué)而言,持續(xù)證明其對(duì)現(xiàn)實(shí)世界問(wèn)題的價(jià)值很重要。 統(tǒng)計(jì)學(xué)發(fā)展了作為數(shù)據(jù)分析指導(dǎo)原則的基礎(chǔ)和理論。計(jì)算方法和軟件開(kāi)發(fā)對(duì)于實(shí)踐同樣重要。我們工作的影響不應(yīng)局限于任何單個(gè)應(yīng)用程序,統(tǒng)計(jì)的進(jìn)步可以對(duì)許多應(yīng)用產(chǎn)生重大影響(例如,Bootstrap、MCMC和貝葉斯計(jì)算、類(lèi)似LASSO的壓縮感知方法、一般的適用于大數(shù)據(jù)的非參數(shù)化方法,例如隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò))。 許多成熟的統(tǒng)計(jì)方法已被“商品化”—有免費(fèi)的,高質(zhì)量的軟件可以執(zhí)行許多統(tǒng)計(jì)分析。這些方法通??梢蕴峁﹥r(jià)值,但需要統(tǒng)計(jì)學(xué)家扮演新角色。我們需要訓(xùn)練下一代的數(shù)據(jù)科學(xué)家,他們具有在問(wèn)題表述和對(duì)統(tǒng)計(jì)概念的正確解釋等方面的關(guān)鍵技能。 新理論、方法和方法的動(dòng)機(jī)可能源于由新的調(diào)查領(lǐng)域驅(qū)動(dòng)的大規(guī)模協(xié)作調(diào)查,這些調(diào)查通過(guò)現(xiàn)代傳感和數(shù)據(jù)收集技術(shù)以及最先進(jìn)的數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)而得以實(shí)現(xiàn)。這些調(diào)查幾乎影響了所有領(lǐng)域,并改變了統(tǒng)計(jì)與之相關(guān)的方式。從農(nóng)業(yè)到社交網(wǎng)絡(luò),從遺傳學(xué)到商業(yè)分析,統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家都處于獨(dú)特的位置,可以幫助科學(xué)家解決有關(guān)數(shù)據(jù)發(fā)現(xiàn)的重要問(wèn)題。 統(tǒng)計(jì)人員和統(tǒng)計(jì)學(xué)如何協(xié)助和進(jìn)行科學(xué)研究有很多方式。它們包括: 1.通用方法和軟件(例如,回歸,用于設(shè)計(jì)實(shí)驗(yàn)的DOE軟件)的應(yīng)用 由于改進(jìn)的軟件和數(shù)據(jù)平臺(tái),在線幫助(例如堆棧交換)、開(kāi)放源代碼的用戶支持的靈活通用軟件環(huán)境(python,R),通用工具的使用近來(lái)有迅速的強(qiáng)大正面效果。統(tǒng)計(jì)方法和軟件已經(jīng)出現(xiàn)爆炸式增長(zhǎng),現(xiàn)在可供所有用戶使用(R包,python)。大數(shù)據(jù)科學(xué)家顯然從這種把統(tǒng)計(jì)提供給應(yīng)用的模式中受益。此外,由于他們具有從現(xiàn)代(數(shù)據(jù)密集型,HPC和網(wǎng)格)平臺(tái)訪問(wèn)數(shù)據(jù)的技能,因此可以將已開(kāi)發(fā)的方法和軟件應(yīng)用于新出現(xiàn)的問(wèn)題。 2.作為大學(xué)環(huán)境中的顧問(wèn)或自由職業(yè)者 統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家可能會(huì)專(zhuān)注于特定類(lèi)型的問(wèn)題或各種類(lèi)型的問(wèn)題,通常是多學(xué)科團(tuán)隊(duì)努力的一部分。這是統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)在以后幾十年需要產(chǎn)生影響的領(lǐng)域—因此,我們應(yīng)該牢記這一點(diǎn)來(lái)進(jìn)行激勵(lì)、培訓(xùn)和開(kāi)展研究。統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家可以而且應(yīng)該在國(guó)家實(shí)驗(yàn)室、國(guó)家項(xiàng)目(例如大型天氣觀測(cè)望遠(yuǎn)鏡,DARPA),主要行業(yè)(例如制藥公司,保險(xiǎn)公司)和政府(例如美國(guó)人口普查,USDA)中發(fā)揮積極作用)。 3.作為學(xué)術(shù)研究人員 在這種環(huán)境下,研究與教學(xué)自然融合。但是,協(xié)作/多學(xué)科科學(xué)的深度可能會(huì)受到其他約束的限制。一個(gè)主要的約束是教師需要以主要作者的身份出版大量出版物。學(xué)術(shù)院系需要找到鼓勵(lì)研究人員參與大規(guī)模,多學(xué)科科學(xué)工作的方法。對(duì)學(xué)術(shù)成就的評(píng)估需要不限于只考慮本領(lǐng)域的出版物數(shù)量。應(yīng)該強(qiáng)調(diào)對(duì)實(shí)際領(lǐng)域科學(xué)和數(shù)據(jù)科學(xué)實(shí)踐中的領(lǐng)導(dǎo)作用的可衡量的影響。為了使我們的領(lǐng)域在未來(lái)十年中蓬勃發(fā)展,迫切需要這樣的變革。 1.2 統(tǒng)計(jì)與人工智能 在許多技術(shù)和科學(xué)領(lǐng)域,“人工智能”(AI)一詞已開(kāi)始被廣泛地用來(lái)描述使用數(shù)據(jù)分析和基于數(shù)據(jù)的決定來(lái)代替?zhèn)鹘y(tǒng)的計(jì)算機(jī)編程,這往往是在補(bǔ)充甚至取代人類(lèi)的判斷。 大約在1955年,人工智能的最初目標(biāo)是在軟件和硬件方面模仿人類(lèi)的智慧。這一目標(biāo)仍然是一個(gè)崇高的愿望,但可以說(shuō),這一目標(biāo)遠(yuǎn)未實(shí)現(xiàn)。在接下來(lái)的幾十年中,人工智能研究人員致力于實(shí)現(xiàn)這一目標(biāo),探索了一系列方法,包括邏輯推理、約束滿意度、規(guī)劃、概率推理和從數(shù)據(jù)中學(xué)習(xí)。后者通常被稱(chēng)為“機(jī)器學(xué)習(xí)”(ML),這個(gè)術(shù)語(yǔ)在20世紀(jì)80年代開(kāi)始被自我認(rèn)定為人工智能研究人員的研究人員所廣泛使用。然而,到20世紀(jì)90年代,ML的方法和理論原理顯然與統(tǒng)計(jì)方法和原則密切相關(guān),即使不是一模一樣的,ML和統(tǒng)計(jì)之間的區(qū)別開(kāi)始消失。這兩個(gè)傳統(tǒng)的研究人員對(duì)跨越舊邊界的問(wèn)題做出了重大貢獻(xiàn)。對(duì)ML產(chǎn)生了粗略的表征,強(qiáng)調(diào)分類(lèi)、預(yù)測(cè)、非參數(shù)和計(jì)算效率。 這些新興理念直接適用于工業(yè)中新出現(xiàn)的問(wèn)題,20世紀(jì)90年代和2000年代,ML在關(guān)鍵任務(wù)領(lǐng)域,如欺詐檢測(cè)、供應(yīng)鏈建模、推薦系統(tǒng)、診斷、個(gè)性化搜索、廣告展示、工業(yè)機(jī)器人和物流。這些應(yīng)用依靠開(kāi)發(fā)平臺(tái)來(lái)收集和處理日益大量的數(shù)據(jù),這項(xiàng)活動(dòng)需要計(jì)算機(jī)科學(xué)其他分支,特別是分布式系統(tǒng)和數(shù)據(jù)庫(kù)的專(zhuān)門(mén)知識(shí)。工業(yè)界開(kāi)始使用“數(shù)據(jù)科學(xué)”一詞來(lái)指能夠以這種方式混合統(tǒng)計(jì)、數(shù)據(jù)庫(kù)和分布式系統(tǒng)的個(gè)人和研究團(tuán)隊(duì)。同時(shí),科學(xué)界的研究者,尤其是天文學(xué),基因組學(xué)和地球科學(xué)的研究者,開(kāi)始建立用于大規(guī)模數(shù)據(jù)分析的平臺(tái),并經(jīng)常與業(yè)界共享資源(通過(guò)開(kāi)源軟件的出現(xiàn)),并且他們的企業(yè)通常也被稱(chēng)為“數(shù)據(jù)科學(xué)”。最后,整個(gè)企業(yè)不僅涉及平臺(tái),而且與大規(guī)模數(shù)據(jù)有關(guān),“數(shù)據(jù)科學(xué)”也在挑戰(zhàn)新環(huán)境中開(kāi)始涉及應(yīng)用統(tǒng)計(jì)的一些經(jīng)典問(wèn)題(例如,缺失數(shù)據(jù)、可視化和因果關(guān)系)。 在過(guò)去十年中,這些趨勢(shì)發(fā)生了哪些變化,以至于被貼上了“AI”的標(biāo)簽?主要的變化是,數(shù)據(jù)集在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和語(yǔ)言翻譯等領(lǐng)域出現(xiàn),這些領(lǐng)域具有足夠的規(guī)模和范圍,可以構(gòu)建系統(tǒng),利用這些數(shù)據(jù)來(lái)模擬人類(lèi)的感知和語(yǔ)言技能。實(shí)現(xiàn)這一點(diǎn)的算法是ML算法,這些算法與20世紀(jì)80年代相比變化不大,其中最重要的算法是神經(jīng)網(wǎng)絡(luò)中的反向傳播,該算法在80年代開(kāi)發(fā),其根源在于20世紀(jì)50年代在最佳控制、信號(hào)處理、優(yōu)化和統(tǒng)計(jì)。平臺(tái)已經(jīng)改變,但是這些變化是工業(yè)和科學(xué)中大規(guī)模數(shù)據(jù)分析的更大趨勢(shì)的一部分。簡(jiǎn)而言之,新的數(shù)據(jù)集的出現(xiàn)使得計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和語(yǔ)言翻譯的經(jīng)典AI中心取得了顯著進(jìn)展,這引發(fā)了整個(gè)企業(yè)的擴(kuò)張,以反映其模仿人類(lèi)的初衷。 Jordan(2019)將經(jīng)典的模仿人類(lèi)的人工智能與智能增強(qiáng)(intelligence augmentation,IA)區(qū)別開(kāi)來(lái)。在智能增強(qiáng)(IA)中,計(jì)算機(jī)用于增強(qiáng)人類(lèi)的感知,認(rèn)知和決策能力,如搜索引擎和圖像處理;在智能基礎(chǔ)設(shè)施(intelligent infrastructure, II)中,網(wǎng)絡(luò)的設(shè)備需要與多個(gè)人類(lèi)決策者一起做出大量近乎同時(shí)的決策,例如在現(xiàn)代交通、商業(yè)、醫(yī)藥和金融系統(tǒng)中。統(tǒng)計(jì)原則在IA和II中至少與AI一樣重要。此外,在II中,統(tǒng)計(jì)原則將需要與微觀經(jīng)濟(jì)學(xué)原則相融合,以便相互作用的決策者可以有效地合作以應(yīng)對(duì)稀缺性并確保公平和機(jī)會(huì)的獲取。 數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)在它們要解決的問(wèn)題方面有著基本相同的目標(biāo)。這些領(lǐng)域的研究人員從不同但相互重疊的角度開(kāi)發(fā)了方法論和方法。統(tǒng)計(jì)學(xué)并不認(rèn)同模仿人類(lèi)來(lái)構(gòu)建自主學(xué)習(xí)系統(tǒng)的總體目標(biāo),而是側(cè)重于不確定性下的推理和決策過(guò)程中涉及的科學(xué)、數(shù)學(xué)、計(jì)算和社會(huì)問(wèn)題。這些交錯(cuò)領(lǐng)域之間正在發(fā)生一些交互和協(xié)作,并且還需要更多。對(duì)于深度學(xué)習(xí)的最新突破,人類(lèi)的印記或參與以及計(jì)算能力是必不可少的,但是對(duì)于某些任務(wù)(例如病理報(bào)告解讀),我們可以想象,隨著時(shí)間的推移,人類(lèi)將在人類(lèi)前進(jìn)到下一個(gè)挑戰(zhàn)時(shí),機(jī)器將扮演更重要的角色。 2. 科學(xué)和社會(huì)應(yīng)用中的挑戰(zhàn) 2.1 數(shù)據(jù)挑戰(zhàn) 新興的數(shù)據(jù)問(wèn)題將推動(dòng)數(shù)據(jù)挑戰(zhàn)。數(shù)據(jù)科學(xué)和IT市場(chǎng)的生態(tài)系統(tǒng)正在迅速進(jìn)化,從而創(chuàng)造了具有可能無(wú)法預(yù)料的創(chuàng)新的新跨度。Netflix建立了電視內(nèi)容推薦系統(tǒng),然后對(duì)其進(jìn)行反向工程,以創(chuàng)造新的流派來(lái)吸引觀眾。同樣,YouTube也為小眾表演者創(chuàng)造了新的機(jī)會(huì)來(lái)發(fā)現(xiàn)他們的藝術(shù)并將其商品化––比如業(yè)余樂(lè)隊(duì)的一個(gè)音樂(lè)家表演吸引了萬(wàn)分之一的美國(guó)人,YouTube和其他載體便可以將他們的音樂(lè)賣(mài)給三萬(wàn)個(gè)客戶,并且他們可以辭去日常工作。我們腳下的大地正在變化,我們必須比前幾代統(tǒng)計(jì)學(xué)家變得更加敏捷和富有企業(yè)家精神,以實(shí)現(xiàn)統(tǒng)計(jì)學(xué)的轉(zhuǎn)變。國(guó)家科學(xué)院的報(bào)告“海量數(shù)據(jù)分析的前沿”(http:///18374)討論了大數(shù)據(jù)帶來(lái)的許多挑戰(zhàn)。 復(fù)雜的領(lǐng)域問(wèn)題伴隨著不同的數(shù)據(jù)形式:數(shù)字、圖像/視頻、語(yǔ)音和文本、以及這些形式的集成。統(tǒng)計(jì)的轉(zhuǎn)變是由大膽的實(shí)踐和跨學(xué)科研究驅(qū)動(dòng)的,這些學(xué)科在計(jì)算和理論的支持下來(lái)解決此類(lèi)數(shù)據(jù)問(wèn)題。相關(guān)的理論和計(jì)算是始終需要的,但與過(guò)去相比,在很大程度上,有價(jià)值的學(xué)術(shù)成就將建立在在實(shí)踐和跨學(xué)科研究的基礎(chǔ)上。 具體來(lái)說(shuō),在新時(shí)代,我們看到以下數(shù)據(jù)挑戰(zhàn): 1. 數(shù)據(jù)的復(fù)雜方式多種多樣:數(shù)量、速度、多樣性、有效性,如果包括對(duì)抗性訓(xùn)練,甚至用V代表Vendetta(仇殺隊(duì)) 2. 在許多情況下,可用數(shù)據(jù)并不是總體的有代表性的樣本 3. 通常,觀察到的數(shù)據(jù)是許多不同數(shù)據(jù)生成機(jī)制的疊加 4. 一些特定的解決方案可以推廣,而某些則不能。我們可以在類(lèi)似問(wèn)題上借用其強(qiáng)項(xiàng)及獲得啟發(fā),但是每種分析都必須適合于實(shí)際情況,以實(shí)現(xiàn)最大的收益 5. 歐盟的“通用數(shù)據(jù)保護(hù)條例”對(duì)分析施加了緊迫性,因?yàn)槿藗兛赡軙?huì)反復(fù)隨意地選擇加入或退出研究,并且分析人員可能需要不斷進(jìn)行昂貴的重新計(jì)算 6. “通用數(shù)據(jù)保護(hù)條例”還要求透明性和可解釋性。如果某人被拒絕貸款,那么分析師必須能夠解釋原因——他們需要再穩(wěn)定工作兩年,或者他們每年需要多賺5000美元。定義可解釋性的含義是當(dāng)前的研究 7. 可重復(fù)性:數(shù)據(jù)的清潔程序和處理需要成為可重復(fù)性管道的一部分。我們需要制定一套通用標(biāo)準(zhǔn) 8. 公平性:負(fù)責(zé)任的數(shù)據(jù)分析必須解決公平性問(wèn)題。當(dāng)數(shù)據(jù)涉及人群的時(shí)候,抽樣或測(cè)量中的偏差會(huì)導(dǎo)致歧視。我們必須教育所有人在數(shù)據(jù)分析中關(guān)于確保公平性的需要;參見(jiàn),例如,Dwork et al(2012) 相應(yīng)的文化和人類(lèi)結(jié)構(gòu)需要與這些數(shù)據(jù)挑戰(zhàn)保持一致: 1. 基礎(chǔ)設(shè)施:需要考慮到與數(shù)據(jù)分析有關(guān)的“費(fèi)用”,包括組織大量數(shù)據(jù)和理解數(shù)據(jù)結(jié)構(gòu)。這需要物理基礎(chǔ)設(shè)施(數(shù)據(jù)庫(kù)、在線存儲(chǔ)庫(kù)、數(shù)據(jù)管理、GitHub和共享軟件)以及具有適當(dāng)知識(shí)/培訓(xùn)的數(shù)據(jù)“專(zhuān)家” 2. 隨著問(wèn)題空間變得越來(lái)越復(fù)雜(例如,基因組學(xué)或社交網(wǎng)絡(luò)中的因果推理),需要多學(xué)科團(tuán)隊(duì),甚至需要確定一個(gè)可處理的問(wèn)題 3. 數(shù)據(jù)挑戰(zhàn)通常是依賴(lài)于領(lǐng)域的;不同的領(lǐng)域(從物理科學(xué)到社會(huì)科學(xué))需要具有不同技能/專(zhuān)業(yè)知識(shí)的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家。重新構(gòu)想的統(tǒng)計(jì)教育計(jì)劃需要用這樣的技能來(lái)訓(xùn)練我們的學(xué)生 統(tǒng)計(jì)本身產(chǎn)生于科學(xué)家需要量化地使用測(cè)量、觀察和實(shí)驗(yàn)以更好地理解科學(xué)現(xiàn)象的需要。天文學(xué)、賭博和遺傳學(xué)等初始應(yīng)用領(lǐng)域推動(dòng)了統(tǒng)計(jì)理論、概念和方法的開(kāi)發(fā)和使用。自Breiman(2001)以來(lái),我們?cè)趯C(jī)器學(xué)習(xí)作為統(tǒng)計(jì)的一部分方面取得了進(jìn)展。在數(shù)據(jù)科學(xué)時(shí)代,新興應(yīng)用非常豐富。在接下來(lái)的幾個(gè)小節(jié)中,我們討論了選定的幾個(gè),并不做出列表是詳盡無(wú)遺的任何暗示。 2.2 精準(zhǔn)健康/醫(yī)學(xué) 精確的健康/醫(yī)學(xué)研究需要對(duì)多模式、多尺度、多視角、異質(zhì)和相依賴(lài)數(shù)據(jù)進(jìn)行集成和推斷;預(yù)測(cè)和不確定性量化以解決臨床醫(yī)學(xué)最大問(wèn)題;將根據(jù)療效數(shù)據(jù)(即臨床試驗(yàn)數(shù)據(jù))獲得的結(jié)果外推至有效性數(shù)據(jù)和個(gè)別患者的治療。 由于生物醫(yī)學(xué)研究技術(shù)的進(jìn)步以及捕獲和存儲(chǔ)大量數(shù)據(jù)的整體能力的提高,生命科學(xué),醫(yī)學(xué)科學(xué)以及公共衛(wèi)生領(lǐng)域的研究已經(jīng)發(fā)生了重大轉(zhuǎn)變。這些變化將科學(xué)生產(chǎn)力的瓶頸從數(shù)據(jù)生成和收集轉(zhuǎn)移到了數(shù)據(jù)管理、分析和解釋。生物醫(yī)學(xué)和生命科學(xué)中數(shù)據(jù)的爆炸式增長(zhǎng)可以用來(lái)構(gòu)建更精確,更準(zhǔn)確的疾病分類(lèi)以進(jìn)一步發(fā)展精確的健康/醫(yī)學(xué)概念,從而有可能徹底改變?cè)\斷,治療和臨床決策的制定,以導(dǎo)致進(jìn)行更個(gè)性化的治療并改善患者預(yù)后。例如,降低基因組測(cè)序的成本會(huì)增加可用的遺傳數(shù)據(jù),這些數(shù)據(jù)可用于了解許多疾病的根本原因。此外,電子健康記錄可用性的提高提供了對(duì)臨床數(shù)據(jù)的訪問(wèn),而各種移動(dòng)設(shè)備提供了生活方式和其他類(lèi)型的數(shù)據(jù),可用于促進(jìn)疾病的更準(zhǔn)確診斷和治療。 因此,精密醫(yī)學(xué)是一種新興的疾病治療和預(yù)防方法,它可以解決個(gè)體差異并整合一系列個(gè)性化數(shù)據(jù),包括基因組、表觀遺傳、環(huán)境、生活方式和病史數(shù)據(jù)。它著重于將個(gè)體分為對(duì)疾病的易感性和可能的治療反應(yīng)不同的亞群。 為了實(shí)現(xiàn)精確健康的承諾,我們需要克服許多科學(xué)挑戰(zhàn),這些挑戰(zhàn)來(lái)自考慮所使用的多個(gè)數(shù)據(jù)源的特征—每個(gè)人被收集的數(shù)據(jù)歷史記錄,包括醫(yī)療記錄、健康概況、可穿戴設(shè)備、它們所接觸的環(huán)境、遺傳信息等。這些包括不同的數(shù)據(jù)類(lèi)型,例如,數(shù)值、文本和圖像數(shù)據(jù)(多模式數(shù)據(jù))、多分辨率、多視角依賴(lài)數(shù)據(jù),具有許多不同類(lèi)型的相關(guān)性,例如時(shí)間、空間和局部相關(guān)。此外,數(shù)據(jù)中可能存在測(cè)量誤差和偏差、異質(zhì)性(局部和空間環(huán)境異質(zhì)性)以及個(gè)體變異性和總體異質(zhì)性。所有上述數(shù)據(jù)特征都帶來(lái)了需要解決的基本挑戰(zhàn)。 精確健康的基本挑戰(zhàn)之一是識(shí)別治療效果的亞組。這是實(shí)現(xiàn)精確健康益處的重要一步,因?yàn)樗峁┝岁P(guān)于具有特定特征的個(gè)人對(duì)特定治療在療效或不良反應(yīng)下如何作出反應(yīng)的證據(jù)。不同的治療效果不僅包括各亞組發(fā)生的治療效果的數(shù)量差異,還包括治療效果的質(zhì)量差異。此外,根據(jù)研究目標(biāo),亞組的特征可能是探索性、數(shù)據(jù)驅(qū)動(dòng)性或確認(rèn)性。區(qū)分治療效果的亞組鑒定方法背后的一個(gè)關(guān)鍵思想是鑒定可以推動(dòng)治療效果改變的預(yù)測(cè)協(xié)變量(生物標(biāo)志物)。數(shù)據(jù)驅(qū)動(dòng)的方法通常用于亞組識(shí)別,考慮到這一挑戰(zhàn)對(duì)精確健康的重要性,需要新的方法。一個(gè)基本問(wèn)題是開(kāi)發(fā)用于子組后選擇的推斷方法。在精密醫(yī)學(xué)研究中需要納入適當(dāng)?shù)慕y(tǒng)計(jì)程序和對(duì)事后選定子組進(jìn)行確認(rèn)分析。 在精密醫(yī)學(xué)領(lǐng)域中出現(xiàn)的其他挑戰(zhàn)包括需要開(kāi)發(fā)一種方法來(lái)測(cè)量一系列疾病的風(fēng)險(xiǎn)以及開(kāi)發(fā)數(shù)據(jù)集成方法以使人們能夠解決重要的推斷性問(wèn)題。數(shù)據(jù)集成是當(dāng)前活躍的研究領(lǐng)域,許多科學(xué)領(lǐng)域都對(duì)此做出了貢獻(xiàn)。在生物統(tǒng)計(jì)學(xué)領(lǐng)域,通過(guò)各種形式的薈萃分析在一定條件下進(jìn)行數(shù)據(jù)整合。盡管過(guò)去和現(xiàn)在在數(shù)據(jù)集成領(lǐng)域有很多活動(dòng),但仍有一些基本問(wèn)題有待解決。需要開(kāi)發(fā)具有良好統(tǒng)計(jì)屬性和相關(guān)高質(zhì)量軟件的方法,特別是針對(duì)各種大規(guī)模、高維數(shù)據(jù)的方法。此外,還需要回答何時(shí)不能集成數(shù)據(jù)集/數(shù)據(jù)源問(wèn)題的方法。需要詢(xún)問(wèn)何時(shí)在分析中合并其他數(shù)據(jù)沒(méi)有什么用處,以及如何證明這一行動(dòng)的合理性。 如果能夠獲得針對(duì)上述挑戰(zhàn)的可靠且經(jīng)過(guò)充分測(cè)試的解決方案,則其影響將是實(shí)質(zhì)性的,而且將在許多層面上產(chǎn)生影響。在個(gè)人層面,它將促進(jìn)更有效的健康管理,并更好地了解影響健康的外部、非生物因素,以及更好地了解疾病的生物學(xué)、社會(huì)、環(huán)境和其他決定因素;根據(jù)個(gè)體基因組和表觀遺傳信息提出更好的治療方法,并為個(gè)體提供更好的自我指導(dǎo)管理;允許個(gè)人管理符合其需求的成本效益;并幫助減少不必要的治療處方。在公共衛(wèi)生層面,它將更好地了解不同環(huán)境因素對(duì)健康的影響;提供飲食、運(yùn)動(dòng)和其他相關(guān)因素對(duì)健康影響的更準(zhǔn)確歸因;增進(jìn)對(duì)健康干預(yù)措施副作用的了解;提高新產(chǎn)品開(kāi)發(fā)的有效率;通過(guò)提前識(shí)別最有可能從特定治療中受益的個(gè)人并確定可能遭受不良事件的個(gè)人,從而降低醫(yī)療保健成本。 2.3 物理科學(xué)中的統(tǒng)計(jì) 對(duì)于物理科學(xué)中出現(xiàn)的復(fù)雜數(shù)據(jù)問(wèn)題,需要一種新的統(tǒng)計(jì)方法。應(yīng)用程序中的常見(jiàn)主題包括時(shí)空數(shù)據(jù)、不確定性量化、錯(cuò)誤設(shè)定的逆問(wèn)題、組合跨尺度的信息(例如,物質(zhì)科學(xué)中的原子尺度到大尺度尺度,人口統(tǒng)計(jì)學(xué)中從家庭到城市到都市區(qū)域)以及使用能夠模擬特定的物理現(xiàn)象。 物理科學(xué)中的現(xiàn)代研究通常利用新穎的數(shù)據(jù)源、各種子系統(tǒng)苛刻的計(jì)算模型以及為推進(jìn)科學(xué)而需要獲取的詳細(xì)專(zhuān)家知識(shí)。這樣的研究是多學(xué)科的,需要在物理科學(xué)、計(jì)算建模、數(shù)據(jù)管理和統(tǒng)計(jì)分析方法的多個(gè)方面具有專(zhuān)業(yè)知識(shí)。應(yīng)用領(lǐng)域眾多。部分列表包括天文學(xué)和宇宙學(xué)、地球物理學(xué)、水文學(xué)、高能物理、材料科學(xué)、預(yù)測(cè)化學(xué)、核物理和粒子物理學(xué)。 對(duì)于復(fù)雜數(shù)據(jù)的類(lèi)型和物理科學(xué)中出現(xiàn)的問(wèn)題,迫切需要新的統(tǒng)計(jì)方法和計(jì)算思想。迄今為止,現(xiàn)代統(tǒng)計(jì)推斷中的許多工作都是由技術(shù)行業(yè)或生物醫(yī)學(xué)研究中相對(duì)較好的問(wèn)題驅(qū)動(dòng)的,但是下一代數(shù)據(jù)(如遙感、衛(wèi)星圖像、天文學(xué)、粒子物理學(xué)、地球科學(xué)、現(xiàn)代成像和探索材料動(dòng)力學(xué)的診斷設(shè)施)更加復(fù)雜,需要新的統(tǒng)計(jì)方法以及規(guī)模算法。復(fù)雜性源于于底層物理系統(tǒng)的復(fù)雜性和測(cè)量過(guò)程的復(fù)雜性(例如,從低信噪圖像中解波的對(duì)象的形狀,由于非線性、物體模型不正確以及計(jì)算不正確的卷積內(nèi)核而導(dǎo)致的偏差;這些都非常重要,因?yàn)槲锢砩嫌腥さ膮?shù)來(lái)自平均數(shù)以千萬(wàn)到數(shù)億次的測(cè)量)。 與物理科學(xué)應(yīng)用中的新統(tǒng)計(jì)方法開(kāi)發(fā)相關(guān)的常見(jiàn)主題包括: ·處理時(shí)空數(shù)據(jù); ·不確定性量化方法,將物理觀測(cè)與要求苛刻的計(jì)算模型相結(jié)合,以進(jìn)行統(tǒng)計(jì)推斷; ·不適當(dāng)?shù)哪鎲?wèn)題(例如,根據(jù)材料與激光或中子束的相互作用來(lái)推斷材料結(jié)構(gòu)); ·利用大量低信噪比進(jìn)行推理; ·利用通過(guò)搜索空間和/或時(shí)間收集的非代表性“機(jī)會(huì)”數(shù)據(jù); ·結(jié)合不同類(lèi)型的測(cè)量,這些測(cè)量通常來(lái)自不同的物理系統(tǒng),并且通常處于不同的空間和時(shí)間分辨率水平(例如,在宇宙學(xué)中——超新星的亮度、宇宙微波背景的波動(dòng)以及遙遠(yuǎn)星系的畸變); ·將不同分辨率的信息聯(lián)系起來(lái)(例如,從材料的分子成分中推斷散裝材料的特性,從化學(xué)結(jié)構(gòu)推斷化合物性質(zhì)); ·使用基于物理學(xué)的知識(shí)在未經(jīng)測(cè)試的新體制(例如極端溫度、極端應(yīng)力條件、極端環(huán)境下的材料相互作用)下產(chǎn)生外推預(yù)測(cè); ·使用數(shù)據(jù)(和其他類(lèi)型的證據(jù))在競(jìng)爭(zhēng)模型之間進(jìn)行選擇,并通過(guò)模型組合產(chǎn)生更可靠的預(yù)測(cè); ·開(kāi)發(fā)有效利用可用數(shù)據(jù)源、計(jì)算模型、計(jì)算資源和統(tǒng)計(jì)分析方法的途徑,以便做出可靠的科學(xué)推斷; ·并開(kāi)發(fā)統(tǒng)計(jì)方法,以更好地理解和預(yù)測(cè)罕見(jiàn)的高后果事件(例如流星撞擊、橋梁倒塌、特大風(fēng)暴)。 正如許多人所指出的(包括國(guó)家科學(xué)院的報(bào)告,“海量數(shù)據(jù)分析的前沿”),大數(shù)據(jù)中的挑戰(zhàn)不僅僅是由于規(guī)模:它們還涉及復(fù)雜性(物理科學(xué)中遇到的復(fù)雜性類(lèi)型本質(zhì)上是不同于諸如人的數(shù)據(jù)、遺傳和技術(shù)數(shù)據(jù))。實(shí)際上,數(shù)據(jù)的龐大與數(shù)據(jù)異質(zhì)性有很大關(guān)系??茖W(xué)進(jìn)步將越來(lái)越多地源于使用復(fù)雜物理過(guò)程的可解釋模型獲得的知識(shí)。統(tǒng)計(jì)人員和數(shù)據(jù)科學(xué)家必須與領(lǐng)域科學(xué)家緊密合作,以了解問(wèn)題,挑戰(zhàn)和科學(xué)目標(biāo)。解決物理科學(xué)中特定問(wèn)題的現(xiàn)有方法可能會(huì)忽略統(tǒng)計(jì)學(xué)家可以識(shí)別的數(shù)據(jù)分析機(jī)會(huì)。此外,重要的是跨領(lǐng)域轉(zhuǎn)移技術(shù),重點(diǎn)放在可推廣的方法上。如果從解決單個(gè)問(wèn)題的方法中得出可推廣的方法,科學(xué)將進(jìn)步得更快。 2.4 統(tǒng)計(jì)與量子信息科學(xué) 量子信息科學(xué)研究量子理論和技術(shù),以開(kāi)發(fā)量子器件,用于信息處理、傳輸、計(jì)算、測(cè)量和基本理解,而經(jīng)典方法的效率要低得多,或者根本無(wú)法做到。它包括量子通信、量子計(jì)算和量子計(jì)量學(xué),其中量子通信利用量子資源進(jìn)行安全通信和其他與密碼學(xué)有關(guān)的任務(wù)。量子計(jì)算通過(guò)使用量子設(shè)備而不是遵循經(jīng)典物理學(xué)并被經(jīng)典計(jì)算機(jī)使用的電子設(shè)備來(lái)執(zhí)行計(jì)算;量子計(jì)量學(xué)利用相干量子系統(tǒng)來(lái)增強(qiáng)物理量測(cè)量的性能。全球范圍內(nèi)都在進(jìn)行深入研究,以發(fā)掘利用量子特性的許多技術(shù),這些技術(shù)可能會(huì)導(dǎo)致功能更強(qiáng)大,更普遍的量子設(shè)備得到更好的計(jì)算、通信和加密?,F(xiàn)在,量子技術(shù)的發(fā)展正處于關(guān)鍵點(diǎn),正在以超越傳統(tǒng)設(shè)備的能力來(lái)構(gòu)建量子通信設(shè)備和量子計(jì)算機(jī),例如量子退火器、量子模擬器和量子密碼設(shè)備。一方面,統(tǒng)計(jì)可以在量子信息科學(xué)中發(fā)揮關(guān)鍵作用,例如量子設(shè)備的認(rèn)證及其在科學(xué)研究中的用途。另一方面,量子計(jì)算在革新計(jì)算統(tǒng)計(jì)和加速機(jī)器學(xué)習(xí)算法方面具有巨大潛力。量子技術(shù)發(fā)展和基于量子的計(jì)算技術(shù)(用于統(tǒng)計(jì)和機(jī)器學(xué)習(xí))的統(tǒng)計(jì)方法迫切需要,并且量子科學(xué)和統(tǒng)計(jì)之間的相互作用可能是少數(shù)幾個(gè)最重要的新興應(yīng)用之一。量子信息科學(xué)利用諸如疊加和糾纏等怪異的量子特性來(lái)發(fā)明新的量子設(shè)備,以實(shí)現(xiàn)比相應(yīng)的經(jīng)典技術(shù)更快的計(jì)算、更安全的通信和更好的物理測(cè)量。它利用新的量子資源來(lái)完成傳統(tǒng)技術(shù)無(wú)法完成的任務(wù)。這些量子資源還可能提供不具有經(jīng)典對(duì)應(yīng)物的數(shù)據(jù)收集和處理新手段。所有這些將為統(tǒng)計(jì)和機(jī)器學(xué)習(xí)提供新的理論、方法和計(jì)算技術(shù)。 2.5 匿名數(shù)據(jù)的統(tǒng)計(jì)分析 根據(jù)最近的一項(xiàng)估算,人類(lèi)平均每天會(huì)產(chǎn)生2.5×1018字節(jié)的數(shù)據(jù);參見(jiàn)https://www./learn/data-never-sleeps-6.幾乎所有這些數(shù)據(jù)都以這樣或那樣的形式記錄,但是當(dāng)前的法律和法規(guī)框架需要進(jìn)行重大改革,以解決數(shù)據(jù)收集和使用的道德問(wèn)題。像1964年的“民權(quán)法”一樣,某些領(lǐng)域(例如住宿、教育和就業(yè))的道德規(guī)范已經(jīng)制定了五十多年,但目前沒(méi)有機(jī)制來(lái)規(guī)范使用數(shù)據(jù)的公司。另外,公眾對(duì)用戶隱私缺乏興趣。 有一些關(guān)于數(shù)據(jù)匿名化的統(tǒng)計(jì)研究,例如統(tǒng)計(jì)披露限制、差異性隱私或數(shù)據(jù)清潔。差異隱私(DP)試圖通過(guò)注入采樣以外的其他噪聲來(lái)最大程度地降低隱私對(duì)個(gè)人數(shù)據(jù)集的影響。截至2018年,人們對(duì)獲得常用統(tǒng)計(jì)算法的差異隱私版本有極大的興趣,這是一個(gè)蓬勃發(fā)展的研究領(lǐng)域。DP框架在行業(yè)中也有重要用途。例如,蘋(píng)果公司利用局部差異隱私來(lái)了解其用戶的行為,而無(wú)需跟蹤特定用戶的使用模式。參見(jiàn)https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf.數(shù)據(jù)清潔是指試圖對(duì)數(shù)據(jù)進(jìn)行匿名處理的一大套做法,以保護(hù)對(duì)象的身份或其在公開(kāi)發(fā)布的數(shù)據(jù)集中的機(jī)密屬性,或確保公平對(duì)待每個(gè)對(duì)象。這可以通過(guò)以多種方式進(jìn)行數(shù)據(jù)屏蔽,如通過(guò)刪除(或變換)可能包含標(biāo)識(shí)信息的變量,或者隨機(jī)生成其分布接近實(shí)際數(shù)據(jù)集的新數(shù)據(jù)來(lái)實(shí)現(xiàn)。 隨著對(duì)隱私的日益重視,數(shù)據(jù)清潔和差異隱私,或它們的改進(jìn)版本,都可能成為數(shù)據(jù)分析的主要工具。但是,仍然存在許多問(wèn)題和挑戰(zhàn)。參見(jiàn),例如,Bambauer et al.(2014)和Mervis(2019)的《科學(xué)》雜志文章。后者討論了在普查數(shù)據(jù)上使用DP的可能弊端,包括在對(duì)DP過(guò)濾(普查數(shù)據(jù))后沒(méi)有足夠的信息用于社會(huì)科學(xué)研究。顯然存在一個(gè)問(wèn)題,即如何進(jìn)行研究以在隱私和數(shù)據(jù)準(zhǔn)確性之間取得平衡?特別是對(duì)于統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家來(lái)說(shuō),一些關(guān)鍵問(wèn)題包括: ·各種不同水平的隱私問(wèn)題能否建成統(tǒng)計(jì)模型?當(dāng)前差異隱私框架旨在最大限度地減少所有用戶的數(shù)據(jù)泄漏。實(shí)際上,某些人愿意分享比其他人更多的個(gè)人信息,尤其是如果這樣可以為他們提供更準(zhǔn)確的建模和分析。 ·差異性隱私與其他隱私定義的關(guān)系如何?更具體地說(shuō),是否存在?差異隱私還可以保證其他諸如k匿名的隱私概念的條件?此設(shè)置還需要數(shù)據(jù)集的背景分布,尤其是變量的相關(guān)性上,做出假定。 ·我們?nèi)绾握_考慮隱私保護(hù)機(jī)制引入的附加隨機(jī)性,無(wú)論它們是DP還是別的?這是否需要新的統(tǒng)計(jì)推斷工具? ·還有其他類(lèi)似的方法可以簡(jiǎn)化數(shù)據(jù)的匿名化嗎?這些方法中的任何一種是否提供DP以外的更多功能? 上述問(wèn)題必須通過(guò)經(jīng)驗(yàn)和理論研究來(lái)解決。研究中使用的理論模型和模擬模型需要捕獲現(xiàn)實(shí)的關(guān)鍵方面,例如,有關(guān)普查數(shù)據(jù)并考慮到實(shí)際相關(guān)的目標(biāo)和目標(biāo)受眾。當(dāng)前的人口普查局使用的隱私保護(hù)方法需要與諸如DP等新方法進(jìn)行系統(tǒng)比較,并明確定義相關(guān)和實(shí)際目標(biāo)。提倡DP進(jìn)行普查的統(tǒng)計(jì)研究人員需要了解使用普查數(shù)據(jù)進(jìn)行研究和提出政策建議的社會(huì)科學(xué)家的關(guān)注。DP的普查決定應(yīng)與社會(huì)科學(xué)研究員和其他利益相關(guān)者協(xié)商。 3. 基礎(chǔ)研究 統(tǒng)計(jì)理論的基礎(chǔ)研究為我們?cè)诮y(tǒng)計(jì)實(shí)踐中的工作提供了寶貴的指導(dǎo)和深入的了解。過(guò)去20到30年間,統(tǒng)計(jì)學(xué)基礎(chǔ)研究的兩個(gè)主題涉及一般經(jīng)驗(yàn)過(guò)程的理論以及半?yún)?shù)和非參數(shù)模型下限工具的系統(tǒng)開(kāi)發(fā)。隨著我們對(duì)集中度不平等的理解的迅速發(fā)展,推動(dòng)了經(jīng)驗(yàn)過(guò)程的理論發(fā)展。 統(tǒng)計(jì)的一個(gè)成功案例包括非常通用的可驗(yàn)證Efron的非參數(shù)自助法的自助法極限定理,以及在各種問(wèn)題中更通用的可交換加權(quán)的自助法。這些結(jié)果已得到進(jìn)一步開(kāi)發(fā),以產(chǎn)生適用于海量數(shù)據(jù)的可擴(kuò)展自助法。 其他成功案例包括對(duì)基于Talagrand(1994)的基礎(chǔ)工作的新的濃縮約束技術(shù)對(duì)模型選擇方法的理解,以及非參數(shù)貝葉斯方法的巨大發(fā)展。半?yún)?shù)和非參數(shù)模型的下界和用于構(gòu)造有效估計(jì)量的方法的開(kāi)發(fā)也在持續(xù)發(fā)展。這些方法開(kāi)始在因果推理和模型后選擇推斷方面產(chǎn)生回報(bào)。 我們對(duì)應(yīng)用和數(shù)據(jù)挑戰(zhàn)的強(qiáng)調(diào)絕不降低統(tǒng)計(jì)學(xué)基礎(chǔ)研究的價(jià)值。相反,它更令人信服和迫切地主張對(duì)統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的基礎(chǔ)研究進(jìn)行更多的投資。需要新的理論范式來(lái)支持和指導(dǎo)新的統(tǒng)計(jì)實(shí)踐,以應(yīng)對(duì)新的數(shù)據(jù)挑戰(zhàn)。我們理論的發(fā)展需要擺脫簡(jiǎn)單化的模型和假設(shè),采用新的框架來(lái)反映當(dāng)今的領(lǐng)域問(wèn)題和數(shù)據(jù)現(xiàn)實(shí),從而允許非獨(dú)立同分布樣本以及異構(gòu)總體和數(shù)據(jù)源?;A(chǔ)研究的評(píng)估指標(biāo)應(yīng)包括創(chuàng)新,質(zhì)量和影響力。在本節(jié)中,我們將討論一些重要的新興主題。 3.1 模型與算法的作用 傳統(tǒng)的統(tǒng)計(jì)思維集中在數(shù)據(jù)生成建模上。簡(jiǎn)單和可解釋的模型通常是黃金標(biāo)準(zhǔn)。但是對(duì)于現(xiàn)代應(yīng)用程序而言,現(xiàn)實(shí)往往過(guò)于復(fù)雜,以至于無(wú)法用簡(jiǎn)單的模型來(lái)描述。盡管完全摒棄建模在這些應(yīng)用程序中的作用將是一個(gè)錯(cuò)誤,但當(dāng)今的科學(xué)和社會(huì)問(wèn)題促進(jìn)了對(duì)現(xiàn)代應(yīng)用程序建模的重新校準(zhǔn)。 正如George Box的名言所說(shuō)的:“所有模型都是錯(cuò)誤的,但有些模型是有用的?!蹦P褪菍?duì)現(xiàn)實(shí)的近似,它們?yōu)樘囟康亩婚_(kāi)發(fā)。通常,數(shù)據(jù)分析的目的是制定詳細(xì)的決策,然后建模應(yīng)反映出這一目標(biāo)。一個(gè)典型的例子是分類(lèi),在許多應(yīng)用中,判別建模是生成建模的更合適的替代選擇。在大數(shù)據(jù)分析中,不建議為所有目的都使用一個(gè)模型,無(wú)論它多么復(fù)雜和適應(yīng)。在某些應(yīng)用程序中,可解釋和可擴(kuò)展的局部模型可能是首選,如何跨局部模型有效地借用信息需要進(jìn)行新的研究。 隨著計(jì)算機(jī)科學(xué)思想的注入,數(shù)據(jù)分析中經(jīng)常采用算法觀點(diǎn)。支持向量機(jī)就是一個(gè)例子??梢詫⑵湟暈榉诸?lèi)算法。但是,將支持向量機(jī)與平滑度正則化綁定在一起并重現(xiàn)內(nèi)核Hilbert空間,已經(jīng)對(duì)如何工作以及如何對(duì)其進(jìn)行了改進(jìn)產(chǎn)生了深刻的見(jiàn)識(shí)。 許多統(tǒng)計(jì)工作都使用生成模型來(lái)激勵(lì)和分析數(shù)據(jù)分析程序。這樣的模型對(duì)于設(shè)計(jì)新程序以及理解和比較現(xiàn)有程序可能是有價(jià)值的。但是,我們絕不能止步于此,因?yàn)槿魏侮P(guān)鍵地依賴(lài)于生成模型的推論工作,無(wú)論如何謹(jǐn)慎選擇,都可能與相識(shí)脫節(jié)。 在實(shí)踐中,建模的一個(gè)相關(guān)挑戰(zhàn)是穩(wěn)健性。需要開(kāi)發(fā)健壯性的新概念,以解決數(shù)據(jù)科學(xué)的統(tǒng)計(jì)和計(jì)算方面的問(wèn)題。大部分早期的穩(wěn)健性文獻(xiàn)都是在參數(shù)模型的背景下進(jìn)行的,其中否認(rèn)了模型的真實(shí)性。在這些文獻(xiàn)中,統(tǒng)計(jì)方法被設(shè)計(jì)為在給定參數(shù)模型的鄰域中很好地工作,但是鄰域的概念通常在范圍上受到限制。穩(wěn)健性需要一種不同的方法,不僅用于建模,而且還用于數(shù)據(jù)質(zhì)量、計(jì)算限制等。Yu(2013)主張?jiān)诮y(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的穩(wěn)定性對(duì)數(shù)據(jù)和模型/算法擾動(dòng)的重要性,以及具有可重復(fù)性、穩(wěn)健性和可解釋性的自然連接的重要性。 3.2 不同約束條件下的統(tǒng)計(jì)效率 傳統(tǒng)的統(tǒng)計(jì)效率集中在如何充分利用給定的樣本上。雖然這仍然至關(guān)重要,但越來(lái)越經(jīng)常地,還需要考慮到其他資源限制因素。最值得注意的之一是計(jì)算資源。隨著數(shù)據(jù)量的增加,需要注意任何推斷技術(shù)的計(jì)算方面,并且計(jì)算效率應(yīng)該與旨在推斷的統(tǒng)計(jì)效率一起考慮。這種需求促使我們?cè)谶^(guò)去幾年中研究多項(xiàng)式時(shí)間可計(jì)算方法的分布推斷和極小極大限。盡管取得了一些初步的成功,但到目前為止,我們還沒(méi)有一個(gè)統(tǒng)一而通用的統(tǒng)計(jì)框架來(lái)解決統(tǒng)計(jì)和計(jì)算效率之間的關(guān)系和平衡。 一個(gè)相關(guān)的約束是空間。完整存儲(chǔ)或分析海量數(shù)據(jù)集通常不切實(shí)際。自從大數(shù)據(jù)出現(xiàn)以來(lái),計(jì)算機(jī)科學(xué)家就一直在處理這個(gè)問(wèn)題,并提出了許多非常有用的想法來(lái)以有限的內(nèi)存進(jìn)行存儲(chǔ)和查詢(xún)。值得注意的例子包括隨機(jī)投影,其中大量變量的主要特征可以通過(guò)少量的隨機(jī)測(cè)量來(lái)保留,而數(shù)據(jù)流式傳輸中的內(nèi)存非常稀缺,因此我們只能存儲(chǔ)單個(gè)數(shù)據(jù),并且希望以在線形式進(jìn)行推斷。然而,這些非常重要的問(wèn)題卻很少受到統(tǒng)計(jì)界的關(guān)注。 3.3 數(shù)據(jù)驅(qū)動(dòng)范式中的推斷框架 在許多現(xiàn)代科學(xué)應(yīng)用中,首先收集數(shù)據(jù),然后在看到數(shù)據(jù)后制定科學(xué)問(wèn)題或假設(shè)。這種數(shù)據(jù)驅(qū)動(dòng)的科學(xué)范式給統(tǒng)計(jì)推斷帶來(lái)了新的挑戰(zhàn)。在這種情況下,對(duì)經(jīng)典統(tǒng)計(jì)推斷的作用的誤解可能會(huì)導(dǎo)致“呼吁應(yīng)用較少的能力,放棄對(duì)有效的統(tǒng)計(jì)方法的研究?!毕喾矗皯?yīng)該有動(dòng)機(jī)創(chuàng)造統(tǒng)計(jì)推理,將目前沒(méi)有考慮的非正式數(shù)據(jù)分析活動(dòng)整合在一起”(Buja和Brown對(duì)Lockhart et al。(2014)的討論)。 此類(lèi)活動(dòng)通常以大規(guī)模探索性數(shù)據(jù)分析的形式出現(xiàn),并且可能涉及交互式數(shù)據(jù)分析的多次迭代。它們?cè)谠S多應(yīng)用中至關(guān)重要,并且非常成功。然而,從統(tǒng)計(jì)的角度來(lái)看,如何在一個(gè)更正式的推理框架中適當(dāng)?shù)乜紤]這些活動(dòng)仍然是一個(gè)巨大的挑戰(zhàn)。一個(gè)相關(guān)的挑戰(zhàn)是如何實(shí)現(xiàn)科學(xué)的可重復(fù)性/可復(fù)制性,并傳達(dá)來(lái)自這些復(fù)雜數(shù)據(jù)分析管道的數(shù)據(jù)驅(qū)動(dòng)發(fā)現(xiàn)的不確定性。 Taylor and Tibshirani(2015)提出了一種選擇推理的新方法,其中感興趣的參數(shù)可能與數(shù)據(jù)有關(guān)。但是,對(duì)無(wú)模型結(jié)構(gòu)參數(shù)的統(tǒng)計(jì)推斷仍然是任何驗(yàn)證性分析的重要組成部分;感興趣的參數(shù)可以是科學(xué)中的固有數(shù)量,也可以是所研究人群的平均治療效果。在模型選擇之后進(jìn)行基于模型的推斷時(shí),我們必須開(kāi)發(fā)適當(dāng)?shù)耐茢喾椒ǎ越鉀Q模型選擇中的不確定性。重要的是,我們應(yīng)更多地注意許多有用但特別的過(guò)程,例如數(shù)據(jù)拆分,并描述何時(shí)及為什么這些方法可行以及如何對(duì)其進(jìn)行改進(jìn)。 3.4 觀察研究與實(shí)驗(yàn)設(shè)計(jì) 對(duì)原因及后果進(jìn)行推斷,即因果推斷,是日常生活和公共政策的核心。因果推斷問(wèn)題的一些示例如下:雙膦酸鹽是否會(huì)導(dǎo)致食道癌?街道上的人口密度(跨時(shí)間和鄰域)如何影響犯罪率?房東有種族歧視嗎? 在線和其他電子活動(dòng)留下的數(shù)據(jù)痕跡“數(shù)據(jù)耗盡”提供了非常大的數(shù)據(jù)集,可能為因果推斷提供了新的機(jī)會(huì)。這樣的數(shù)據(jù)集的示例包括運(yùn)輸數(shù)據(jù)集(例如,紐約市出租車(chē)數(shù)據(jù)、Waze/Google地圖數(shù)據(jù)、公共交通數(shù)據(jù)、Strava數(shù)據(jù)、交通事故數(shù)據(jù))、健康數(shù)據(jù)集(例如,Medicare/Medicaid數(shù)據(jù),保險(xiǎn)索賠數(shù)據(jù)),住宿數(shù)據(jù)(例如AirBNB數(shù)據(jù))、公共安全數(shù)據(jù)(例如Shotspotter槍聲數(shù)據(jù)、警察公共聯(lián)系數(shù)據(jù)、CCTV、遠(yuǎn)程信息處理)、交易數(shù)據(jù)(例如金融交易、零售)、教育數(shù)據(jù)(例如學(xué)生水平的管理數(shù)據(jù)、學(xué)校水平的管理數(shù)據(jù))、就業(yè)數(shù)據(jù)(例如ADP薪資數(shù)據(jù))、公眾與政府?dāng)?shù)據(jù)的交互(例如在https://catalog./dataset/311-data-in-development的311數(shù)據(jù))以及大規(guī)模傳感器數(shù)據(jù)(例如,起搏器數(shù)據(jù),F(xiàn)itbit數(shù)據(jù))。 需要法治因果推斷的新方法,以充分利用這些大數(shù)據(jù)集進(jìn)行因果推斷。可以從新研究中受益的因果推斷的挑戰(zhàn)性問(wèn)題包括: 1. 如何整合來(lái)自各種數(shù)據(jù)源的因果關(guān)系證據(jù)?我們?nèi)绾握{(diào)和得到截然不同結(jié)果的觀察研究結(jié)論? 2. 我們?nèi)绾瘟炕c因果效應(yīng)估計(jì)相關(guān)的真實(shí)不確定性? 3. 我們?nèi)绾卫玫途?,低偏差?shù)據(jù)和高精度,中等偏差數(shù)據(jù)的優(yōu)勢(shì)? 4. 我們是否可以結(jié)合使用無(wú)效測(cè)試,陰性對(duì)照等來(lái)建立更好的模型或幫助驗(yàn)證假設(shè)?如何將這些準(zhǔn)實(shí)驗(yàn)設(shè)備納入推斷? 5. 已針對(duì)相對(duì)簡(jiǎn)單的因果假設(shè)(如治療引起比對(duì)照組更高的影響)開(kāi)發(fā)了諸如空試驗(yàn),陰性對(duì)照和多個(gè)對(duì)照組之類(lèi)的準(zhǔn)實(shí)驗(yàn)裝置。如果我們想檢驗(yàn)復(fù)雜的因果假設(shè),例如關(guān)于一組基因如何共同作用以調(diào)節(jié)蛋白質(zhì)X的生成量該怎么辦?如何將這些準(zhǔn)實(shí)驗(yàn)設(shè)備用于有關(guān)大型機(jī)制模型的復(fù)雜因果假設(shè)? 6. 如果您具有高維度的結(jié)果,可以使用觀測(cè)數(shù)據(jù)來(lái)幫助定義對(duì)于幫助確定未來(lái)實(shí)驗(yàn)的最佳測(cè)試統(tǒng)計(jì)量最重要的低維度結(jié)構(gòu)嗎? 基于觀察性研究進(jìn)行因果推理的另一個(gè)重要挑戰(zhàn)是,是否有可能區(qū)分模型或程序的成功使用和不成功使用,這是Freedman(1991)提出的一個(gè)老問(wèn)題。對(duì)于統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家來(lái)說(shuō),這是一個(gè)至關(guān)重要的問(wèn)題,因?yàn)橐蚬评碓谟^察研究比隨機(jī)實(shí)驗(yàn)更常見(jiàn)的社會(huì)科學(xué)和其他領(lǐng)域中流行。這也是統(tǒng)計(jì)學(xué)家比其他許多人都有更好見(jiàn)解的地方。 3.5 有限人口抽樣設(shè)計(jì):模型輔助有限采樣 抽樣調(diào)查中通常采用有限的人口抽樣,但是至少在最近之前,統(tǒng)計(jì)方法已經(jīng)不在統(tǒng)計(jì)的主流范圍之內(nèi)。Cassel,Sarndal,and Wretman(1977)以及Sarndal,Swensson,and Wretman(1992)的書(shū)開(kāi)始在統(tǒng)計(jì)理論的框架內(nèi)系統(tǒng)地處理這些方法。Meng(2018)最近發(fā)表的有關(guān)采樣在大數(shù)據(jù)中的作用的有啟發(fā)性的論文應(yīng)被視為Neyman(1934)所倡導(dǎo)主題的延續(xù)。在數(shù)據(jù)科學(xué)時(shí)代,這些主題的進(jìn)一步發(fā)展,特別是與兩相和多相設(shè)計(jì)相關(guān)的工具,以及模型輔助采樣背景下的兩階段和多階段設(shè)計(jì),可能會(huì)在使用采樣來(lái)衡個(gè)體子集的昂貴協(xié)變量時(shí)及使用諸如子采樣、“草圖”、和“分而治之”方法來(lái)減少與大數(shù)據(jù)計(jì)算有關(guān)的困難時(shí)變得越來(lái)越重要。 適用于獨(dú)立同分布的許多工具采樣(包括對(duì)相關(guān)經(jīng)驗(yàn)過(guò)程方法的系統(tǒng)性理解,例如類(lèi)似于Talagrand(1994)的簡(jiǎn)單隨機(jī)采樣的有限采樣指數(shù)范圍)對(duì)于大多數(shù)更復(fù)雜的采樣設(shè)計(jì)尚未出現(xiàn)。 3.6 大規(guī)模非凸優(yōu)化 大數(shù)據(jù)通常由異構(gòu)數(shù)據(jù)或子群體組成。大數(shù)據(jù)分析的一個(gè)重要目標(biāo)是將每個(gè)對(duì)象聚集到一個(gè)亞人群中,并為每個(gè)亞人群提供個(gè)性化的處理。這個(gè)基本概念是精準(zhǔn)醫(yī)學(xué)(第2。2節(jié))和精準(zhǔn)營(yíng)銷(xiāo)的基礎(chǔ)。這種聚類(lèi)分析是在高維設(shè)置下進(jìn)行的,其中包括高維變量、潛在因素以及具有數(shù)據(jù)真實(shí)性的環(huán)境(如粗尾,缺失值和有偏采樣)之間的相互作用。一旦了解了亞群,尋找個(gè)性化的治療方法和預(yù)期的反應(yīng)仍然是一項(xiàng)挑戰(zhàn)。如此復(fù)雜的系統(tǒng)的現(xiàn)實(shí)建模對(duì)于精密醫(yī)學(xué)和市場(chǎng)營(yíng)銷(xiāo)以及其他應(yīng)用極為重要。一種工作模型是在高維環(huán)境中采用專(zhuān)家模型的混合。這涉及選擇變量,潛在因素及其相互作用以進(jìn)行聚類(lèi),并分別進(jìn)行處理分配,這通常會(huì)導(dǎo)致復(fù)雜的大規(guī)模非凸優(yōu)化問(wèn)題。了解用于此類(lèi)統(tǒng)計(jì)模型的算法和方法在智力上具有挑戰(zhàn)性,并且在實(shí)踐中很重要。 深度學(xué)習(xí)(將在3.7節(jié)中進(jìn)一步討論)可以看作是一類(lèi)現(xiàn)代的高維非參數(shù)模型,在許多機(jī)器學(xué)習(xí)問(wèn)題中都取得了巨大的成功。已經(jīng)針對(duì)諸如此類(lèi)的大規(guī)模非凸優(yōu)化問(wèn)題開(kāi)發(fā)了許多啟發(fā)式算法,例如具有動(dòng)量的隨機(jī)梯度方法。但是,關(guān)于算法收斂和統(tǒng)計(jì)特性的理論很少。這阻礙了我們對(duì)問(wèn)題的理解以及對(duì)那些需要關(guān)聯(lián)和因果研究的學(xué)科科學(xué)(如經(jīng)濟(jì)學(xué)和社會(huì)學(xué))的成功應(yīng)用。在最壞的情況下,這些高維優(yōu)化目標(biāo)函數(shù)的情況非常嚇人,包括指數(shù)級(jí)數(shù)量的局部最小值,但在大多數(shù)典型情況下對(duì)統(tǒng)計(jì)問(wèn)題是良性的。理解所使用算法的統(tǒng)計(jì)屬性(與經(jīng)典統(tǒng)計(jì)中的全局最小值相反)對(duì)于大數(shù)據(jù)的統(tǒng)計(jì)實(shí)踐非常重要。 混合模型和深度學(xué)習(xí)算法只是統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家在分析高維非凸優(yōu)化問(wèn)題的統(tǒng)計(jì)和算法屬性方面面臨的新挑戰(zhàn)的兩個(gè)實(shí)例。其他示例包括Z2同步化、矩陣完成和解決許多工程問(wèn)題中的二次系統(tǒng)。概率工具和統(tǒng)計(jì)模型在理解典型案例的算法復(fù)雜性以及所得基于算法的對(duì)象的統(tǒng)計(jì)屬性方面起著至關(guān)重要的作用。 3.7 深度學(xué)習(xí) 今天,似乎有一種對(duì)深度學(xué)習(xí)的熱情的海嘯;參見(jiàn)LeCun,Bengio,and Hinton(2015)。由于該技術(shù)在某些圖像分類(lèi)和自然語(yǔ)言處理任務(wù)中已達(dá)到超人的性能,因此,現(xiàn)在正投入大量資金來(lái)更廣泛地部署該技術(shù)。媒體宣傳了關(guān)于在其它信息處理任務(wù)中開(kāi)發(fā)超人性能時(shí)可能出現(xiàn)的技術(shù)未來(lái)的猜測(cè)。伴隨著這股熱情的浪潮對(duì)統(tǒng)計(jì)領(lǐng)域提出了巨大的挑戰(zhàn),因?yàn)檩p信的媒體報(bào)道促使許多非統(tǒng)計(jì)愛(ài)好者相信,你不再需要統(tǒng)計(jì)了。這種信念是錯(cuò)誤的;大量的深度學(xué)習(xí)炒作是基于前瞻性推測(cè),而數(shù)百年來(lái)的統(tǒng)計(jì)數(shù)據(jù)卻取得了堅(jiān)實(shí)的成果,其中一些成就重塑了地球上的生活,例如公共衛(wèi)生和農(nóng)業(yè)。盡管如此,統(tǒng)計(jì)人員應(yīng)該盡其所能來(lái)提高深度學(xué)習(xí)的研究質(zhì)量,就像他們致力于改善其他領(lǐng)域的研究一樣。 深度學(xué)習(xí)的成功源于對(duì)機(jī)器學(xué)習(xí)通用任務(wù)框架的持續(xù)使用。在這種框架下,人們被賦予了標(biāo)簽化的訓(xùn)練和測(cè)試數(shù)據(jù),并且試圖通過(guò)人們想要的任何設(shè)備來(lái)改進(jìn)預(yù)測(cè)模型,并通過(guò)測(cè)試集預(yù)測(cè)誤差來(lái)對(duì)所提出的模型進(jìn)行評(píng)分。通過(guò)反復(fù)試驗(yàn),逐漸提高了性能。無(wú)需理論指導(dǎo)。 統(tǒng)計(jì)學(xué)家對(duì)深度學(xué)習(xí)研究人員的經(jīng)驗(yàn)成功和經(jīng)驗(yàn)態(tài)度的反應(yīng)不應(yīng)是對(duì)統(tǒng)計(jì)理論的布道式宣講。統(tǒng)計(jì)研究人員應(yīng)該參與深度學(xué)習(xí)人員當(dāng)前正在做的事情,并提出建設(shè)性的可操作建議,以改善當(dāng)前相關(guān)任務(wù)和數(shù)據(jù)集的實(shí)際性能。 盡管深度學(xué)習(xí)/公共任務(wù)框架范例是成功的,但它也面臨著巨大的挑戰(zhàn),而統(tǒng)計(jì)學(xué)研究可能會(huì)有所幫助,就像統(tǒng)計(jì)學(xué)研究已經(jīng)能夠在許多其他領(lǐng)域?yàn)檠芯孔龀鲐暙I(xiàn)一樣。挑戰(zhàn)包括: 1. 深度學(xué)習(xí)研究是毀滅性的昂貴。現(xiàn)在正在使用1800萬(wàn)個(gè)cpu小時(shí)并專(zhuān)用于500+gpu數(shù)月撰寫(xiě)論文。 2. (和1相關(guān))標(biāo)準(zhǔn)算法(例如,隨機(jī)梯度下降)收斂速度非常慢。 3. 該方法需要大量數(shù)據(jù),而大多數(shù)科學(xué)和工程研究人員永遠(yuǎn)不會(huì)擁有這些數(shù)據(jù),該領(lǐng)域的趨勢(shì)是向更大的數(shù)據(jù)需求擴(kuò)展。 統(tǒng)計(jì)人員可以通過(guò)改善以上三個(gè)核心問(wèn)題中的任何一個(gè)來(lái)為深度學(xué)習(xí)的進(jìn)步做出貢獻(xiàn),所有這些都涉及統(tǒng)計(jì)人員的核心專(zhuān)業(yè)知識(shí)。實(shí)驗(yàn)設(shè)計(jì)、隨機(jī)線性代數(shù)、新穎的統(tǒng)計(jì)訓(xùn)練算法都在這項(xiàng)工作中占有一席之地。 4. 專(zhuān)業(yè)文化與社區(qū)責(zé)任 統(tǒng)計(jì)學(xué)作為一門(mén)獨(dú)立學(xué)科的建立與19世紀(jì)初的科學(xué)發(fā)展緊密結(jié)合在一起(例如,達(dá)爾文的進(jìn)化論、農(nóng)業(yè)設(shè)計(jì))。進(jìn)行了基礎(chǔ)數(shù)學(xué)工作,以實(shí)現(xiàn)對(duì)經(jīng)驗(yàn)上有用的諸如最大似然方法的特性的概括和研究。在最初的發(fā)展之后的幾十年中,該領(lǐng)域與這些特殊的數(shù)學(xué)發(fā)展保持一致,并且與實(shí)踐的聯(lián)系排在了后排。引用喬治·博克斯(George Box)的1976年費(fèi)舍爾演講:
在過(guò)去的幾十年中,我們已經(jīng)開(kāi)始通過(guò)跨學(xué)科研究和一般的應(yīng)用統(tǒng)計(jì)來(lái)回歸領(lǐng)域根源 (Cleveland,2001),但是變革的步伐并未跟上快速發(fā)展的以數(shù)據(jù)為中心的世界。 為了使該行業(yè)在數(shù)據(jù)科學(xué)及其他領(lǐng)域中發(fā)揮領(lǐng)導(dǎo)作用,需要更快地進(jìn)行文化變革。正如 Breiman (2001) 雄辯地指出:
問(wèn)題不在于隨機(jī)模型或生成模型本身。如果此類(lèi)模型通過(guò)經(jīng)驗(yàn)證據(jù)產(chǎn)生實(shí)際影響,則應(yīng)予以贊揚(yáng),尤其是如果這些模型在其構(gòu)造中考慮了領(lǐng)域知識(shí)并具有計(jì)算上可行的算法。這樣的模型也是有用且至關(guān)重要的,特別是對(duì)于研究和理解經(jīng)驗(yàn)上成功的、并且在為穩(wěn)健而在多類(lèi)生成模型下優(yōu)先研究的算法/方法。但是,在實(shí)踐中,通常情況并非如此,如果沒(méi)有經(jīng)驗(yàn)支持,這種方法就非常成問(wèn)題。 雖然數(shù)學(xué),計(jì)算和統(tǒng)計(jì)原理對(duì)于理解統(tǒng)計(jì)和數(shù)據(jù)科學(xué)程序的操作特性必不可少,但要想解決現(xiàn)實(shí)世界中的問(wèn)題,就必須沉浸在相關(guān)的領(lǐng)域。引用 George Box 在 1976 年的菲舍爾演講中所說(shuō)的:“需要在理論和實(shí)踐之間取得適當(dāng)?shù)钠胶?,最重要的是,統(tǒng)計(jì)學(xué)家必須學(xué)習(xí)如何成為優(yōu)秀的科學(xué)家及必須通過(guò)經(jīng)驗(yàn)和榜樣才能形成的人才?!?/span> 我們的專(zhuān)業(yè)人士必須認(rèn)識(shí)到,在新時(shí)代,我們的主要職責(zé)是開(kāi)發(fā)統(tǒng)計(jì)和數(shù)據(jù)科學(xué)中的算法/方法和相關(guān)理論,以滿足對(duì)科學(xué),工程學(xué)和社會(huì)產(chǎn)生最大影響的數(shù)據(jù)分析需求。我們需要一種新的文化,在這種文化中,新一代的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家將受到培訓(xùn)并受到鼓勵(lì),以擁抱新的現(xiàn)實(shí)。為此,我們需要所有利益相關(guān)者,包括學(xué)術(shù)院系,專(zhuān)業(yè)協(xié)會(huì)和資助機(jī)構(gòu),共同努力,實(shí)現(xiàn)急劇的文化變革。 4.1 學(xué)術(shù)院系 學(xué)術(shù)成就是許多學(xué)術(shù)院系當(dāng)前任期和晉升標(biāo)準(zhǔn)的一部分。但是,學(xué)術(shù)成就的評(píng)估傳統(tǒng)上一直側(cè)重于本領(lǐng)域公認(rèn)的期刊上的出版物數(shù)量,而這種評(píng)估的重點(diǎn)過(guò)于狹窄,與我們領(lǐng)域的當(dāng)前轉(zhuǎn)變不符。評(píng)價(jià)中過(guò)分強(qiáng)調(diào)出版物的數(shù)量也不利于其健康。學(xué)術(shù)成就評(píng)估應(yīng)強(qiáng)調(diào)質(zhì)量以及工作對(duì)統(tǒng)計(jì)實(shí)踐、領(lǐng)域科學(xué)和整個(gè)社會(huì)的影響。除期刊出版物外,我們還應(yīng)使用更廣泛的指標(biāo)來(lái)評(píng)估學(xué)術(shù)成就,包括對(duì)我們的研究體系,基礎(chǔ)設(shè)施以及對(duì)領(lǐng)域科學(xué)和整個(gè)社會(huì)的貢獻(xiàn)的可衡量的影響。Waller(2018)提供了有關(guān)數(shù)據(jù)科學(xué)相關(guān)研究在學(xué)術(shù)院系的文獻(xiàn)記錄和評(píng)估的建議,很明顯,社區(qū)需要立即采取集體行動(dòng)。 聘請(qǐng)多元化的教師對(duì)于我們職業(yè)的轉(zhuǎn)變至關(guān)重要。評(píng)估潛在的新員工帶來(lái)了巨大的挑戰(zhàn),因?yàn)樗鼜母旧仙婕皩?duì)未來(lái)影響的預(yù)測(cè)。傳統(tǒng)上準(zhǔn)備好的學(xué)生呈現(xiàn)出較低的風(fēng)險(xiǎn)和更確定的軌跡。學(xué)術(shù)院系需要積極招募和培養(yǎng)從我們重新構(gòu)想的博士課程中產(chǎn)生的新一代學(xué)生。并減少風(fēng)險(xiǎn)規(guī)避。多樣性起著關(guān)鍵作用—未來(lái)成功的統(tǒng)計(jì)教授帶頭人必須反映多樣性的許多方面,包括知識(shí)多樣性。這需要協(xié)調(diào)一致的長(zhǎng)期努力(在聘用前后),而我們的領(lǐng)域在過(guò)去并未做到這一點(diǎn)。 4.2 專(zhuān)業(yè)領(lǐng)導(dǎo) 我們呼吁更多的統(tǒng)計(jì)學(xué)家成為我們行業(yè)的領(lǐng)導(dǎo)者。統(tǒng)計(jì)領(lǐng)域的領(lǐng)導(dǎo)者需要做更多的工作,以將這一領(lǐng)域推廣到廣大的科學(xué)界和公共領(lǐng)域。這項(xiàng)工作以及系、校園和我們自己的專(zhuān)業(yè)協(xié)會(huì)中的領(lǐng)導(dǎo)角色,應(yīng)該是我們專(zhuān)業(yè)中高級(jí)人員評(píng)估標(biāo)準(zhǔn)的關(guān)鍵組成部分。 統(tǒng)計(jì)學(xué)專(zhuān)業(yè)協(xié)會(huì)需要成為更有影響力的統(tǒng)計(jì)工作的有力推動(dòng)者,并在統(tǒng)計(jì)學(xué)家/數(shù)據(jù)科學(xué)家,研究人員與其他社會(huì)以及私營(yíng)和公共部門(mén)的科學(xué)家之間架起橋梁。我們專(zhuān)業(yè)協(xié)會(huì)的旗艦期刊需要擴(kuò)大其范圍,并有意識(shí)地從傳統(tǒng)固有的研究領(lǐng)域轉(zhuǎn)向新的數(shù)據(jù)科學(xué)研究。統(tǒng)計(jì)人員的領(lǐng)導(dǎo)和溝通培訓(xùn)嚴(yán)重不足,我們的組織應(yīng)該在這方面有所作為。這種培訓(xùn)還應(yīng)為統(tǒng)計(jì)學(xué)家為跨學(xué)科研究團(tuán)隊(duì)的領(lǐng)導(dǎo)做好準(zhǔn)備。諸如獎(jiǎng)項(xiàng)和研究金之類(lèi)的榮譽(yù)應(yīng)反映出對(duì)統(tǒng)計(jì)學(xué)的廣泛看法,不僅要表彰傳統(tǒng)的學(xué)術(shù)貢獻(xiàn),還應(yīng)表彰領(lǐng)導(dǎo)才能、計(jì)算成就以及更廣泛的科學(xué)或領(lǐng)域貢獻(xiàn)。為了反映這種轉(zhuǎn)變,社會(huì)需要獲得更多的獎(jiǎng)項(xiàng)。 全國(guó)和國(guó)際統(tǒng)計(jì)學(xué)會(huì)在大學(xué)和研究生層次的統(tǒng)計(jì)學(xué)課程的開(kāi)發(fā)和重新構(gòu)想中可以發(fā)揮更大的作用。它們自然也可以幫助在學(xué)術(shù)界、工業(yè)界和公共部門(mén)之間架起橋梁。聯(lián)合統(tǒng)計(jì)會(huì)議是傳統(tǒng)的聚會(huì)場(chǎng)所,各行各業(yè)的統(tǒng)計(jì)學(xué)家都可以聯(lián)系到那里,還有很多工作要做。例如,在數(shù)據(jù)科學(xué)領(lǐng)域建立更廣泛,更深入的行業(yè)-學(xué)術(shù)界合作伙伴關(guān)系可以極大地促進(jìn)數(shù)據(jù)科學(xué)時(shí)代的統(tǒng)計(jì)研究和教育,但是目前這通常發(fā)生在單位級(jí)別。專(zhuān)業(yè)協(xié)會(huì)可以幫助促進(jìn)聯(lián)合體一級(jí)的努力。 4.3 資助機(jī)構(gòu) NSF 在傳統(tǒng)研究資金中扮演著不可替代的角色,重點(diǎn)放在創(chuàng)新學(xué)科研究上,這為研究界提供了很好的服務(wù)。我們建議NSF的統(tǒng)計(jì)計(jì)劃繼續(xù)促進(jìn)資助知識(shí)多樣性。如報(bào)告前面所述,數(shù)據(jù)科學(xué)時(shí)代的許多研究領(lǐng)域都面臨著重大挑戰(zhàn)和機(jī)遇。資金的增加對(duì)于以下方面的發(fā)展至關(guān)重要:空間主題數(shù)據(jù)分析、可解釋的統(tǒng)計(jì)學(xué)習(xí)模型、個(gè)性化和集成推薦系統(tǒng)、時(shí)空數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和因果推理的集成、預(yù)測(cè)的穩(wěn)健性和穩(wěn)定性等/預(yù)測(cè)和推論、數(shù)據(jù)隱私和公平性、基于代理的模型、約束優(yōu)化、實(shí)驗(yàn)設(shè)計(jì)以及高效的深度學(xué)習(xí)算法。 NSF 統(tǒng)計(jì)研究和教育的資金主要來(lái)自數(shù)學(xué)科學(xué)部(DMS)。NSF預(yù)算的增長(zhǎng)跟不上科學(xué)和工程界的增長(zhǎng),特別是在通貨膨脹調(diào)整之后。這個(gè)問(wèn)題在統(tǒng)計(jì)計(jì)劃中最為明顯和嚴(yán)重。但是,聯(lián)邦對(duì)基礎(chǔ)研究和勞動(dòng)力的投資對(duì)于我們專(zhuān)業(yè)的未來(lái)仍然至關(guān)重要。統(tǒng)計(jì)計(jì)劃需要獲得更多的資金,以跟上學(xué)科的發(fā)展和進(jìn)步,而統(tǒng)計(jì)研究的資金需要超出一項(xiàng)計(jì)劃,因?yàn)榻y(tǒng)計(jì)創(chuàng)新在科學(xué)的廣泛研究和教育領(lǐng)域中發(fā)揮著越來(lái)越重要的作用。例如,統(tǒng)計(jì)人員正在擁抱NSF的10大構(gòu)想,尤其是通過(guò)利用21世紀(jì)科學(xué)與工程(HDR)的數(shù)據(jù)革命。 為了加速統(tǒng)計(jì)數(shù)據(jù)的轉(zhuǎn)換并造福社會(huì),NSF和NIH等政府資助機(jī)構(gòu)需要加大投資,以支持將統(tǒng)計(jì)作為科學(xué)技術(shù)發(fā)展的重要組成部分的研究項(xiàng)目。美國(guó)國(guó)立衛(wèi)生研究院資助的許多項(xiàng)目都涉及統(tǒng)計(jì)學(xué)家,它們通常扮演著支持(但重要)的角色。NSF的一種成功的資助模式是“數(shù)據(jù)科學(xué)原理跨學(xué)科研究(TRIPODS)”,其中統(tǒng)計(jì)學(xué)家和其他研究人員通過(guò)集成研究和培訓(xùn)活動(dòng)的全面參與有助于發(fā)展數(shù)據(jù)科學(xué)的理論基礎(chǔ)。DMS/NIGMS聯(lián)合倡議、旨在支持生物學(xué)和數(shù)學(xué)科學(xué)界的研究(DMS/NIGMS)、DMS/NLM關(guān)于生物醫(yī)學(xué)研究通用數(shù)據(jù)科學(xué)方法的聯(lián)合倡議(DMS/NLM)和威脅檢測(cè)算法(ATD)也是此類(lèi)籌資機(jī)制的典范。更多的此類(lèi)資助機(jī)會(huì)將鼓勵(lì)統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家在一種新文化中發(fā)展研究計(jì)劃,這種文化對(duì)有影響的工作大加贊賞。正如該報(bào)告前面所討論的,具有影響力的研究可能來(lái)自統(tǒng)計(jì)學(xué)家對(duì)領(lǐng)域科學(xué)的沉浸和充分參與,例如天文學(xué)、預(yù)測(cè)化學(xué)、城市規(guī)劃和精密醫(yī)學(xué)等。資助包括統(tǒng)計(jì)學(xué)家和其他領(lǐng)域科學(xué)家在內(nèi)的平等研究伙伴的研究團(tuán)隊(duì),將導(dǎo)致跨領(lǐng)域的創(chuàng)新。資助機(jī)構(gòu)和ASA等全國(guó)協(xié)會(huì)應(yīng)共同努力,以確保統(tǒng)計(jì)和數(shù)據(jù)科學(xué)的研究人員充分了解這些機(jī)會(huì),并有機(jī)會(huì)及時(shí)向這些計(jì)劃提供反饋。 我們還建議NSF和其他資助機(jī)構(gòu)為初級(jí)和中級(jí)研究人員提供專(zhuān)門(mén)的支持,使其介入領(lǐng)域科學(xué),這可能與學(xué)校學(xué)術(shù)假和其他形式的教師休假關(guān)聯(lián)。由NSF資助的研究機(jī)構(gòu)和中心可以促進(jìn)此類(lèi)活動(dòng),但是需要新的機(jī)制來(lái)確保此類(lèi)項(xiàng)目的成果評(píng)估著重于潛力和影響。政府資助可以激勵(lì)更多的統(tǒng)計(jì)學(xué)家將投入到新興的數(shù)據(jù)科學(xué)研究領(lǐng)域。 5. 博士教育 在本科層次上,針對(duì)統(tǒng)計(jì)統(tǒng)計(jì)學(xué)本科課程的新課程指南 和數(shù)據(jù)科學(xué) 強(qiáng)調(diào)了統(tǒng)計(jì)基礎(chǔ)的重要性,并伴隨著在計(jì)算、數(shù)據(jù)技術(shù)、領(lǐng)域知識(shí)和倫理方面更深入和更堅(jiān)實(shí)的基礎(chǔ)。在這些文件的基礎(chǔ)上,我們?cè)谶@里專(zhuān)注于博士教育。 首先,博士是一個(gè)研究學(xué)位,博士課程應(yīng)側(cè)重于培養(yǎng)學(xué)生從事統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的研究。最可持續(xù)的培訓(xùn)模型或增長(zhǎng)模型是幫助他們學(xué)習(xí)如何學(xué)習(xí),從而使他們?cè)陬I(lǐng)域和數(shù)據(jù)挑戰(zhàn)不斷發(fā)展的過(guò)程中能夠靈活敏捷地進(jìn)行智力適應(yīng)和更新其知識(shí)和技能。我們的畢業(yè)生應(yīng)該能夠通過(guò)創(chuàng)建新穎的統(tǒng)計(jì)對(duì)象(例如模型、方法、可視化對(duì)象)或?qū)Υ祟?lèi)對(duì)象進(jìn)行分析,為解決以實(shí)際數(shù)據(jù)為中心的問(wèn)題做出貢獻(xiàn)。本節(jié)中的其余討論將服務(wù)于此目標(biāo)。 5.1 課程 我們相信,大多數(shù)大學(xué)的標(biāo)準(zhǔn)課程不足以滿足學(xué)生的需求。進(jìn)入學(xué)術(shù)工作市場(chǎng)和非學(xué)術(shù)或準(zhǔn)學(xué)術(shù)工作市場(chǎng)(行業(yè)、準(zhǔn)學(xué)術(shù)、政府等)的學(xué)生越來(lái)越被要求能夠勝任各種主題和技能(例如,數(shù)據(jù)技術(shù))。例如 Nolan and Temple Lang(2014) 全面介紹了許多現(xiàn)代數(shù)據(jù)類(lèi)型和有效處理這些數(shù)據(jù)類(lèi)型的計(jì)算技術(shù)。但是,大多數(shù)學(xué)生沒(méi)有接受過(guò)這些技能的培訓(xùn),也沒(méi)有接受過(guò)迅速采用新技能的更抽象的技能的培訓(xùn)。 什么應(yīng)該構(gòu)成博士學(xué)位的基礎(chǔ)統(tǒng)計(jì)課程以改變我們的領(lǐng)域?我們認(rèn)為,雖然概率和推斷是傳統(tǒng)統(tǒng)計(jì)的關(guān)鍵基礎(chǔ),但當(dāng)今統(tǒng)計(jì)領(lǐng)域的博士畢業(yè)生需要具備更深厚的計(jì)算和數(shù)據(jù)技術(shù)、通信、數(shù)據(jù)清理、定量批判性思維、協(xié)作技能、適當(dāng)?shù)膯?wèn)題制定和跨學(xué)科科學(xué)的技能。統(tǒng)計(jì)培訓(xùn)需要涵蓋整個(gè)“數(shù)據(jù)生命周期”。同時(shí),我們不建議擴(kuò)展必修課程。如果有的話,對(duì)于許多計(jì)劃而言,需要提供更廣泛的選修課程,而不是必修課程。 我們認(rèn)為一定的基本統(tǒng)計(jì)、計(jì)算和數(shù)學(xué)水平是前提。除此之外,我們認(rèn)為以下領(lǐng)域是“核心”:
一些課程計(jì)劃將通過(guò)逐漸進(jìn)化過(guò)程朝著更廣闊的視野發(fā)展。其他的計(jì)劃則需要采取更激進(jìn)的方法。對(duì)于本科生水平,Cobb (2015) 考慮了后者的可能性。不需要所有博士學(xué)位。統(tǒng)計(jì)學(xué)中的所有博士課程都沒(méi)有必要考慮相同的物質(zhì)基礎(chǔ)。但是,有一份藍(lán)圖(或一套藍(lán)圖)將有所幫助,并且是 Deborah Nolan 組織的后續(xù)“十字路口的研究生統(tǒng)計(jì)學(xué)教育”研討會(huì)的目標(biāo)之一。 幾個(gè)限制因素使得難以在如此廣泛的領(lǐng)域中提供培訓(xùn)。首先,大多數(shù)大學(xué)都不想犧牲他們認(rèn)為是基礎(chǔ)的課程和經(jīng)驗(yàn)。其次,似乎很多院系太小而無(wú)法在如此多樣的專(zhuān)業(yè)范圍內(nèi)提供適當(dāng)?shù)呐嘤?xùn),并且由于學(xué)生之間的競(jìng)爭(zhēng),各院系之間往往有交流資源的阻礙因素。除了對(duì)現(xiàn)有課程進(jìn)行改造或現(xiàn)代化之外,博士課程還應(yīng)考慮非傳統(tǒng)的學(xué)習(xí)機(jī)制,如塊狀課程、沉浸式體驗(yàn)、實(shí)驗(yàn)室輪換和可解決一個(gè)或多個(gè)這些限制的共享課程技術(shù)。但是,這些替代方案在獲取、認(rèn)證、質(zhì)量標(biāo)準(zhǔn)、可持續(xù)性等方面提出了尚待解決的其他問(wèn)題,NSF、專(zhuān)業(yè)協(xié)會(huì)和其他機(jī)構(gòu)可能可以改善這些問(wèn)題。許多計(jì)劃已經(jīng)為學(xué)生提供了“軌道”,我們認(rèn)為所有計(jì)劃都應(yīng)朝這個(gè)方向發(fā)展。在未來(lái)的討論中可以考慮核心培訓(xùn)的后續(xù)輪換的“醫(yī)學(xué)院模式”。 由于缺乏對(duì)這些學(xué)科的深入了解以及對(duì)某一領(lǐng)域文化的了解,統(tǒng)計(jì)學(xué)家可能難以與其他科學(xué)領(lǐng)域的研究人員進(jìn)行有效合作。解決這個(gè)問(wèn)題的一個(gè)辦法是為希望成為在科學(xué)領(lǐng)域有深度投入的應(yīng)用統(tǒng)計(jì)人員的人設(shè)立研究生或博士后獎(jiǎng)學(xué)金。這將使這些統(tǒng)計(jì)人員能夠參加其合作者部門(mén)的課程(或從事其他類(lèi)型的培訓(xùn)),甚至能夠參加該部門(mén),以更好地了解該學(xué)科的文化??梢耘c有關(guān)人員舉行年度會(huì)議。實(shí)際上,愛(ài)荷華州立大學(xué)已經(jīng)有這樣一個(gè)共同專(zhuān)業(yè)博士課程程序。 5.2 誰(shuí)將是統(tǒng)計(jì)學(xué)博士計(jì)劃的理想申請(qǐng)人 二十年前,本科生在統(tǒng)計(jì)學(xué)專(zhuān)業(yè)學(xué)習(xí)的情況極為罕見(jiàn)。成功的博士申請(qǐng)人通常擁有數(shù)學(xué)或物理學(xué)的本科學(xué)位,或者較少的是在其他基于經(jīng)驗(yàn)的領(lǐng)域,如經(jīng)濟(jì)學(xué),如果他們有足夠的數(shù)學(xué)背景(通常達(dá)到一年的數(shù)學(xué)分析水平))。有趣的是,盡管統(tǒng)計(jì)學(xué)逐漸成為越來(lái)越受歡迎的本科專(zhuān)業(yè),但這種結(jié)構(gòu)似乎變化很小。與科學(xué)的其他學(xué)科相比,顯然不愿意錄取主修統(tǒng)計(jì)學(xué)的本科生進(jìn)入統(tǒng)計(jì)學(xué)博士計(jì)劃,這是不尋常和不幸的。 為了實(shí)現(xiàn)本文中概述的轉(zhuǎn)型目標(biāo),我們需要招收更多具有計(jì)算,寫(xiě)作,溝通和領(lǐng)導(dǎo)才能背景的本科生。應(yīng)鼓勵(lì)具有較強(qiáng)數(shù)學(xué)技能的本科生加入我們的課程,但他們還需要這些額外的職業(yè)成功因素才能獲得有效的博士學(xué)位。許多本科生統(tǒng)計(jì)和數(shù)據(jù)科學(xué)課程已經(jīng)調(diào)整了他們的數(shù)學(xué)要求。為打算申請(qǐng)博士課程的本科專(zhuān)業(yè)創(chuàng)建一個(gè)獨(dú)特的課程可能有助于解決這個(gè)問(wèn)題(這通常通過(guò)數(shù)學(xué)的輔修專(zhuān)業(yè)或雙專(zhuān)業(yè)進(jìn)行)。重新制定博士計(jì)劃的第一學(xué)期課程提供基于數(shù)學(xué)準(zhǔn)備的多種途徑,可能是使研究生群體多樣化的另一種方法。 擴(kuò)大統(tǒng)計(jì)范圍的一種方法是招收更多種類(lèi)的學(xué)生。上面討論的專(zhuān)用軌道類(lèi)型可能會(huì)適應(yīng)這種增加的異質(zhì)性。但是,大多數(shù)計(jì)劃仍會(huì)希望所有學(xué)生完成一些核心理論課程,這可能對(duì)數(shù)學(xué)或計(jì)算機(jī)背景較弱的學(xué)生構(gòu)成挑戰(zhàn)。我們必須找到一種方法,讓那些在核心領(lǐng)域準(zhǔn)備較少而進(jìn)入計(jì)劃的學(xué)生適應(yīng)。 5.3 提供更有效的培訓(xùn) 可以說(shuō),博士計(jì)劃在培養(yǎng)高素質(zhì)研究人員方面非常成功,但他們?cè)谂囵B(yǎng)高素質(zhì)教師以滿足對(duì)統(tǒng)計(jì)和數(shù)據(jù)科學(xué)課程日益增長(zhǎng)的需求方面通常不太成功。培訓(xùn)學(xué)生如何有效教學(xué)很少是研究生課程的一部分。然而,有效的指導(dǎo)對(duì)于培訓(xùn)下一代統(tǒng)計(jì)學(xué)家以及經(jīng)驗(yàn)豐富的各個(gè)實(shí)質(zhì)性領(lǐng)域的研究人員至關(guān)重要。提供有用的、引人入勝且相關(guān)的指導(dǎo)對(duì)于幫助經(jīng)驗(yàn)研究者理解統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)對(duì)回答科學(xué)問(wèn)題的關(guān)鍵價(jià)值至關(guān)重要。提高教學(xué)能力需要清晰的思想交流,應(yīng)該具有增加研究人員清楚地傳播其研究成果的能力的額外好處。為了滿足把統(tǒng)計(jì)轉(zhuǎn)換成以實(shí)踐為中心的需求,有效的教師需要具有解決實(shí)際數(shù)據(jù)問(wèn)題的實(shí)踐經(jīng)驗(yàn),才能在課堂上教授此類(lèi)實(shí)踐技能。即使對(duì)于大多數(shù)經(jīng)過(guò)理論訓(xùn)練的統(tǒng)計(jì)學(xué)家成為教授之后,要獲得這樣的經(jīng)驗(yàn)還為時(shí)不晚,而且實(shí)際上是必要的。 在明確培訓(xùn)博士生的溝通和演講技能(上文討論)和支持教學(xué)技能發(fā)展之間,也存在著其他協(xié)同作用。博士交流課程可以保留一些明確的教學(xué)重點(diǎn)。但是即使沒(méi)有這一點(diǎn),我們也希望溝通技巧的發(fā)展將對(duì)教學(xué)能力產(chǎn)生積極的溢出效應(yīng)。 也將歡迎在大學(xué)一級(jí)提出解決方案的創(chuàng)造性解決方案,特別是如果將示范方案的制定與材料傳播計(jì)劃結(jié)合起來(lái),以便其他機(jī)構(gòu)更容易采用這種努力;參見(jiàn)例如美國(guó)統(tǒng)計(jì)協(xié)會(huì)/美國(guó)數(shù)學(xué)協(xié)會(huì)的統(tǒng)計(jì)教師準(zhǔn)備指南 5.4 專(zhuān)業(yè)和NSF在研究生教育中的作用 專(zhuān)業(yè)和NSF在理解和指導(dǎo)這些選擇中應(yīng)該扮演什么角色?收集關(guān)于統(tǒng)計(jì)課程的主要特點(diǎn)和各大學(xué)培訓(xùn)方法的數(shù)據(jù)的激勵(lì)措施和資源將具有很高的效用。更有用的是嘗試了解這些培訓(xùn)模式與隨后的職業(yè)軌跡或其他感興趣的結(jié)果之間的聯(lián)系。這將需要額外的并且可能需要更多的勞動(dòng)密集型數(shù)據(jù)收集。此外,創(chuàng)建基礎(chǔ)設(shè)施將是至關(guān)重要的貢獻(xiàn),因?yàn)樗梢源_保這不僅是“一次性”的努力,而且可能導(dǎo)致持續(xù)進(jìn)行的自我評(píng)估的努力。 NSF可以支持講習(xí)班、訓(xùn)練營(yíng)和暑期學(xué)校課程,提供課程開(kāi)發(fā)和教學(xué)的最佳實(shí)踐培訓(xùn)。將這些類(lèi)型的培訓(xùn)機(jī)會(huì)與旨在以高級(jí)方法培訓(xùn)學(xué)生的培訓(xùn)機(jī)會(huì)結(jié)合在一起的想法提供了一種特別有創(chuàng)意和協(xié)同作用的選擇。例如,可以作為暑期學(xué)院的一部分提供培訓(xùn),該培訓(xùn)既為學(xué)生或講師提供了在方法領(lǐng)域的專(zhuān)業(yè)知識(shí),又提供了培訓(xùn)和材料以支持他們回去向所在機(jī)構(gòu)的其他人教授所學(xué)到的方法。 嚴(yán)謹(jǐn)?shù)难芯亢蛯?duì)研究生教育的不斷反思將確保我們培養(yǎng)下一代統(tǒng)計(jì)學(xué)家成為數(shù)據(jù)科學(xué)時(shí)代的領(lǐng)導(dǎo)者。鑒于統(tǒng)計(jì)領(lǐng)域的重點(diǎn)是通過(guò)對(duì)數(shù)據(jù)的分析來(lái)了解世界,讓我們感到震驚的是,我們很少?lài)L試了解自己的專(zhuān)業(yè)以及我們通過(guò)數(shù)據(jù)收集和分析有效地培訓(xùn)學(xué)生的能力。但是,這項(xiàng)活動(dòng)很少有激勵(lì)措施。我們應(yīng)該持續(xù)評(píng)估至少某些選擇的影響,而不是一味地投入有關(guān)最佳課程和最佳實(shí)踐的辯論。為了支持這種自我評(píng)估,NSF可以為下列研究創(chuàng)造資助機(jī)會(huì):考察課程的批判式選擇、資格考試、課程計(jì)劃結(jié)構(gòu)、培訓(xùn)機(jī)會(huì)、教學(xué)方法等。這些評(píng)估的范圍覆蓋從數(shù)據(jù)收集工作(職業(yè)道路、工作滿意度等)到關(guān)于應(yīng)屆畢業(yè)生感到缺少的技能的定性研究、關(guān)于當(dāng)前培訓(xùn)實(shí)踐狀況的描述性研究,或比較不同培訓(xùn)策略有效性的隨機(jī)實(shí)驗(yàn)。 參考文獻(xiàn)
統(tǒng)計(jì)之都:專(zhuān)業(yè)、人本、正直的中國(guó)統(tǒng)計(jì)學(xué)社區(qū)。 |
|