【新智元導(dǎo)讀】AI和機器學(xué)習(xí)的火熱讓數(shù)據(jù)科學(xué)家成為近幾年熱門職業(yè)之一。但對于試圖從事這一職業(yè)的新人來說,數(shù)學(xué)可能最大的攔路虎之一。不過本文作者認(rèn)為,當(dāng)數(shù)據(jù)科學(xué)家并不一定需要堅實的數(shù)學(xué)基礎(chǔ),并給出了9類無需數(shù)學(xué)基礎(chǔ)的數(shù)據(jù)科學(xué)任務(wù)。 在當(dāng)今世界上,數(shù)據(jù)科學(xué)和機器學(xué)習(xí)已成為最令人向往的職業(yè)方向之一,從大學(xué)生到職業(yè)生涯中期的專業(yè)人士,很多人都希望進入數(shù)據(jù)科學(xué)領(lǐng)域。但是,在追求數(shù)據(jù)科學(xué)或機器學(xué)習(xí)領(lǐng)域時想到的第一個先決條件是,要具備深入研究復(fù)雜數(shù)學(xué)問題的能力,才能走進數(shù)據(jù)科學(xué)的大門。 但是那些數(shù)學(xué)基礎(chǔ)薄弱,不具備扎實數(shù)學(xué)背景的人怎么辦?他們就沒有希望進入數(shù)據(jù)科學(xué)領(lǐng)域了嗎? 當(dāng)然不是。本文將提供踏入數(shù)據(jù)科學(xué)和機器學(xué)習(xí)世界之前,是否強制要求數(shù)學(xué)背景知識的真實情況。 為什么說數(shù)學(xué)知識是數(shù)據(jù)科學(xué)家的先決條件與大學(xué)其他專業(yè)相比,數(shù)據(jù)科學(xué)更多地是關(guān)于如何快速準(zhǔn)確地學(xué)習(xí)。通過嚴(yán)格的數(shù)學(xué)運算,快速準(zhǔn)確地掌握技術(shù),并且通常可以比大多數(shù)人更容易地學(xué)習(xí)。 數(shù)據(jù)科學(xué)家基本上都是統(tǒng)計學(xué)家,大多數(shù)人擁有研究生水平的數(shù)學(xué)和統(tǒng)計學(xué)知識。這是從事實際項目所必需的知識,對于正確使用算法和假設(shè)檢驗至關(guān)重要。 掌握邏輯回歸、決策樹、置信區(qū)間等標(biāo)準(zhǔn)數(shù)學(xué)工具也很重要。大多數(shù)企業(yè)都會使用這些標(biāo)準(zhǔn)工具。因此,招聘人員也傾向于尋找具備扎實數(shù)學(xué)背景的求職者,這主要是出于歷史原因。 堅持使用標(biāo)準(zhǔn)的數(shù)學(xué)訓(xùn)練和標(biāo)準(zhǔn)工具,對有興趣成為硬核數(shù)據(jù)科學(xué)家的人是非常有用的。 數(shù)據(jù)科學(xué)家需要掌握哪些知識呢?一位優(yōu)秀的數(shù)據(jù)科學(xué)家或工程師必須具備豐富的數(shù)據(jù)庫知識和工程實踐知識。包括處理和記錄錯誤、監(jiān)控系統(tǒng),構(gòu)建人為錯誤容錯渠道,了解擴展項目所需的條件、處理持續(xù)整合問題、掌握數(shù)據(jù)庫管理知識,維護數(shù)據(jù)清理以及確保確定性處理流程等。 凡事有例外,高中數(shù)學(xué)水平的人也有機會 實際上,在機器學(xué)習(xí)的所有方面的技術(shù)中,數(shù)據(jù)科學(xué)背后的統(tǒng)計引擎并不涉及高中以后的任何數(shù)學(xué)或統(tǒng)計理論。 如果具備強大的數(shù)據(jù)和編程背景,任何人都可以非常快速地學(xué)習(xí)數(shù)據(jù)科學(xué)。 不過,由硬核數(shù)學(xué)導(dǎo)向的數(shù)據(jù)科學(xué)家開發(fā)的一些技術(shù)并不使用數(shù)學(xué)或統(tǒng)計學(xué),這些技術(shù)同樣有效,其中一些技術(shù)已經(jīng)被證明不輸于使用數(shù)學(xué)的同類技術(shù),而且性能通常更加強大。此外,這些技術(shù)更易于理解,并且可解釋性更強。 數(shù)據(jù)科學(xué)家的實際工作有多少和數(shù)學(xué)有關(guān)打破神話,揭示現(xiàn)實。 從入門級數(shù)據(jù)科學(xué)家到中級數(shù)據(jù)科學(xué)家,一般花在數(shù)學(xué)上的時間不到5%,機器學(xué)習(xí)也是如此,尤其是建立模型時,很少有時間做任何數(shù)學(xué)上的工作。對于機器學(xué)習(xí),需要學(xué)習(xí)的真正的必要技能是數(shù)據(jù)分析,以便建立能夠進行準(zhǔn)確預(yù)測的模型。初學(xué)者其實不需過多掌握微積分和線性代數(shù)。 只有參與學(xué)術(shù)上的機器學(xué)習(xí)研究或者少數(shù)先進的數(shù)據(jù)科學(xué)家團隊時,數(shù)學(xué)的作用才顯得特別重要。高水平的業(yè)內(nèi)人士也經(jīng)常使用高等數(shù)學(xué)。一些人正在拓展機器學(xué)習(xí)研究人員的研究邊界。 像谷歌和Facebook這樣的公司中,人們只會在工作中經(jīng)常使用微積分、線性代數(shù)和更高級的數(shù)學(xué)工具。 最重要的是,在產(chǎn)業(yè)界中,數(shù)據(jù)科學(xué)家只是沒有將太多時間花在數(shù)學(xué)上,但花了大量時間來獲取數(shù)據(jù)、清理數(shù)據(jù)、探索數(shù)據(jù)。實際上,80%的人所做的是數(shù)據(jù)整理和數(shù)據(jù)的可視化。 9類無需數(shù)學(xué)技術(shù)的數(shù)據(jù)科學(xué)任務(wù)1、使用基本的Excel進行高級機器學(xué)習(xí):此方法是一種輕量級的技術(shù)實現(xiàn),包括非常簡單易懂的基本Excel實現(xiàn)。目前可用于Python、Perl,Julia和R。未來預(yù)計還將支持SQL實現(xiàn)。 2、使用HDT進行自動化的機器學(xué)習(xí):此方法融合了名為“決策樹”和“回歸”的兩種傳統(tǒng)技術(shù)。但是這種實現(xiàn)不涉及任何節(jié)點分割或任何傳統(tǒng)的回歸模型,回歸部分是與數(shù)學(xué)無關(guān)的Jack-knife回歸。早期版本使用邏輯回歸,但由于數(shù)據(jù)轉(zhuǎn)換過程比較簡單,使用的參數(shù)較少,導(dǎo)致邏輯回歸被Jack-knife回歸所取代。 3、無模型置信區(qū)間:需要對隨機變量和概率分布有基本的了解才能知道置信區(qū)間的概念。這類置信區(qū)間方法基于百分位數(shù),非常易于理解,無需數(shù)學(xué)知識且可靠性高,可用于預(yù)測分析 4、假設(shè)檢驗:這是學(xué)生在統(tǒng)計課程中的難題之一。這里已被置信區(qū)間的簡單變體所取代,便于直觀理解。 5、使用Excel的Jack-knife回歸:這些回歸技術(shù)非常簡單高效,可以在Excel或SQL中輕松實現(xiàn)。 6、Jack-knife回歸:理論 – 無須統(tǒng)計理論的回歸,甚至不涉及線性代數(shù)。不過帶有置信區(qū)間。在該方法中,即使使用少量元參數(shù),與經(jīng)典回歸相比,也能實現(xiàn)最低限度的精度損失。該方法在存在異常值、高度相關(guān)的特征或其他違反假設(shè)的情況下性能良好,這些假設(shè)條件在使用傳統(tǒng)回歸時必須通過一個數(shù)據(jù)集滿足 7、索引,編目和NLP:無需數(shù)學(xué)知識的監(jiān)督聚類方法。 8、快速組合特征選擇:這種方法通常需要理解隨機變量的概念。 9、方差,聚類和密度估計:這些方法中也不大涉及數(shù)學(xué)。 要成為高效的數(shù)據(jù)科學(xué)家,還是要懂點數(shù)學(xué)其實,這里的關(guān)鍵點是,對于初出茅廬的數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)從業(yè)者來說,數(shù)據(jù)專業(yè)知識的重要性要優(yōu)于數(shù)學(xué)專業(yè)知識,因此,如果你的目標(biāo)是獲得一份工作,進入數(shù)據(jù)科學(xué)領(lǐng)域,那么最重要的任務(wù)是必須掌握數(shù)據(jù)分析,而不是掌握微積分。數(shù)據(jù)科學(xué)家要做的不是做證明題或研究數(shù)學(xué)問題,能夠分析數(shù)據(jù)才是最重要的。 初學(xué)者需要盡快掌握如何收集數(shù)據(jù)、探索和準(zhǔn)備數(shù)據(jù)。全面掌握數(shù)據(jù)可視化和數(shù)據(jù)處理(包括聚合)是關(guān)鍵環(huán)節(jié),這樣才可以同時使用它們來執(zhí)行探索性數(shù)據(jù)分析任務(wù)。 盡管這些無需數(shù)學(xué)知識的工具和方法,確實凸顯了在不具備堅實數(shù)學(xué)基礎(chǔ)的情況下從事數(shù)據(jù)科學(xué)的可能性,但并一定能夠滿足行業(yè)的期望,因為能否獲得數(shù)據(jù)科學(xué)家的職位,完全取決于你從事的工作內(nèi)容,以及你心儀的公司究竟從事什么業(yè)務(wù)。 在不具備數(shù)學(xué)背景知識的情況下,確實有可能成為一名數(shù)據(jù)科學(xué)家。但按以往經(jīng)驗來看,如果沒有一定程度的數(shù)學(xué)素養(yǎng),從長期而言,很難成為一個高效的數(shù)據(jù)科學(xué)家,而高效這一點無疑是更為重要的。 |
|