【新智元導(dǎo)讀】本文盤點了數(shù)據(jù)科學(xué)和機器學(xué)習(xí)面試中的常見問題,著眼于不同類型的面試問題。如果您計劃向數(shù)據(jù)科學(xué)領(lǐng)域轉(zhuǎn)行,這些問題一定會有所幫助。本文約5000字,閱讀大約需要10分鐘。技術(shù)的不斷進(jìn)步使得數(shù)據(jù)和信息的產(chǎn)生速度今非昔比,并且呈現(xiàn)出繼續(xù)增長的趨勢。此外,目前對解釋、分析和使用這些數(shù)據(jù)的技術(shù)人員需求也很高,這在未來幾年內(nèi)會呈指數(shù)增長。這些新角色涵蓋了從戰(zhàn)略、運營到管理的所有方面。因此,當(dāng)前和未來的需求將需要更多的數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師、數(shù)據(jù)戰(zhàn)略家和首席數(shù)據(jù)官這樣類似的角色。 本文將著眼于不同類型的面試問題。如果您計劃向數(shù)據(jù)科學(xué)領(lǐng)域轉(zhuǎn)行,這些問題一定會有所幫助。 統(tǒng)計學(xué)及數(shù)據(jù)科學(xué)面試題答案 在統(tǒng)計學(xué)研究中,統(tǒng)計學(xué)中最常見的三個“平均值”是均值,中位數(shù)和眾數(shù):
標(biāo)準(zhǔn)差(Sigma):標(biāo)準(zhǔn)差用于衡量數(shù)據(jù)在統(tǒng)計數(shù)據(jù)中的離散程度。 回歸:回歸是統(tǒng)計建模中的一種分析方法。這是衡量變量間關(guān)系的統(tǒng)計過程;它決定了一個變量和一系列其他自變量之間關(guān)系的強度。 線性回歸:是預(yù)測分析中使用的統(tǒng)計技術(shù)之一,該技術(shù)將確定自變量對因變量的影響強度。 統(tǒng)計學(xué)的兩個主要分支:
相關(guān)性:相關(guān)性被認(rèn)為是測量和估計兩個變量間定量關(guān)系的最佳技術(shù)。相關(guān)性可以衡量兩個變量相關(guān)程度的強弱。 協(xié)方差:協(xié)方差對應(yīng)的兩個變量一同變化,它用于度量兩個隨機變量在周期中的變化程度。這是一個統(tǒng)計術(shù)語;它解釋了一對隨機變量之間的關(guān)系,其中一個變量的變化時,另一個變量如何變化。 協(xié)方差和相關(guān)性是兩個數(shù)學(xué)概念;這兩種方法在統(tǒng)計學(xué)中被廣泛使用。相關(guān)性和協(xié)方差都可以構(gòu)建關(guān)系,并且還可測量兩個隨機變量之間的依賴關(guān)系。雖然這兩者在數(shù)學(xué)上有相似之處,但它們含義并不同。 結(jié)合數(shù)據(jù)分析,統(tǒng)計可以用于分析數(shù)據(jù),并幫助企業(yè)做出正確的決策。預(yù)測性“分析”和“統(tǒng)計”對于分析當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)以預(yù)測未來事件非常有用。 統(tǒng)計數(shù)據(jù)可用于許多研究領(lǐng)域。以下列舉了統(tǒng)計的應(yīng)用領(lǐng)域:
在統(tǒng)計研究中,通過結(jié)構(gòu)化和統(tǒng)一處理,樣本是從統(tǒng)計總體中收集或處理的一組或部分?jǐn)?shù)據(jù),并且樣本中的元素被稱為樣本點。 以下是4種抽樣方法:
當(dāng)我們在統(tǒng)計中進(jìn)行假設(shè)檢驗時,p值有助于我們確定結(jié)果的顯著性。這些假設(shè)檢驗僅僅是為了檢驗關(guān)于總體假設(shè)的有效性。零假設(shè)是指假設(shè)和樣本沒有顯著性差異,這種差異指抽樣或?qū)嶒灡旧碓斐傻牟町悺?/p> 數(shù)據(jù)科學(xué)是數(shù)據(jù)驅(qū)動的科學(xué),它還涉及自動化科學(xué)方法、算法、系統(tǒng)和過程的跨學(xué)科領(lǐng)域,以任何形式(結(jié)構(gòu)化或非結(jié)構(gòu)化)從數(shù)據(jù)中提取信息和知識。此外,它與數(shù)據(jù)挖掘有相似之處,它們都從數(shù)據(jù)中抽象出有用的信息。 數(shù)據(jù)科學(xué)包括數(shù)理統(tǒng)計以及計算機科學(xué)和應(yīng)用。此外,結(jié)合了統(tǒng)計學(xué)、可視化、應(yīng)用數(shù)學(xué)、計算機科學(xué)等各個領(lǐng)域,數(shù)據(jù)科學(xué)將海量數(shù)據(jù)轉(zhuǎn)化為洞見。 同樣,統(tǒng)計學(xué)是數(shù)據(jù)科學(xué)的主要組成部分之一。統(tǒng)計學(xué)是數(shù)學(xué)商業(yè)的一個分支,它包括數(shù)據(jù)的收集、分析、解釋、組織和展示。 R語言類面試題答案 R是數(shù)據(jù)分析軟件,主要的服務(wù)對象是分析師、量化分析人員、統(tǒng)計學(xué)家、數(shù)據(jù)科學(xué)家等。 R提供的函數(shù)是:
在R控制臺中輸入命令(“Rcmdr”)將啟動R Commander GUI。 使用R commander導(dǎo)入R中的數(shù)據(jù),有三種方法可以輸入數(shù)據(jù)。
在R中,在程序的任何地方,你必須在#sign前面加上代碼行,例如:
要在R中保存數(shù)據(jù),有很多方法,但最簡單的方法是: Data > Active Data Set > Export Active dataset,將出現(xiàn)一個對話框,當(dāng)單擊確定時,對話框?qū)⒏鶕?jù)常用的方式保存數(shù)據(jù)。 你可以通過cor函數(shù)返回相關(guān)系數(shù),cov函數(shù)返回協(xié)方差。 在R中,t.test函數(shù)用于進(jìn)行各種t檢驗。 t檢驗是統(tǒng)計學(xué)中最常見的檢驗,用于確定兩組的均值是否相等。
R 有如下這些數(shù)據(jù)結(jié)構(gòu):
通用的形式是: Mymatrix< - matrix (vector, nrow=r, ncol=c , byrow=FALSE, dimnames = list ( char_vector_ rowname, char_vector_colnames) 在R中,缺失值由NA(Not Available)表示,不可能的值由符號NaN(not a number)表示。 為了重新整理數(shù)據(jù),R提供了各種方法,轉(zhuǎn)置是重塑數(shù)據(jù)集的最簡單的方法。為了轉(zhuǎn)置矩陣或數(shù)據(jù)框,可以使用t函數(shù)。 通過一個或多個BY變量,使得折疊R中的數(shù)據(jù)變得容易。使用aggregate函數(shù)時,BY變量應(yīng)該在列表中。 機器學(xué)習(xí)類面試題答案 機器學(xué)習(xí)是人工智能的一種應(yīng)用,它為系統(tǒng)提供了自動學(xué)習(xí)和改進(jìn)經(jīng)驗的能力,而無需明確的編程。此外,機器學(xué)習(xí)側(cè)重于開發(fā)可以訪問數(shù)據(jù)并自主學(xué)習(xí)的程序。 在很多領(lǐng)域,機器人正在取代人類。這是因為編程使得機器人可以基于從傳感器收集的數(shù)據(jù)來執(zhí)行任務(wù)。他們從數(shù)據(jù)中學(xué)習(xí)并智能地運作。 機器學(xué)習(xí)中不同類型的算法技術(shù)如下:
監(jiān)督學(xué)習(xí)是一個需要標(biāo)記訓(xùn)練集數(shù)據(jù)的過程,而無監(jiān)督學(xué)習(xí)則不需要數(shù)據(jù)標(biāo)記。 無監(jiān)督學(xué)習(xí)包括如下:
監(jiān)督學(xué)習(xí)包括如下:
樸素貝葉斯的優(yōu)點:
樸素貝葉斯的缺點是:
樸素貝葉斯是如此的不成熟,因為它假設(shè)數(shù)據(jù)集中所有特征同等重要且獨立。 過擬合:統(tǒng)計模型側(cè)重于隨機誤差或噪聲而不是探索關(guān)系,或模型過于復(fù)雜。 回答: 過擬合的一個重要原因和可能性是用于訓(xùn)練模型的標(biāo)準(zhǔn)與用于判斷模型功效的標(biāo)準(zhǔn)不同。
參數(shù)模型是指參數(shù)有限且用于預(yù)測新數(shù)據(jù)的模型,你只需知道模型的參數(shù)即可。 非參數(shù)模型是指參數(shù)數(shù)量無限的模型,允許更大的靈活性且用于預(yù)測新數(shù)據(jù),你需要了解模型的參數(shù)并熟悉已收集的觀測數(shù)據(jù)。 在機器學(xué)習(xí)中構(gòu)建假設(shè)或模型的三個階段是:
歸納邏輯編程(ILP):是機器學(xué)習(xí)的一個子領(lǐng)域,它使用代表背景知識和案例的邏輯程序。 分類和回歸之間的區(qū)別如下:
歸納機器學(xué)習(xí)和演繹機器學(xué)習(xí)的區(qū)別:機器學(xué)習(xí)模型通過從一組觀察實例中學(xué)習(xí),得出一個廣義結(jié)論;演繹學(xué)習(xí)要基于一些已知結(jié)論,得出結(jié)果。 決策樹的優(yōu)點是:
機器學(xué)習(xí)領(lǐng)域?qū)W⒂谏钍艽竽X啟發(fā)的深度人工神經(jīng)網(wǎng)絡(luò)。Alexey Grigorevich Ivakhnenko將深度學(xué)習(xí)網(wǎng)絡(luò)帶入大眾視野。如今它已應(yīng)用于各種領(lǐng)域,如計算機視覺、語音識別和自然語言處理。 有研究表明,淺網(wǎng)和深網(wǎng)都可以適應(yīng)任何功能,但由于深度網(wǎng)絡(luò)有幾個不同類型的隱藏層,因此相比于參數(shù)更少的淺模型,它們能夠構(gòu)建或提取更好的特征。 代價函數(shù):神經(jīng)網(wǎng)絡(luò)對于給定訓(xùn)練樣本和預(yù)期輸出的準(zhǔn)確度的度量。它是一個值,而非向量,因為它支撐了整個神經(jīng)網(wǎng)絡(luò)的性能。它可以計算如下平均誤差函數(shù): 其中和期望值Y是我們想要最小化的。梯度下降:一種基本的優(yōu)化算法,用于學(xué)習(xí)最小化代價函數(shù)的參數(shù)值。此外,它是一種迭代算法,它在最陡下降的方向上移動,由梯度的負(fù)值定義。我們計算給定參數(shù)的成本函數(shù)的梯度下降,并通過以下公式更新參數(shù): 其中是參數(shù)向量,α 是學(xué)習(xí)率,J()是成本函數(shù)。反向傳播:一種用于多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法。在此方法中,我們將誤差從網(wǎng)絡(luò)末端移動到網(wǎng)絡(luò)內(nèi)的所有權(quán)重,從而進(jìn)行梯度的高效計算。它包括以下幾個步驟:
隨機梯度下降:我們僅使用單個訓(xùn)練樣本來計算梯度和更新參數(shù)。 批量梯度下降:我們計算整個數(shù)據(jù)集的梯度,并在每次迭代時進(jìn)行更新。 小批量梯度下降:它是最流行的優(yōu)化算法之一。它是隨機梯度下降的變體,但不是單個訓(xùn)練示例,使用小批量樣本。 小批量梯度下降的好處
在反向傳播期間要使用數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)規(guī)范化背后的主要動機是減少或消除數(shù)據(jù)冗余。在這里,我們重新調(diào)整值以適應(yīng)特定范圍,以實現(xiàn)更好的收斂。 權(quán)重初始化:非常重要的步驟之一。糟糕的權(quán)重初始化可能會阻止網(wǎng)絡(luò)學(xué)習(xí),但良好的權(quán)重初始化有助于更快的收斂和整體誤差優(yōu)化。偏差通常可以初始化為零。設(shè)置權(quán)重的規(guī)則應(yīng)接近于零,而不是太小。 自編碼:一種使用反向傳播原理的自主機器學(xué)習(xí)算法,其中目標(biāo)值設(shè)置為等于所提供的輸入。在內(nèi)部有一個隱藏層,用于描述用于表示輸入的代碼。自編碼的一些重要特征:
玻爾茲曼機(Boltzmann Machine):一種問題解決方案的優(yōu)化方法。玻爾茲曼機的工作基本是為了優(yōu)化給定問題的權(quán)重和數(shù)量。關(guān)于玻爾茲曼機的一些要點如下:
激活函數(shù):一種將非線性引入神經(jīng)網(wǎng)絡(luò)的方法,它有助于學(xué)習(xí)更復(fù)雜的函數(shù)。沒有它,神經(jīng)網(wǎng)絡(luò)只能學(xué)習(xí)線性函數(shù)。線性函數(shù)是輸入數(shù)據(jù)的線性組合。 參考鏈接: 本文經(jīng)授權(quán)轉(zhuǎn)載自數(shù)據(jù)派,ID: datapi。 新智元春季招聘開啟,一起弄潮AI之巔! 【2019新智元 AI 技術(shù)峰會倒計時8天】 2019年的3月27日,新智元再匯AI之力,在北京泰富酒店舉辦AI開年盛典——2019新智元AI技術(shù)峰會。峰會以“智能云·芯世界“為主題,聚焦智能云和AI芯片的發(fā)展,重塑未來AI世界格局。 同時,新智元將在峰會現(xiàn)場權(quán)威發(fā)布若干AI白皮書,聚焦產(chǎn)業(yè)鏈的創(chuàng)新活躍,評述華人AI學(xué)者的影響力,助力中國在世界級的AI競爭中實現(xiàn)超越。 |
|