新手必須要知道,在數(shù)據(jù)科學(xué)的世界里,如果數(shù)據(jù)科學(xué)家是魔法師,那統(tǒng)計學(xué)就是他們的魔杖。 總的來說,統(tǒng)計,就是利用數(shù)學(xué)對數(shù)據(jù)進(jìn)行技術(shù)性分析。當(dāng)然,像條形圖這樣的簡單可視化圖像也能給你提供一些高等級的信息,但利用統(tǒng)計學(xué),我們將能以一種更有針對性,更”信息驅(qū)動“的方式來處理數(shù)據(jù)。這其中涉及的數(shù)學(xué)知識能幫助我們形成關(guān)于數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測。 使用統(tǒng)計數(shù)據(jù),我們可以獲得更深入、更細(xì)微的洞察能力,可以了解我們的數(shù)據(jù)是如何構(gòu)建的。在了解結(jié)構(gòu)的基礎(chǔ)上,我們將能發(fā)現(xiàn)應(yīng)用其他數(shù)據(jù)科學(xué)技術(shù)的最佳方式,并以此獲取更多信息。 今天,我們將一起了解數(shù)據(jù)科學(xué)家必學(xué)必會的5個基本統(tǒng)計概念,以及如何最有效地應(yīng)用它們! 統(tǒng)計特征 統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念之一。它通常是你在探索數(shù)據(jù)集時使用的第一種統(tǒng)計技術(shù)。常見的統(tǒng)計特征包括偏差、方差、均值、中位數(shù)、百分位數(shù)等等。它們其實非常容易理解,也很容易在代碼中實現(xiàn)! 讓我們看看下面這個圖吧:
中間的這條橫線是數(shù)據(jù)的中位數(shù)。相對于平均數(shù),中位數(shù)在數(shù)據(jù)中有異常值的時候能更加忠實地反應(yīng)數(shù)據(jù)的特征。下四分位數(shù)基本上是數(shù)據(jù)的 25% 點,也就是數(shù)據(jù)中 25% 的點低于該值。上四分位數(shù)是數(shù)據(jù)的 75% 點,也就是數(shù)據(jù)中 75% 的點低于該值。最小值和最大值表示數(shù)據(jù)范圍的上端和下端。 箱形圖能很好地表現(xiàn)出基本統(tǒng)計特征的用途:
上面這些信息,都來自這幾個易于計算的簡單統(tǒng)計特征!如果你需要對數(shù)據(jù)進(jìn)行快速又翔實的分析,請務(wù)必先試著分析一下統(tǒng)計特征。 概率分布 我們可以將概率定義為某個事件發(fā)生的幾率。在數(shù)據(jù)科學(xué)中,這個幾率通常被量化成在 0 到 1 之間的數(shù)字。其中 0 表示我們確定它不會發(fā)生,1 表示我們確定它肯定發(fā)生。那么,概率分布就是表示實驗中所有可能值的概率的函數(shù)。 讓我們看看下面這三張圖: 常見概率分布:均勻分布(上)、正態(tài)分布(中)、泊松分布(下)
除此之外,還有更多不同的概率分布值得你深入研究,但目前這 3 個分布模式已經(jīng)很有用啦。比如,我們可以使用平均分布模型來快速查看并解釋分類變量。如果看到數(shù)據(jù)呈高斯分布,那么我們就應(yīng)該選擇那些特別適用于高斯分布的算法來處理它們。而對泊松分布,我們就必須特別小心地選擇算法,以便在空間分布不均勻的時候也能可靠地處理數(shù)據(jù)。 降維技術(shù) 降維這個詞應(yīng)該不難理解,大家應(yīng)該都聽過“降維打擊”吧?沒錯,就是拍扁(誤。 舉例來說,對一個很復(fù)雜的數(shù)據(jù)集,我們希望減少它的維度。在數(shù)據(jù)科學(xué)中,這主要是特征變量的數(shù)量。以下圖為例:
上面這個立方體代表了一個 3 維的數(shù)據(jù)集,里面大約有 1000 個特征點。當(dāng)然,以現(xiàn)在的計算能力,分析 1000 個點基本上是小菜一碟,但對于更大尺度上的數(shù)據(jù)集,還是可能碰到一些問題的。然而,如果我們從 2 維角度來分析其中的數(shù)據(jù)——就像只從立方體的某個面看進(jìn)去——我們就能從這個角度很輕易地區(qū)分各種不同顏色的數(shù)據(jù)點。在降維技術(shù)的幫助下,我們就像是把 3 維的數(shù)據(jù)集投影到一個 2 維平面上,再進(jìn)行操作。這能相當(dāng)有效地減少需要計算的特征點的數(shù)量——現(xiàn)在只剩 100 個啦! 另外一種降維的思路,是特征修剪。在進(jìn)行特征修剪的時候,我們希望能去除那些對分析結(jié)果無關(guān)的特征。舉例來說,假如在探索數(shù)據(jù)的時候,我們發(fā)現(xiàn)有 10 個特征,其中 7 個與輸出有很高的相關(guān)性,另外 3 個的相關(guān)性很低。那么,這 3 個低相關(guān)的特征或許并不值得我們分析,可能可以直接從分析中去掉,而不影響最后的輸出。 在降維操作中,最常見的統(tǒng)計技術(shù)是 PCA(Principal Component Analysis,主成分分析)。它實際上是通過創(chuàng)建各種特征的矢量,標(biāo)明它們對輸出結(jié)果的重要性,即它們的相關(guān)性。PCA 在上面討論的兩種降維方式中都發(fā)揮著重要的作用。 在這里你能看到更多關(guān)于 PCA 的詳細(xì)介紹。 過采樣和欠采樣 過采樣(Over Sampling)和欠采樣(Under Sampling)是用于分類問題的統(tǒng)計技術(shù)。有時,我們的分類數(shù)據(jù)集可能會太過偏向其中的一側(cè)。例如,我們在第1類中有2000個樣本,但在第2類中只有200個。這將嚴(yán)重影響我們嘗試用于建模和預(yù)測的許多機(jī)器學(xué)習(xí)技術(shù)!因此,我們可以使用過采樣和欠采樣技術(shù)來解決這個問題。請看下面的示意圖:
在上面的兩張圖中,藍(lán)色的樣本數(shù)量都大大超過了橙色。在這種情況下,我們可以通過兩種預(yù)處理方法對樣本進(jìn)行處理,以構(gòu)建機(jī)器學(xué)習(xí)所需的模型。 欠采樣意味著對于量多的一類,我們只抽取其中的一部分?jǐn)?shù)據(jù),組成一個和量少的那類相當(dāng)?shù)臄?shù)據(jù)集。如果你需要保持樣本概率分布的一致性,那你就該選擇這種采樣方式。是不是很簡單?這樣兩類樣本的數(shù)量就平衡了! 過采樣就剛好相反,我們將總量較少的那類樣本復(fù)制多次,以便該類樣本的總數(shù)和多的那類一致。在復(fù)制的過程中,應(yīng)當(dāng)保證不改變這類樣本的分布情況。這樣,我們在沒有引入額外數(shù)據(jù)的情況下,使兩類樣本的數(shù)量平衡了! 貝葉斯統(tǒng)計學(xué) 要想完全理解我們?yōu)槭裁词褂秘惾~斯統(tǒng)計學(xué),首先就得了解頻率統(tǒng)計的問題在哪里。頻率統(tǒng)計是大多數(shù)人在聽到“概率”一詞時所考慮的統(tǒng)計數(shù)據(jù)類型。它涉及到應(yīng)用數(shù)學(xué)來分析某些事件發(fā)生的概率,具體而言,我們計算的唯一數(shù)據(jù)是先驗數(shù)據(jù)。 拿骰子做例子吧。假設(shè)我給了你一個骰子,并問你扔出6的幾率有多大,我想大多數(shù)人都會直接說出是六分之一。事實上,如果我們要按頻率統(tǒng)計的方法進(jìn)行分析,就得真的統(tǒng)計 10000 次擲骰的結(jié)果,并計算每個數(shù)字的頻率——最后結(jié)果差不多在 1/6 上下! 但如果有人告訴你,給你的這個特定的骰子其實灌了鉛,保證每次都會投出 6,那又會如何呢?既然頻率統(tǒng)計只考慮先驗數(shù)據(jù),那么這條關(guān)于骰子的信息并不會被納入統(tǒng)計結(jié)果中。 而貝葉斯統(tǒng)計會將這些證據(jù)納入統(tǒng)計計算中。看看貝葉斯定理公式吧: 在上面這個公式中,P(H) 的概率就是頻率統(tǒng)計分析的結(jié)果,按照先驗數(shù)據(jù)統(tǒng)計得出事件 H 發(fā)生的概率;而 P(E|H) 被稱為`似然性`,也就是這個證據(jù)正確與否的概率,也是根據(jù)頻率分析提供的信息得來的。 在上面灌鉛骰子的例子中,假設(shè)你想要投 10000 次骰子,然后投出的前 1000 個值都是 6——那么你應(yīng)該不可能不覺得這個骰子有問題吧。 最后,P(E) 則是這個證據(jù)本身出現(xiàn)的概率。如果我告訴你骰子是灌鉛的,你能在多大程度上相信我,還是你會覺得這只是一個陷阱呢? 如果我們的頻率統(tǒng)計沒有問題,那么統(tǒng)計結(jié)果就會支持“每骰必 6”的猜測。而于此同時,我們又將灌鉛骰子這個證據(jù)納入考量,這個證據(jù)的正確與否都基于它本身的頻率統(tǒng)計先驗數(shù)據(jù)。 從方程的結(jié)構(gòu),我們可以看出,貝葉斯統(tǒng)計將上述的一切可能性都考慮在內(nèi)了。所以,如果你認(rèn)為先前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果,請考慮使用貝葉斯統(tǒng)計方法。 怎么樣,今天提到的 5 個統(tǒng)計學(xué)概念,大家都了解了嗎? 最后,我想用一個我最喜歡的數(shù)據(jù)科學(xué)笑話結(jié)尾,希望大家喜歡: “世界上有兩種類型的數(shù)據(jù)科學(xué)家:一是可以從不完整的數(shù)據(jù)中推斷出結(jié)果的人?!?/p> |
|