日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

 東西二王 2019-09-06

新手必須要知道,在數(shù)據(jù)科學(xué)的世界里,如果數(shù)據(jù)科學(xué)家是魔法師,那統(tǒng)計學(xué)就是他們的魔杖。

總的來說,統(tǒng)計,就是利用數(shù)學(xué)對數(shù)據(jù)進(jìn)行技術(shù)性分析。當(dāng)然,像條形圖這樣的簡單可視化圖像也能給你提供一些高等級的信息,但利用統(tǒng)計學(xué),我們將能以一種更有針對性,更”信息驅(qū)動“的方式來處理數(shù)據(jù)。這其中涉及的數(shù)學(xué)知識能幫助我們形成關(guān)于數(shù)據(jù)的具體結(jié)論,而不僅僅是猜測。

使用統(tǒng)計數(shù)據(jù),我們可以獲得更深入、更細(xì)微的洞察能力,可以了解我們的數(shù)據(jù)是如何構(gòu)建的。在了解結(jié)構(gòu)的基礎(chǔ)上,我們將能發(fā)現(xiàn)應(yīng)用其他數(shù)據(jù)科學(xué)技術(shù)的最佳方式,并以此獲取更多信息。

今天,我們將一起了解數(shù)據(jù)科學(xué)家必學(xué)必會的5個基本統(tǒng)計概念,以及如何最有效地應(yīng)用它們!

統(tǒng)計特征

統(tǒng)計特征可能是數(shù)據(jù)科學(xué)中最常用的統(tǒng)計概念之一。它通常是你在探索數(shù)據(jù)集時使用的第一種統(tǒng)計技術(shù)。常見的統(tǒng)計特征包括偏差、方差、均值、中位數(shù)、百分位數(shù)等等。它們其實非常容易理解,也很容易在代碼中實現(xiàn)!

讓我們看看下面這個圖吧:

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念


一個簡單的箱形圖

中間的這條橫線是數(shù)據(jù)的中位數(shù)。相對于平均數(shù),中位數(shù)在數(shù)據(jù)中有異常值的時候能更加忠實地反應(yīng)數(shù)據(jù)的特征。下四分位數(shù)基本上是數(shù)據(jù)的 25% 點,也就是數(shù)據(jù)中 25% 的點低于該值。上四分位數(shù)是數(shù)據(jù)的 75% 點,也就是數(shù)據(jù)中 75% 的點低于該值。最小值和最大值表示數(shù)據(jù)范圍的上端和下端。

箱形圖能很好地表現(xiàn)出基本統(tǒng)計特征的用途:

  • 如果箱形圖很短,就意味著你的大部分?jǐn)?shù)據(jù)點都很相似,因為很多數(shù)據(jù)都集中在很小的范圍內(nèi)

  • 如果箱形圖很長,就意味著你的大部分?jǐn)?shù)據(jù)點都差異很大,因為這些值分布在很寬的范圍內(nèi)

  • 如果中位數(shù)接近底部,那么我們就能知道大多數(shù)數(shù)據(jù)具有較低的值。如果中位數(shù)接近頂部,那么我們就能知道大多數(shù)數(shù)據(jù)具有更高的值?;旧?,如果中位數(shù)不在框的中間,則表明數(shù)據(jù)存在偏斜。

  • 圖中方框上下的“胡須”會不會很長?這意味著數(shù)據(jù)具有較高的標(biāo)準(zhǔn)差和方差,也就是說數(shù)值分散且變化很大。如果方框的一側(cè)有“胡須”,而另一側(cè)沒有,那么數(shù)據(jù)可能只在一個方向上變化很大。

上面這些信息,都來自這幾個易于計算的簡單統(tǒng)計特征!如果你需要對數(shù)據(jù)進(jìn)行快速又翔實的分析,請務(wù)必先試著分析一下統(tǒng)計特征。

概率分布

我們可以將概率定義為某個事件發(fā)生的幾率。在數(shù)據(jù)科學(xué)中,這個幾率通常被量化成在 0 到 1 之間的數(shù)字。其中 0 表示我們確定它不會發(fā)生,1 表示我們確定它肯定發(fā)生。那么,概率分布就是表示實驗中所有可能值的概率的函數(shù)。 讓我們看看下面這三張圖:

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

常見概率分布:均勻分布(上)、正態(tài)分布(中)、泊松分布(下)

  • 均勻分布是上面 3 張圖中最簡單的。它有一個值,而且只出現(xiàn)在一定范圍內(nèi),超出該范圍的都是 0。這是一種“開關(guān)”分布——每個點要么有數(shù)據(jù),要么是0。我們還可以將其視為只有 0 和某個數(shù)值的分類變量。同樣,如果某個分類變量具有除 0 以外的多個值,我們也可以將其視為多個均勻分布組成的分段函數(shù)。

  • 正態(tài)分布,通常也稱為高斯分布,是由其平均值和標(biāo)準(zhǔn)差定義的。平均值改變分布的空間高度,而標(biāo)準(zhǔn)差控制分布的擴(kuò)散程度。 與其他分布(例如泊松分布)的重要區(qū)別在于,正態(tài)分布的標(biāo)準(zhǔn)差在所有方向上是相同的。 因此,利用高斯分布,我們能了解到數(shù)據(jù)的平均水平,以及數(shù)據(jù)的散布范圍——比如它是分散在較大范圍里,還是高度集中在幾個值附近。

  • 泊松分布類似于正態(tài)分布,但具有附加的偏斜量。 當(dāng)偏斜量很低的時候,泊松分布將在所有方向上都具有相對均勻的擴(kuò)展,就像正態(tài)分布一樣。但是當(dāng)偏斜量較大時,數(shù)據(jù)在不同方向上的分散程度會有所不同——在一個方向上它將非常分散,而在另一個方向上它將高度集中。

除此之外,還有更多不同的概率分布值得你深入研究,但目前這 3 個分布模式已經(jīng)很有用啦。比如,我們可以使用平均分布模型來快速查看并解釋分類變量。如果看到數(shù)據(jù)呈高斯分布,那么我們就應(yīng)該選擇那些特別適用于高斯分布的算法來處理它們。而對泊松分布,我們就必須特別小心地選擇算法,以便在空間分布不均勻的時候也能可靠地處理數(shù)據(jù)。

降維技術(shù)

降維這個詞應(yīng)該不難理解,大家應(yīng)該都聽過“降維打擊”吧?沒錯,就是拍扁(誤。

舉例來說,對一個很復(fù)雜的數(shù)據(jù)集,我們希望減少它的維度。在數(shù)據(jù)科學(xué)中,這主要是特征變量的數(shù)量。以下圖為例:

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念


一個降維的示意圖

上面這個立方體代表了一個 3 維的數(shù)據(jù)集,里面大約有 1000 個特征點。當(dāng)然,以現(xiàn)在的計算能力,分析 1000 個點基本上是小菜一碟,但對于更大尺度上的數(shù)據(jù)集,還是可能碰到一些問題的。然而,如果我們從 2 維角度來分析其中的數(shù)據(jù)——就像只從立方體的某個面看進(jìn)去——我們就能從這個角度很輕易地區(qū)分各種不同顏色的數(shù)據(jù)點。在降維技術(shù)的幫助下,我們就像是把 3 維的數(shù)據(jù)集投影到一個 2 維平面上,再進(jìn)行操作。這能相當(dāng)有效地減少需要計算的特征點的數(shù)量——現(xiàn)在只剩 100 個啦!

另外一種降維的思路,是特征修剪。在進(jìn)行特征修剪的時候,我們希望能去除那些對分析結(jié)果無關(guān)的特征。舉例來說,假如在探索數(shù)據(jù)的時候,我們發(fā)現(xiàn)有 10 個特征,其中 7 個與輸出有很高的相關(guān)性,另外 3 個的相關(guān)性很低。那么,這 3 個低相關(guān)的特征或許并不值得我們分析,可能可以直接從分析中去掉,而不影響最后的輸出。

在降維操作中,最常見的統(tǒng)計技術(shù)是 PCA(Principal Component Analysis,主成分分析)。它實際上是通過創(chuàng)建各種特征的矢量,標(biāo)明它們對輸出結(jié)果的重要性,即它們的相關(guān)性。PCA 在上面討論的兩種降維方式中都發(fā)揮著重要的作用。 在這里你能看到更多關(guān)于 PCA 的詳細(xì)介紹。

過采樣和欠采樣

過采樣(Over Sampling)和欠采樣(Under Sampling)是用于分類問題的統(tǒng)計技術(shù)。有時,我們的分類數(shù)據(jù)集可能會太過偏向其中的一側(cè)。例如,我們在第1類中有2000個樣本,但在第2類中只有200個。這將嚴(yán)重影響我們嘗試用于建模和預(yù)測的許多機(jī)器學(xué)習(xí)技術(shù)!因此,我們可以使用過采樣和欠采樣技術(shù)來解決這個問題。請看下面的示意圖:

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念


欠采樣(左)和過采樣(右)

在上面的兩張圖中,藍(lán)色的樣本數(shù)量都大大超過了橙色。在這種情況下,我們可以通過兩種預(yù)處理方法對樣本進(jìn)行處理,以構(gòu)建機(jī)器學(xué)習(xí)所需的模型。

欠采樣意味著對于量多的一類,我們只抽取其中的一部分?jǐn)?shù)據(jù),組成一個和量少的那類相當(dāng)?shù)臄?shù)據(jù)集。如果你需要保持樣本概率分布的一致性,那你就該選擇這種采樣方式。是不是很簡單?這樣兩類樣本的數(shù)量就平衡了!

過采樣就剛好相反,我們將總量較少的那類樣本復(fù)制多次,以便該類樣本的總數(shù)和多的那類一致。在復(fù)制的過程中,應(yīng)當(dāng)保證不改變這類樣本的分布情況。這樣,我們在沒有引入額外數(shù)據(jù)的情況下,使兩類樣本的數(shù)量平衡了!

貝葉斯統(tǒng)計學(xué)

要想完全理解我們?yōu)槭裁词褂秘惾~斯統(tǒng)計學(xué),首先就得了解頻率統(tǒng)計的問題在哪里。頻率統(tǒng)計是大多數(shù)人在聽到“概率”一詞時所考慮的統(tǒng)計數(shù)據(jù)類型。它涉及到應(yīng)用數(shù)學(xué)來分析某些事件發(fā)生的概率,具體而言,我們計算的唯一數(shù)據(jù)是先驗數(shù)據(jù)。

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

拿骰子做例子吧。假設(shè)我給了你一個骰子,并問你扔出6的幾率有多大,我想大多數(shù)人都會直接說出是六分之一。事實上,如果我們要按頻率統(tǒng)計的方法進(jìn)行分析,就得真的統(tǒng)計 10000 次擲骰的結(jié)果,并計算每個數(shù)字的頻率——最后結(jié)果差不多在 1/6 上下!

但如果有人告訴你,給你的這個特定的骰子其實灌了鉛,保證每次都會投出 6,那又會如何呢?既然頻率統(tǒng)計只考慮先驗數(shù)據(jù),那么這條關(guān)于骰子的信息并不會被納入統(tǒng)計結(jié)果中。

而貝葉斯統(tǒng)計會將這些證據(jù)納入統(tǒng)計計算中。看看貝葉斯定理公式吧:

數(shù)據(jù)分析師入門:數(shù)據(jù)科學(xué)家必學(xué)必會的 5 個基本統(tǒng)計概念

在上面這個公式中,P(H) 的概率就是頻率統(tǒng)計分析的結(jié)果,按照先驗數(shù)據(jù)統(tǒng)計得出事件 H 發(fā)生的概率;而 P(E|H) 被稱為`似然性`,也就是這個證據(jù)正確與否的概率,也是根據(jù)頻率分析提供的信息得來的。

在上面灌鉛骰子的例子中,假設(shè)你想要投 10000 次骰子,然后投出的前 1000 個值都是 6——那么你應(yīng)該不可能不覺得這個骰子有問題吧。

最后,P(E) 則是這個證據(jù)本身出現(xiàn)的概率。如果我告訴你骰子是灌鉛的,你能在多大程度上相信我,還是你會覺得這只是一個陷阱呢?

如果我們的頻率統(tǒng)計沒有問題,那么統(tǒng)計結(jié)果就會支持“每骰必 6”的猜測。而于此同時,我們又將灌鉛骰子這個證據(jù)納入考量,這個證據(jù)的正確與否都基于它本身的頻率統(tǒng)計先驗數(shù)據(jù)。

從方程的結(jié)構(gòu),我們可以看出,貝葉斯統(tǒng)計將上述的一切可能性都考慮在內(nèi)了。所以,如果你認(rèn)為先前的數(shù)據(jù)不能很好地代表未來的數(shù)據(jù)和結(jié)果,請考慮使用貝葉斯統(tǒng)計方法。

怎么樣,今天提到的 5 個統(tǒng)計學(xué)概念,大家都了解了嗎?

最后,我想用一個我最喜歡的數(shù)據(jù)科學(xué)笑話結(jié)尾,希望大家喜歡:

“世界上有兩種類型的數(shù)據(jù)科學(xué)家:一是可以從不完整的數(shù)據(jù)中推斷出結(jié)果的人?!?/p>

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多