一、概率論基礎
不確定性產(chǎn)生的三種來源: (1)建模系統(tǒng)存在隨機性 (2)不完全觀測: 確定的系統(tǒng),但是觀測值不完全,因為有些值時不可能完全觀測到的。 (3)不完全建模:可以理解建模時候,舍棄的部分值導致了模型預測時出現(xiàn)的不確定性
隨機變量可以使離散的和連續(xù)的。例如: 離散隨機變量:觀測天氣狀態(tài)x, x可以是(多云、晴天,雷暴天氣)定量數(shù)據(jù) 連續(xù)隨機變量:統(tǒng)計抽煙人群年齡x, x可以是 [15, 65] 區(qū)間的任一值
(1)離散型隨機變量 + 概率質(zhì)量函數(shù) 離散型隨機變量的概率分布使用概率質(zhì)量函數(shù)(PMF)來表示,用字母P來表示,則有P(x) 函數(shù)P是x的概率質(zhì)量函數(shù)必須滿足以下條件: A、P定義域是x的所有可能狀態(tài): 如x的可能狀態(tài)為(x1,x2,x3),恰好 (x1,x2,x3)是P的整個定義域 B、任意x,有 0 ≤ P(x)≤ 1 : P(x) = 0, 表示不會發(fā)生;P(x) = 1表示一定發(fā)生。P的值域必須處于[0,1] 之間 C、x的所有狀態(tài)的概率和為1 (歸一化). P(X=x1) +P(X=x1) + ... + P(X=xn) = 1 (2)連續(xù)型隨機變量 + 概率密度函數(shù) 連續(xù)型隨機變量用概率密度函數(shù)(PDF)表示, 用p(小寫)表示 函數(shù)p是x的 概率密度函數(shù)必須滿足以下條件: A、P定義域是x的所有可能狀態(tài) B、任意x, p(x) ≥0。 (不要求 p(x) ≤ 1) C、 假設x落在區(qū)間[a,b]上, 可以通過對概率密度函數(shù)求導得到概率真實值: (3)聯(lián)合概率分布:概率質(zhì)量函數(shù)可以同時作用于多個隨機變量的, 如P(X=x, Y=y)表示x和y同時發(fā)生的概率
邊緣概率是針對于聯(lián)合概率分布,用于了解一個子集的概率分布,其計算方式就是針對某個隨機變量求導,如下: 計算聯(lián)合概率分布P(X=x, Y=y) :
對任意x, 都有: 相當于對于
條件概率在統(tǒng)計學里這樣描述的,在事件B發(fā)生的條件下,事件A發(fā)生的概率,表示為 P( B | A)。 統(tǒng)計學中的表示方法: P(A | B) = P(A B) / P(B) = P(A U B)/ P(B), 表示 A在B條件下發(fā)生的概率= AB共同發(fā)生的概率 / B 發(fā)生的概率。 P(AB)表示A和B同時發(fā)生的概率。 ML中的表示:
獨立性:如果事件A和事件B同時發(fā)生的概率 = 事件A發(fā)生的概率 × 事件B發(fā)生的概率,那么成事件A和事件B是相互獨立的 P(AB) = P(A)P(B) 對于任意x和y,有如下式子: 條件獨立性 : 給定事件C發(fā)生概率的條件下, 事件A和事件B同時發(fā)生的概率 = 事件C條件下,A發(fā)生的概率 × 事件C條件下,B發(fā)生的概率,那么說明事件A和事件B在給定事件C下條件獨立。 P(A,B |C) = P(A|C) P(B|C)
P(a, b, c) = P(a | b, c) * P(b, c) = P(a | b, c) * P(b | c) * P(c)
已知 A在B條件下發(fā)生的概率 P(A | B), B發(fā)生的概率P(B), 求 P(B | A)發(fā)生的概率。 貝葉斯定理如下: P(B | A) = P(A | B)·P(B) / P(A)
離散型隨機變量: 連續(xù)型隨機變量:
![]()
令E(X)=μ1, E(Y)=μ2,那么x,y的協(xié)方差為: cov(X,Y)= E((X-μ1) (Y-μ2)) cov(X,Y)= E(X·Y)- μ1μ2 若| cov(X,Y)| 很大,表示變量變化大,且各自距離均值很遠。 cov(X,Y) > 0 , 兩個變量傾向于 取較大值 cov(X,Y) < 0, 一個變量較大值,一個較小值,反之亦然。
(1)伯努利分布:二值隨機變量分布,0-1分布。 P(x=0)= a, p(x=1) = 1-a (2)多項式分布: (3)高斯分布 正太分布又稱為 高斯分布 標準正態(tài)分布: μ=0, = 1的正態(tài)分布。 概率密度函數(shù), 其為一個鐘型曲線: ![]()
A、建模時,很多真實情況比較接近正態(tài)分布。中心極限定理也說明很多隨機變量的和/均值等都服從正態(tài)分布 B、相同方差的所有可能概率分布中, 正態(tài)分布有最大的不確定性。 所以正態(tài)分布是先驗知識最少的分布。噪聲較多的正態(tài)分布,其不確定性較高,如果模型能表現(xiàn)較好,那么說明模型魯棒性較高。 正態(tài)分布推廣到多維空間,就有多維正態(tài)分布 (4)指數(shù)分布和laplace分布(拉普拉斯分布): 二、信息論基礎
一個不太可能發(fā)生的是發(fā)生了,要比非??赡馨l(fā)生的事,提供更多的信息
(1)、 非??赡馨l(fā)生的事信息量少,極端情況下,確保能夠發(fā)生的事件應該無信息量 (2)、 較不可能發(fā)生的事,具有較高的信息量 (3)、 獨立事件應具有增量的信息
定義(以e為底的自然對數(shù)) : ![]() 單位:奈特(1奈特= 1/e的概率觀測到一個事件所獲取的信息量)
公式: ![]() 一個分部的香農(nóng)熵是遵循這個分布的事件所產(chǎn)生的期望信息總量 若X為連續(xù)的, 香農(nóng)熵被稱為 微分熵
![]() 當且僅當兩個分布相同時,散度為0。連續(xù)型隨機變量,“幾乎處處”是相同的分布。
![]() |
|