日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Machine Learning 之 概率論、信息論基礎

 鵬天閣隱龍齋主 2019-09-03

一、概率論基礎

  1. ML中的概率論基礎概念

  •   概率: 概率再機器學習中是處理不確定性。
             不確定性產(chǎn)生的三種來源:
            (1)建模系統(tǒng)存在隨機性
            (2)不完全觀測: 確定的系統(tǒng),但是觀測值不完全,因為有些值時不可能完全觀測到的。
            (3)不完全建模:可以理解建模時候,舍棄的部分值導致了模型預測時出現(xiàn)的不確定性
  • 隨機變量:隨機抽取不同值的變量,例如隨機變量X, 其含有不同值x1,x2,..., xn
            隨機變量可以使離散的和連續(xù)的。例如:
                 離散隨機變量:觀測天氣狀態(tài)x, x可以是(多云、晴天,雷暴天氣)定量數(shù)據(jù)
                 連續(xù)隨機變量:統(tǒng)計抽煙人群年齡x, x可以是 [15, 65] 區(qū)間的任一值
  1. 概率分布

        (1)離散型隨機變量 + 概率質(zhì)量函數(shù)
            離散型隨機變量的概率分布使用概率質(zhì)量函數(shù)(PMF)來表示,用字母P來表示,則有P(x)
    函數(shù)P是x的概率質(zhì)量函數(shù)必須滿足以下條件:
              A、P定義域是x的所有可能狀態(tài):  如x的可能狀態(tài)為(x1,x2,x3),恰好 (x1,x2,x3)是P的整個定義域
              B、任意x,有   0 ≤ P(x)≤ 1   :  P(x) = 0, 表示不會發(fā)生;P(x) = 1表示一定發(fā)生。P的值域必須處于[0,1] 之間
              C、x的所有狀態(tài)的概率和為1 (歸一化).  P(X=x1) +P(X=x1) + ... + P(X=xn)  = 1
                    
        (2)連續(xù)型隨機變量 + 概率密度函數(shù)
           連續(xù)型隨機變量用概率密度函數(shù)(PDF)表示, 用p(小寫)表示
   函數(shù)p是x的 概率密度函數(shù)必須滿足以下條件:
              A、P定義域是x的所有可能狀態(tài)
              B、任意x, p(x) ≥0。 (不要求 p(x)  ≤ 1)
              C、  
                    假設x落在區(qū)間[a,b]上, 可以通過對概率密度函數(shù)求導得到概率真實值:
                
       (3)聯(lián)合概率分布:概率質(zhì)量函數(shù)可以同時作用于多個隨機變量的, 如P(X=x, Y=y)表示x和y同時發(fā)生的概率
  1. 邊緣概率

            邊緣概率是針對于聯(lián)合概率分布,用于了解一個子集的概率分布,其計算方式就是針對某個隨機變量求導,如下:
                計算聯(lián)合概率分布P(X=x, Y=y) :
  • 離散型隨機變量:
              對任意x, 都有:
                
                相當于對于
  • 連續(xù)型隨機變量
                      

 

  1. 條件概率

            條件概率在統(tǒng)計學里這樣描述的,在事件B發(fā)生的條件下,事件A發(fā)生的概率,表示為 P( B | A)。
               統(tǒng)計學中的表示方法:
                    P(A | B) = P(A B) / P(B) = P(A U B)/ P(B),  表示 A在B條件下發(fā)生的概率=  AB共同發(fā)生的概率 / B 發(fā)生的概率。 P(AB)表示A和B同時發(fā)生的概率。
                ML中的表示:
            
  •  獨立性和條件獨立性:
          獨立性:如果事件A和事件B同時發(fā)生的概率 = 事件A發(fā)生的概率 × 事件B發(fā)生的概率,那么成事件A和事件B是相互獨立的
                P(AB) = P(A)P(B)
                對于任意x和y,有如下式子:
                        
            條件獨立性 :  給定事件C發(fā)生概率的條件下, 事件A和事件B同時發(fā)生的概率 = 事件C條件下,A發(fā)生的概率 × 事件C條件下,B發(fā)生的概率,那么說明事件A和事件B在給定事件C下條件獨立。
                P(A,B |C) = P(A|C) P(B|C)
                        
  • 鏈式法則:任何多維隨機變量的聯(lián)合概率分布,可以分解為只有一個變量的條件概率相乘的形式。
                P(a, b, c) = P(a | b, c) * P(b, c)
                      = P(a | b, c) * P(b | c) * P(c)
  1. 貝葉斯定理(樸素貝葉斯算法那有介紹)

          已知 A在B條件下發(fā)生的概率 P(A | B), B發(fā)生的概率P(B), 求 P(B | A)發(fā)生的概率。
          貝葉斯定理如下:
                  P(B | A) =  P(A | B)·P(B) / P(A) 
  1. 期望、方差和協(xié)方差

  •  期望:f(x)x由P產(chǎn)生,f作用于x時, f(x)的平均值。
            離散型隨機變量:
                        
            連續(xù)型隨機變量:
                     
  • 方差:衡量隨機變量的離散程度。方差= 隨機變量與平均值的差的平方和的期望
         
  • 標準差: 方差的平方根
  • 協(xié)方差:表示兩個隨機變量的關系。衡量兩個變量線性相關的強度和這些變量的尺度
            令E(X)=μ1, E(Y)=μ2,那么x,y的協(xié)方差為:
                    cov(X,Y)= E((X-μ1) (Y-μ2))
                    cov(X,Y)= E(X·Y)- μ1μ2
           若| cov(X,Y)| 很大,表示變量變化大,且各自距離均值很遠。
            cov(X,Y) > 0 ,  兩個變量傾向于 取較大值
            cov(X,Y) < 0,   一個變量較大值,一個較小值,反之亦然。
  1. ML常用概率分布

            (1)伯努利分布:二值隨機變量分布,0-1分布。
                        P(x=0)= a,  p(x=1) = 1-a
            (2)多項式分布:
            (3)高斯分布
                    正太分布又稱為 高斯分布
                    標準正態(tài)分布:  μ=0, = 1的正態(tài)分布。
                    概率密度函數(shù), 其為一個鐘型曲線:
                    
      • 高斯分布的優(yōu)點:
                                A、建模時,很多真實情況比較接近正態(tài)分布。中心極限定理也說明很多隨機變量的和/均值等都服從正態(tài)分布
                                B、相同方差的所有可能概率分布中, 正態(tài)分布有最大的不確定性。 所以正態(tài)分布是先驗知識最少的分布。噪聲較多的正態(tài)分布,其不確定性較高,如果模型能表現(xiàn)較好,那么說明模型魯棒性較高。
                    正態(tài)分布推廣到多維空間,就有多維正態(tài)分布
            (4)指數(shù)分布和laplace分布(拉普拉斯分布):
                     詳情請見: https://blog.csdn.net/bqw18744018044/article/details/81192706

二、信息論基礎

  1. 信息論基本想法:

                一個不太可能發(fā)生的是發(fā)生了,要比非??赡馨l(fā)生的事,提供更多的信息
  1. 基本性質(zhì)

            (1)、 非??赡馨l(fā)生的事信息量少,極端情況下,確保能夠發(fā)生的事件應該無信息量
            (2)、 較不可能發(fā)生的事,具有較高的信息量
            (3)、 獨立事件應具有增量的信息
  1. 定義與部分概念

  • 自信息(處理單個輸出): 
            定義(以e為底的自然對數(shù)) :
                                
            單位:奈特(1奈特= 1/e的概率觀測到一個事件所獲取的信息量)
  • 香農(nóng)/比特(bit):對整個概率分布的不確定性的量化度量。
            公式:
            
                一個分部的香農(nóng)熵是遵循這個分布的事件所產(chǎn)生的期望信息總量
                若X為連續(xù)的, 香農(nóng)熵被稱為   微分熵
  • KL散度:隨機變量x有兩個單獨的概率分布P(x)和Q(x), 用KL散度來衡量兩個分布的差異
        
        當且僅當兩個分布相同時,散度為0。連續(xù)型隨機變量,“幾乎處處”是相同的分布。
  • 交叉熵:
                

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多