本附錄總結(jié)了本書(shū)中涉及的有關(guān)線(xiàn)性代數(shù)、微分和概率的基礎(chǔ)知識(shí)。為避免贅述本書(shū)未涉及的數(shù)學(xué)背景知識(shí),本節(jié)中的少數(shù)定義稍有簡(jiǎn)化。 A.1 線(xiàn)性代數(shù) 下面分別概括了向量、矩陣、運(yùn)算、范數(shù)、特征向量和特征值的概念。 A.1.1 向量 本書(shū)中的向量指的是列向量。一個(gè)n維向量x的表達(dá)式可寫(xiě)成 其中 是向量的元素。我們將各元素均為實(shí)數(shù)的 n 維向量 x 記作 或 。 A.1.2 矩陣 一個(gè)m行n列矩陣的表達(dá)式可寫(xiě)成 其中 是矩陣 X 中第 i 行第j列的元素( )。我們將各元素均為實(shí)數(shù)的 m 行 n列矩陣 X 記作 。不難發(fā)現(xiàn),向量是特殊的矩陣。 A.1.3 運(yùn)算 設(shè)n維向量a中的元素為 ,n維向量b中的元素為 。向量a與b的點(diǎn)乘(內(nèi)積)是一個(gè)標(biāo)量: ![]() 設(shè)兩個(gè)m行n列矩陣 ![]() 矩陣A的轉(zhuǎn)置是一個(gè)n行m列矩陣,它的每一行其實(shí)是原矩陣的每一列: ![]() 兩個(gè)相同形狀的矩陣的加法是將兩個(gè)矩陣按元素做加法: ![]() 我們使用符號(hào) ![]() 表示兩個(gè)矩陣按元素乘法的運(yùn)算,即阿達(dá)馬積(Hadamard product): ![]() 定義一個(gè)標(biāo)量k。標(biāo)量與矩陣的乘法也是按元素做乘法的運(yùn)算: ![]() 其他諸如標(biāo)量與矩陣按元素相加、相除等運(yùn)算與上式中的相乘運(yùn)算類(lèi)似。矩陣按元素開(kāi)根號(hào)、取對(duì)數(shù)等運(yùn)算也就是對(duì)矩陣每個(gè)元素開(kāi)根號(hào)、取對(duì)數(shù)等,并得到和原矩陣形狀相同的矩陣。 矩陣乘法和按元素的乘法不同。設(shè)A為m行p列的矩陣,B為p行n列的矩陣。兩個(gè)矩陣相乘的結(jié)果 ![]() 是一個(gè)m行n列的矩陣,其中第i 行第j 列( ![]() )的元素為 ![]() A.1.4 范數(shù) 設(shè)n維向量x中的元素為 ![]() 。向量x的 ![]() 范數(shù)為 ![]() 例如,x的 ![]() 范數(shù)是該向量元素絕對(duì)值之和: ![]() 而x的 ![]() 范數(shù)是該向量元素平方和的平方根: ![]() 我們通常用 || x || 指代 || x ||2。 設(shè)X是一個(gè)m行n列矩陣。矩陣X的Frobenius范數(shù)為該矩陣元素平方和的平方根: ![]() 其中 ![]() 為矩陣 X 在第 i 行第 j 列的元素。 A.1.5 特征向量和特征值 對(duì)于一個(gè)n 行n 列的矩陣A,假設(shè)有標(biāo)量 λ 和非零的n維向量v使 ![]() 那么 v 是矩陣 A 的一個(gè)特征向量,標(biāo)量 λ 是 v 對(duì)應(yīng)的特征值。 A.2 微分 我們?cè)谶@里簡(jiǎn)要介紹微分的一些基本概念和演算。 B.2.1 導(dǎo)數(shù)和微分 假設(shè)函數(shù) ![]() 的輸入和輸出都是標(biāo)量。函數(shù) f 的導(dǎo)數(shù) ![]() 且假定該極限存在。給定 ![]() ,其中x和y分別是函數(shù) f 的自變量和因變量。以下有關(guān)導(dǎo)數(shù)和微分的表達(dá)式等價(jià): ![]() 其中符號(hào)D和d/dx也叫微分運(yùn)算符。常見(jiàn)的微分演算有DC = 0(C為常數(shù))、 ![]() (n為常數(shù))、 ![]() 、 ![]() 等。 如果函數(shù) f 和g都可導(dǎo),設(shè)C為常數(shù),那么 ![]() 如果 ![]() 和 ![]() 都是可導(dǎo)函數(shù),依據(jù)鏈?zhǔn)椒▌t, ![]() A.2.2 泰勒展開(kāi) 函數(shù) f 的泰勒展開(kāi)式是 ![]() 其中 ![]() 為函數(shù) f 的 n 階導(dǎo)數(shù)(求n次導(dǎo)數(shù)),n! 為 n 的階乘。假設(shè) ![]() 是一個(gè)足夠小的數(shù),如果將上式中 x 和 a 分別替換成 ![]() 和 x,可以得到 ![]() 由于 ![]() 足夠小,上式也可以簡(jiǎn)化成 ![]() A.2.3 偏導(dǎo)數(shù) 設(shè)u為一個(gè)有n個(gè)自變量的函數(shù), ![]() ,它有關(guān)第i個(gè)變量 ![]() 的偏導(dǎo)數(shù)為 ![]() 以下有關(guān)偏導(dǎo)數(shù)的表達(dá)式等價(jià): ![]() 為了計(jì)算 ![]() ,只需將 ![]() 視為常數(shù)并求u有關(guān)xi的導(dǎo)數(shù)。 A.2.4 梯度 假設(shè)函數(shù) ![]() 的輸入是一個(gè)n維向量 ![]() ,輸出是標(biāo)量。函數(shù) ![]() 有關(guān) x 的梯度是一個(gè)由n個(gè)偏導(dǎo)數(shù)組成的向量: ![]() 為表示簡(jiǎn)潔,我們有時(shí)用 ![]() 代替 ![]() 。 假設(shè)x是一個(gè)向量,常見(jiàn)的梯度演算包括 ![]() 類(lèi)似地,假設(shè)X是一個(gè)矩陣,那么 ![]() A.2.5 海森矩陣 假設(shè)函數(shù) ![]() 的輸入是一個(gè)n維向量 ![]() ,輸出是標(biāo)量。假定函數(shù) f所有的二階偏導(dǎo)數(shù)都存在,f 的海森矩陣H是一個(gè)n行n列的矩陣: ![]() 其中二階偏導(dǎo)數(shù)為 ![]() A.3 概率 最后,我們簡(jiǎn)要介紹條件概率、期望和均勻分布。 A.3.1 條件概率 假設(shè)事件A和事件B的概率分別為 ![]() 和 ![]() ,兩個(gè)事件同時(shí)發(fā)生的概率記作 ![]() 或 ![]() 。給定事件B,事件A的條件概率為 ![]() 也就是說(shuō), ![]() 當(dāng)滿(mǎn)足 ![]() 時(shí),事件 A 和事件 B 相互獨(dú)立。 A.3.2 期望 離散的隨機(jī)變量X的期望(或平均值)為 ![]() A.3.3 均勻分布 假設(shè)隨機(jī)變量X服從[a, b]上的均勻分布,即 ![]() 。隨機(jī)變量X取a和b之間任意一個(gè)數(shù)的概率相等。
![]()
本文摘自《動(dòng)手學(xué)深度學(xué)習(xí)》 動(dòng)手學(xué)深度學(xué)習(xí) 作者:阿斯頓·張(Aston Zhang), 李沐(Mu Li), [美] 扎卡里·C. 立頓(Zachary C. Lipton), [德] 亞歷山大·J. 斯莫拉(Alexander J. Smola) ![]()
目前市面上有關(guān)深度學(xué)習(xí)介紹的書(shū)籍大多可分兩類(lèi),一類(lèi)側(cè)重方法介紹,另一類(lèi)側(cè)重實(shí)踐和深度學(xué)習(xí)工具的介紹。本書(shū)同時(shí)覆蓋方法和實(shí)踐。本書(shū)不僅從數(shù)學(xué)的角度闡述深度學(xué)習(xí)的技術(shù)與應(yīng)用,還包含可運(yùn)行的代碼,為讀者展示如何在實(shí)際中解決問(wèn)題。為了給讀者提供一種交互式的學(xué)習(xí)體驗(yàn),本書(shū)不但提供免費(fèi)的教學(xué)視頻和討論區(qū),而且提供可運(yùn)行的Jupyter記事本文件,充分利用Jupyter記事本能將文字、代碼、公式和圖像統(tǒng)一起來(lái)的優(yōu)勢(shì)。這樣不僅直接將數(shù)學(xué)公式對(duì)應(yīng)成實(shí)際代碼,而且可以修改代碼、觀察結(jié)果并及時(shí)獲取經(jīng)驗(yàn),從而帶給讀者全新的、交互式的深度學(xué)習(xí)的學(xué)習(xí)體驗(yàn)。 |
|
來(lái)自: wenxuefeng360 > 《數(shù)學(xué)》