來(lái)自:機(jī)器之心
從訓(xùn)練與推理效率來(lái)看,清華和微軟亞研提出的 Fastformer 無(wú)愧于「fast」。 在過(guò)去的幾年里,Transformer 及其變體在很多領(lǐng)域取得了巨大成功,但由于其復(fù)雜度與序列長(zhǎng)度的二次方成正比,它的計(jì)算效率并不高。雖然之前已經(jīng)有很多研究致力于 Transformer 的加速,但在遇到長(zhǎng)序列時(shí),這些方法要么低效,要么無(wú)效。在這篇論文中,來(lái)自清華大學(xué)、微軟亞洲研究院的研究者提出了一種基于加性注意力的 Transformer 變體——Fastformer,它能以線性復(fù)雜度實(shí)現(xiàn)有效的上下文建模。 論文鏈接:https:///pdf/2108.09084.pdf在這個(gè)模型中,研究者首先使用加性注意力機(jī)制對(duì)全局上下文進(jìn)行建模,然后根據(jù)每個(gè) token 表示與全局上下文表示的交互進(jìn)一步轉(zhuǎn)換這些 token 表示。通過(guò)這種方式,F(xiàn)astformer 能夠以線性復(fù)雜度實(shí)現(xiàn)高效的上下文建模。為了檢驗(yàn) Fastformer 的效果,研究者在五個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了多個(gè)任務(wù)的實(shí)驗(yàn),包括情感分類、話題預(yù)測(cè)、新聞推薦和文本摘要。實(shí)驗(yàn)結(jié)果表明,F(xiàn)astformer 比很多 Transformer 模型都要高效,在長(zhǎng)文本建模中取得了非常有競(jìng)爭(zhēng)力的結(jié)果。論文公布之后,Youtube 知名深度學(xué)習(xí)頻道 Yannic Kilcher 對(duì)該文章進(jìn)行了解讀。視頻來(lái)源:https://www./watch?v=qgUegkefocg Fastformer 的整體架構(gòu)如下圖所示。 在該模型中,研究者首先使用加性注意力機(jī)制將輸入注意力查詢矩陣歸納為一個(gè)全局查詢向量,然后通過(guò)逐元素積建模注意力鍵和全局查詢向量之間的交互,以學(xué)習(xí)全局上下文感知的鍵矩陣,并通過(guò)加性注意力將其歸納為一個(gè)全局鍵向量。接下來(lái),他們使用逐元素積來(lái)聚合全局鍵和注意力值,再通過(guò)線性變換來(lái)處理它們,以計(jì)算全局上下文感知的注意力值。最后,他們將原始的注意查詢和全局上下文感知的注意值相加,形成最終輸出。具體細(xì)節(jié)如下。Fastformer 模型首先將輸入嵌入矩陣轉(zhuǎn)換為查詢、鍵和值序列。輸入矩陣記為 E ∈ R^(N×d),其中 N 為序列長(zhǎng)度,d 為隱藏維度。其從屬向量表示為 [e_1, e_2, ..., e_N ]。遵循標(biāo)準(zhǔn) Transformer,每個(gè)注意力頭使用 3 個(gè)獨(dú)立的線性變換層將輸入轉(zhuǎn)換為注意力查詢、鍵和值矩陣 Q, K, V∈R^(d×d),即 Q = [q_1, q_2,…],K = [k_1, k_2,…, k_N] 和 V = [v_1, v_2,…, v_N]。基于注意力查詢、鍵和值之間的交互對(duì)輸入序列的上下文信息進(jìn)行建模是類似 Transformer 架構(gòu)的關(guān)鍵問(wèn)題。在 vanilla Transformer 中,點(diǎn)積注意力機(jī)制用于對(duì)查詢和鍵之間的交互進(jìn)行全面建模。不幸的是,它的二次復(fù)雜性使得它在長(zhǎng)序列建模中效率低下。降低計(jì)算復(fù)雜度的一個(gè)潛在方法是在對(duì)注意力矩陣(如查詢)進(jìn)行交互建模之前對(duì)其進(jìn)行總結(jié)。加性注意力是注意力機(jī)制的一種形式,它可以在線性復(fù)雜度的序列中有效地總結(jié)重要信息。因此,該研究首先使用加性注意力將查詢矩陣總結(jié)為一個(gè)全局查詢向量 q∈R^(d×d),該向量壓縮了注意力查詢中的全局上下文信息。具體來(lái)說(shuō),第 i 個(gè)查詢向量的注意力權(quán)重α_i 計(jì)算如下: 其中,w_q∈R^d 為可學(xué)習(xí)的參數(shù)向量,全局注意力查詢向量的計(jì)算如下: Fastformer 的一個(gè)核心問(wèn)題是如何對(duì)總結(jié)的全局查詢向量與鍵矩陣進(jìn)行交互建模。有幾個(gè)直觀的選項(xiàng),例如將全局查詢添加或連接到鍵矩陣中的每個(gè)向量。然而,這樣不能區(qū)別全局查詢對(duì)不同鍵的影響,這不利于理解上下文。逐元素積是對(duì)兩個(gè)向量之間的非線性關(guān)系建模的有效操作。因此,該研究使用全局查詢向量和每個(gè)鍵向量之間的逐元素積來(lái)建模它們的交互,并將它們組合成一個(gè)全局上下文感知的鍵矩陣。矩陣中的第 i 個(gè)向量表示為 p_i,公式表示為 p_i = q?k_i。同樣的,考慮到效率原因,該研究使用加性注意機(jī)制來(lái)總結(jié)全局上下文感知鍵矩陣。其中第 i 個(gè)向量的加性注意力權(quán)值計(jì)算如下: 其中 w_k∈r^d 為注意力參數(shù)向量。全局鍵向量 k ∈ R^d 計(jì)算如下: 最后,該研究建立了注意力值矩陣與全局鍵向量之間的交互模型,以更好地進(jìn)行上下文建模。與查詢 - 鍵交互建模類似,該研究還將全局鍵和每個(gè)值向量之間的元素進(jìn)行乘積,以計(jì)算鍵 - 值交互向量 u_i,其表達(dá)式為 u_i = k?v_i。受 vanilla Transformer 影響,該研究還將線性變換層用于每個(gè)鍵 - 值交互向量,來(lái)學(xué)習(xí)其隱藏表示。這一層的輸出矩陣記為 R = [r_1, r_2, ..., r_N ] ∈ R^(N×d)。這個(gè)矩陣與查詢矩陣進(jìn)一步相加,形成 Fastformer 的最終輸出。在 Fastformer 中,每個(gè)鍵和值向量都可以與全局查詢或鍵向量交互以學(xué)習(xí)上下文表示。通過(guò)疊加多個(gè) Fastformer 層,可以完全建模上下文信息。受 (Wang et al., 2020b)研究中使用權(quán)值共享技術(shù)的啟發(fā),該研究通過(guò)共享值和查詢轉(zhuǎn)換參數(shù)以降低內(nèi)存成本。此外,該研究還在不同的 Fastformer 層之間共享參數(shù),以進(jìn)一步減小參數(shù)大小并降低模型過(guò)度擬合的風(fēng)險(xiǎn)。研究者在五個(gè)基準(zhǔn)數(shù)據(jù)集上針對(duì)不同任務(wù)進(jìn)行了大量實(shí)驗(yàn),這五個(gè)數(shù)據(jù)集是 Amazon、IMDB、MIND、CNN/DailyMail 和 PubMed。下表 1 為情感與新聞主題分類數(shù)據(jù)集 Amazon、IMDB 和 MIND。 下表 3 為文本摘要數(shù)據(jù)集 CNN/DailyMail 和 PubMed。 研究者在 Amazon、IMDB 和 MIND 三個(gè)分類數(shù)據(jù)集上,對(duì) Fastformer 與 Transformer、Longformer、BigBird、Linformer 以及 Linear Transformer 和 Poolingformer 等基準(zhǔn)方法的性能進(jìn)行了比較。結(jié)果如下表 4 所示,他們發(fā)現(xiàn)高效的 Transformer 變體往往優(yōu)于標(biāo)準(zhǔn)的 Transformer 模型。在長(zhǎng)文本和短文本建模任務(wù)上,F(xiàn)astformer 媲美或優(yōu)于其他高效的 Transformer 變體,其原因在于 Fastformer 可以高效地建模全局上下文以及它們與不同 token 的關(guān)系,由此有助于準(zhǔn)確地理解上下文信息。 研究者還對(duì)不同方法在新聞推薦任務(wù)上的性能進(jìn)行了比較。如下表所示,F(xiàn)astformer 在所有 Transformer 架構(gòu)中實(shí)現(xiàn) SOTA 性能,并優(yōu)于基礎(chǔ) NRMS 模型。 此外,F(xiàn)astformer 進(jìn)一步提升了 PLM-NR 的性能,兩者組合的模型在 MIND 排行榜上實(shí)現(xiàn)了最佳結(jié)果。這些結(jié)果表明,F(xiàn)astformer 不僅在文本建模方面非常高效,在理解用戶興趣方面也表現(xiàn)出色。 研究者在 CNN/DailyMail 和 PubMed 兩個(gè)文本摘要任務(wù)上比較了 Fastformer 與其他 Transformer 變體模型在自然語(yǔ)言生成中的有效性。結(jié)果如下表 6 所示,F(xiàn)astformer 在大多數(shù)指標(biāo)上都實(shí)現(xiàn)了 SOTA 性能,顯示出其在自然語(yǔ)言生成中的優(yōu)勢(shì)。 研究者評(píng)估了不同模型的效率。他們首先比較了不同模型的理論計(jì)算復(fù)雜度,如下表 7 所示,F(xiàn)astformer 在理論上是高效的。 接著,研究者度量了不同模型的真實(shí)訓(xùn)練和推理成本。結(jié)果如下圖 2 所示,F(xiàn)astformer 在訓(xùn)練和推理時(shí)間上均顯著優(yōu)于其他線性復(fù)雜度 Transformer 變體,從而驗(yàn)證了 Fastformer 的效率。 最后,研究者探究了不同參數(shù)共享方法對(duì) Fastformer 性能的影響,這些方法包括共享查詢和值變換矩陣、在不同注意力頭之間共享參數(shù)和在不同層之間共享參數(shù)。結(jié)果如下圖 4 所示,他們發(fā)現(xiàn)當(dāng)使用查詢 - 值參數(shù)共享時(shí),F(xiàn)astformer 模型的性能媲美或略優(yōu)于未使用任何參數(shù)共享方法的情況。
 個(gè)人主頁(yè):https://wuch15./該論文一作為武楚涵(Chuhan Wu),他是清華大學(xué)電子工程系博士研究生。武楚涵主要研究方向包括推薦系統(tǒng)、用戶建模和社交媒體挖掘。他在人工智能、自然語(yǔ)言處理和數(shù)據(jù)挖掘領(lǐng)域相關(guān)會(huì)議和期刊上發(fā)表了多篇論文。僅 2021 年,他就發(fā)表了 7 篇頂會(huì)接收論文。
|