日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

合成數(shù)據(jù):前世今生

 long16 2024-03-20 發(fā)布于河南

導(dǎo)語

Sora橫空出世,又一次引爆了科技圈。我們在探尋文生視頻大模型的又一次出圈背后,除了算力、算法的不斷演進(jìn)迭代外,數(shù)據(jù)依然是繞不開的話題。據(jù)分析,OpenAI在訓(xùn)練過程使用了部分由游戲引擎生成的合成視頻作為訓(xùn)練集。當(dāng)然,合成數(shù)據(jù)并不只用于文生視頻大模型上,在大語言模型上也早有應(yīng)用。伴隨著大模型不斷發(fā)展,合成數(shù)據(jù)有望成為未來各類模型訓(xùn)練的關(guān)鍵數(shù)據(jù),加速推動(dòng)大模型在多領(lǐng)域、多產(chǎn)業(yè)落地應(yīng)用。

本系列推送將分為三篇,嘗試回答合成數(shù)據(jù)的一些關(guān)鍵問題。在上篇《合成數(shù)據(jù):前世今生》,我們會(huì)重點(diǎn)關(guān)注為什么要用到合成數(shù)據(jù)?合成數(shù)據(jù)是什么?在中篇《合成數(shù)據(jù):大模型訓(xùn)練和應(yīng)用的新方案》,將討論合成數(shù)據(jù)如何作用于大模型訓(xùn)練?合成數(shù)據(jù)能否替代真實(shí)數(shù)據(jù)?合成數(shù)據(jù)在大模型和推薦系統(tǒng)中如何應(yīng)用?在下篇《合成數(shù)據(jù):治理之智》,我們會(huì)基于合成數(shù)據(jù)的價(jià)值和風(fēng)險(xiǎn),討論合成數(shù)據(jù)可及性和安全性問題,并給出合成數(shù)據(jù)治理的相關(guān)政策建議。

一、合成數(shù)據(jù)帶來的思考

在生成式人工智能技術(shù)不斷發(fā)展的趨勢下,訓(xùn)練數(shù)據(jù)來源是人們最關(guān)心的問題之一。在已經(jīng)使用的訓(xùn)練語料中,有用于語言大模型訓(xùn)練的文本數(shù)據(jù),包括網(wǎng)頁信息、書籍、科研論文、知識百科、專業(yè)問答、代碼、以及領(lǐng)域知識,也有用于多模態(tài)模型的圖片、視頻、音頻等媒體數(shù)據(jù)。根據(jù)Epoch AI的估算,書籍、科研論文等高質(zhì)量語言數(shù)據(jù)集可能會(huì)在2024年前耗盡。人們正在積極探索新數(shù)據(jù)源,以緩解訓(xùn)練語料可能面臨不足的問題。一種思路是將未數(shù)字化的知識數(shù)字化,如在最新發(fā)布的Claude 3中,提到了將大量未數(shù)字化的書籍和資料做OCR生成,成為模型可讀取的訓(xùn)練語料。還可利用機(jī)器感知數(shù)據(jù),比如將無人車、無人機(jī)、其他智能硬件設(shè)備等生成的大量物理世界數(shù)據(jù)用于訓(xùn)練。另一種思路是利用模型或算法,批量生成新數(shù)據(jù),比如合成數(shù)據(jù),然后利用它們訓(xùn)練模型。

近期,合成數(shù)據(jù)在大模型訓(xùn)練和應(yīng)用的話題引起了廣泛關(guān)注。一方面,高質(zhì)量的合成數(shù)據(jù)可以作為真實(shí)數(shù)據(jù)的補(bǔ)充和替代,模擬現(xiàn)實(shí)世界的復(fù)雜性和多樣性,被視為擴(kuò)展模型學(xué)習(xí)范圍與能力的重要手段。另一方面,合成數(shù)據(jù)的生成過程可能存在偏差或噪聲,導(dǎo)致其質(zhì)量和真實(shí)性無法完全模擬客觀世界。由此引出一系列值得深入討論的問題:對于合成數(shù)據(jù)的價(jià)值,它能否拓展大模型能力的邊界?又是否能替代真實(shí)數(shù)據(jù),緩解優(yōu)質(zhì)數(shù)據(jù)供給不足的問題?此外,合成數(shù)據(jù)能否通過對現(xiàn)有數(shù)據(jù)的深加工,將之前不能被用于訓(xùn)練的數(shù)據(jù)轉(zhuǎn)化為可用,提升模型對數(shù)據(jù)利用的可能性?而對于合成數(shù)據(jù)的風(fēng)險(xiǎn),人們也會(huì)擔(dān)憂是否會(huì)出現(xiàn)“大模型自己產(chǎn)生數(shù)據(jù)進(jìn)行自我訓(xùn)練”的循環(huán),導(dǎo)致初始偏差被不斷放大,最終使模型失控?這種新數(shù)據(jù)源還會(huì)帶來哪些新風(fēng)險(xiǎn)?

合成數(shù)據(jù):前世今生

二、什么是合成數(shù)據(jù)?

合成數(shù)據(jù)(Synthetic Data)是通過算法和數(shù)學(xué)模型創(chuàng)建的。首先建模真實(shí)數(shù)據(jù)的分布,然后在該分布上進(jìn)行采樣,創(chuàng)建出新數(shù)據(jù)集,模擬真實(shí)數(shù)據(jù)中的統(tǒng)計(jì)模式和關(guān)系。合成數(shù)據(jù)類似于數(shù)據(jù)的“替身演員”,發(fā)揮補(bǔ)充或替代真實(shí)數(shù)據(jù)的作用。在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,合成數(shù)據(jù)可以為模型提供訓(xùn)練材料,幫助它們學(xué)習(xí)、理解和預(yù)測。

與合成數(shù)據(jù)相關(guān)性較高的另一種技術(shù)是數(shù)據(jù)增強(qiáng)(Data Augmentation)。兩者目的都是為了提高模型的性能和泛化能力,但它們在實(shí)現(xiàn)這一目標(biāo)時(shí)采取了不同的方法。合成數(shù)據(jù)涉及到創(chuàng)建全新的數(shù)據(jù)點(diǎn),是從頭開始生產(chǎn)的;而數(shù)據(jù)增強(qiáng)則是在已有數(shù)據(jù)的基礎(chǔ)上進(jìn)行修改以產(chǎn)生新的變體。在NLP領(lǐng)域,合成數(shù)據(jù)可以通過使用生成式模型基于現(xiàn)有數(shù)據(jù)生成新句子來創(chuàng)建;如當(dāng)現(xiàn)實(shí)世界的數(shù)據(jù)有限或不平衡時(shí),可以使用合成數(shù)據(jù)來訓(xùn)練模型進(jìn)行文本分類。而NLP中的數(shù)據(jù)增強(qiáng)技術(shù)包括同義詞替換、隨機(jī)刪除、隨機(jī)插入和文本換行等。

這兩種方法也不是解決數(shù)據(jù)問題的萬能藥。如果生成過程設(shè)計(jì)不當(dāng),合成數(shù)據(jù)也可能缺乏保真度,對客觀世界的模擬出現(xiàn)偏差。而數(shù)據(jù)增強(qiáng)通常會(huì)受限于原始訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。

三、為什么需要用到合成數(shù)據(jù)?

什么情況下會(huì)用到合成數(shù)據(jù)?本質(zhì)原因是真實(shí)世界中獲取數(shù)據(jù)遇到困難。一是真實(shí)世界中難以觀測,如罕見病或極端天氣等。利用合成數(shù)據(jù)可以設(shè)計(jì)比真實(shí)數(shù)據(jù)集更廣泛的情況,對Corner Case進(jìn)行模擬,提升訓(xùn)練數(shù)據(jù)集的全面性和多樣性,確保在處理邊緣案例時(shí)也有良好性能,提升模型泛化能力。二是真實(shí)世界中數(shù)據(jù)獲取的成本高,如大模型對齊訓(xùn)練中需要人類大量的高質(zhì)量反饋。利用合成數(shù)據(jù)可以實(shí)現(xiàn)對齊流程自動(dòng)化,幾乎不需人類標(biāo)注,大幅節(jié)省成本,提高獲取效率。三是數(shù)據(jù)獲取和處理涉及到真實(shí)世界中的個(gè)信甚至敏感信息,特別是醫(yī)療健康和金融領(lǐng)域。合成數(shù)據(jù)可以利用差分隱私對個(gè)體信息“加噪聲”等方法,模擬真實(shí)數(shù)據(jù)集的分布,而不模擬其中的真實(shí)個(gè)人信息,實(shí)現(xiàn)對個(gè)信去標(biāo)識化。由此歸納出,合成數(shù)據(jù)具有全面性和多樣性、經(jīng)濟(jì)高效、有利于隱私保護(hù)等優(yōu)點(diǎn)。

四、合成數(shù)據(jù)的生成方法及分類

根據(jù)是否基于實(shí)際數(shù)據(jù)集生成,合成數(shù)據(jù)生成方法主要分為兩大類。第一種是基于真實(shí)數(shù)據(jù)集構(gòu)建的:人們會(huì)建立模型以捕獲真實(shí)數(shù)據(jù)的分布特性和結(jié)構(gòu)特征,刻畫數(shù)據(jù)中的多變量關(guān)系和相互作用。然后從該模型中抽樣或生成合成數(shù)據(jù)。如果模型能很好地代表真實(shí)數(shù)據(jù),那么合成數(shù)據(jù)將具有與真實(shí)數(shù)據(jù)相似的統(tǒng)計(jì)特性。以ChatGPT為例,它深入研究了人類寫的數(shù)十億例文本,分析了詞語之間的關(guān)系,并構(gòu)建了一個(gè)模型來理解它們是如何組合在一起的。在生成文本時(shí),每一個(gè)單詞的選擇也都取決于它前一個(gè)單詞出現(xiàn)的統(tǒng)計(jì)概率。第二種生成方法并不來源于真實(shí)數(shù)據(jù),而是通過使用現(xiàn)有模型或者人類專業(yè)背景知識來創(chuàng)建。現(xiàn)有的模型可以是某個(gè)過程的統(tǒng)計(jì)模型,也可以是模擬模型(Simulation)。模擬可以通過游戲引擎等方法創(chuàng)建,如最近火爆的Sora文生視頻模型,里面用到了由游戲引擎(Unity、Unreal Engine 5等)合成的視頻數(shù)據(jù)作為訓(xùn)練集,以提高生成質(zhì)量。

根據(jù)用于訓(xùn)練的AI類型,可以將合成數(shù)據(jù)分為應(yīng)用于生成式AI和判別式AI訓(xùn)練兩類。應(yīng)用于生成式AI訓(xùn)練的通常有媒體合成數(shù)據(jù),即由模型和算法合成的視頻、圖像或聲音。文本合成數(shù)據(jù),即 在自然語言處理中由模型生成的文本。而判別式AI訓(xùn)練(分類或回歸)所需的通常是表格合成數(shù)據(jù),類似真實(shí)生活中數(shù)據(jù)記錄或表格的合成數(shù)據(jù)。

合成數(shù)據(jù):前世今生

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多