日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

告別數據集資源匱乏,谷歌與斯坦福大學用弱監(jiān)督學習給訓練集打標簽

 黃爸爸好 2019-03-24

數據集就是機器學習行業(yè)的石油,強大的模型需要含有大量樣本的數據集作為基礎。而標記訓練集中的數據樣本是開發(fā)機器學習應用的最大瓶頸之一。

最近,谷歌與斯坦福大學、布朗大學一起,研究如何快速標記大型數據集,將整個組織的資源用作分類任務的弱監(jiān)督資源,使機器學習的開發(fā)時間和成本降低一個數量級。

谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時間內對數百萬個樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應各種組織知識資源,生成Web規(guī)模機器學習模型的訓練數據。

Snorkel是由斯坦福大學在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓練數據集,該項目已經在GitHub上開源。而Snorkel Drybell的目標是在工業(yè)規(guī)模上部署弱監(jiān)督學習。

而且用這種方法開發(fā)的分類器質量與手工標記樣本進行訓練的分類器效果相當,把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學在2016年為許多弱監(jiān)督學習開發(fā)的一個通用框架,由這種方法生成的標簽可用于訓練任意模型。

已經有人將Snorkel用于處理圖像數據、自然語言監(jiān)督、處理半結構化數據、自動生成訓練集等具體用途。

原理

與手工標注訓練數據不同,Snorkel DryBell支持編寫標記函數,以編程方式標記訓練數據。

過去的方法中,標記函數只是以編程方式標記數據的腳本,它產生的標簽是帶有噪聲的。

為了解決噪聲等問題,Supert Drybell使用生成建模技術,以一種可證明一致的方式自動估計標記函數的準確性和相關性,而無需任何基本事實作為訓練標簽。然后用這種方法對每個數據點的輸出進行重新加權,并組合成一個概率標簽。

使用多種知識來源作為弱監(jiān)督

Snorkel Drybell先用多種知識來源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標記函數,每個標記函數都接受一個數據點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。

這一步生成的標簽帶有大量噪聲,甚至相互沖突,還行需要進一步的清洗才能用到最終的訓練集中。

結合和重新利用現有資源對準確度建模

為了處理這些噪聲標簽,Snorkel DryBell將標記函數的輸出組合成對每個數據點的訓練標簽置信度加權。這一步的難點在于,必須在沒有任何真實標簽的情況下完成。

研究人員使用生成建模技術,僅使用未標記的數據來學習每個標記函數的準確性。通過標簽函數輸出之間的一致性矩陣來學習打標簽是否準確。

在Snorkel DryBell中,研究人員還實現了建模方法一種更快、無采樣的版本,并在TensorFlow中實現,以處理Web規(guī)模的數據。

通過在Snorkel DryBell中使用此程序組合和建模標簽函數的輸出,能夠生成高質量的訓練標簽。與兩個分別有1.2萬和8萬個手工標記訓練數據集比較,由Snorkel DryBell標記的數據集訓練出的模型實現了一樣的預測準確度。

將不可服務的知識遷移到可服務的模型

在許多情況下,可服務特征(可用于生產)和不可服務特征(太慢或太貴而無法用于生產)之間也有重要區(qū)別。這些不可服務的特征可能具有非常豐富的信號,但是有個問題是如何使用它們來訓練,或者是幫助能在生產中部署的可服務模型呢?

在Snorkel DryBell中,用戶發(fā)現可以在一個不可服務的特征集上編寫標簽函數,然后使用Snorkel DryBell輸出的訓練標簽來訓練在不同的、可服務的特征集上定義的模型。

這種跨特征轉移將基準數據集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學習,但不是在不同的數據集之間轉移模型,而是在不同的特征集之間轉移領域知識。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價、實時特征上訓練可服務的模型。

資源地址

論文地址:
https:///abs/1812.00417

Snorkel項目地址:
https://hazyresearch./snorkel/

作者系網易新聞·網易號“各有態(tài)度”簽約作者


    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多