日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

<td id="gup6s"><code id="gup6s"><small id="gup6s"></small></code></td>

<strike id="gup6s"><code id="gup6s"></code></strike>

<fieldset id="gup6s"><table id="gup6s"></table></fieldset>

<menu id="gup6s"><form id="gup6s"></form></menu>

<span id="gup6s"><i id="gup6s"></i></span>

搜索

分享

QQ空間 QQ好友新浪微博微信

告別數據集資源匱乏，谷歌與斯坦福大學用弱監(jiān)督學習給訓練集打標簽

黃爸爸好 2019-03-24

展開全文

數據集就是機器學習行業(yè)的石油，強大的模型需要含有大量樣本的數據集作為基礎。而標記訓練集中的數據樣本是開發(fā)機器學習應用的最大瓶頸之一。

最近，谷歌與斯坦福大學、布朗大學一起，研究如何快速標記大型數據集，將整個組織的資源用作分類任務的弱監(jiān)督資源，使機器學習的開發(fā)時間和成本降低一個數量級。

谷歌在論文中表示，這種方法能讓工程師能夠在不到30分鐘的時間內對數百萬個樣本執(zhí)行弱監(jiān)督策略。

他們使用一種Snorkel Drybell系統(tǒng)，讓開源Snorkel框架適應各種組織知識資源，生成Web規(guī)模機器學習模型的訓練數據。

Snorkel是由斯坦福大學在2017年開發(fā)的系統(tǒng)，它可以在弱監(jiān)督條件下快速創(chuàng)建訓練數據集，該項目已經在GitHub上開源。而Snorkel Drybell的目標是在工業(yè)規(guī)模上部署弱監(jiān)督學習。

而且用這種方法開發(fā)的分類器質量與手工標記樣本進行訓練的分類器效果相當，把弱監(jiān)督分類器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大學在2016年為許多弱監(jiān)督學習開發(fā)的一個通用框架，由這種方法生成的標簽可用于訓練任意模型。

已經有人將Snorkel用于處理圖像數據、自然語言監(jiān)督、處理半結構化數據、自動生成訓練集等具體用途。

原理

與手工標注訓練數據不同，Snorkel DryBell支持編寫標記函數，以編程方式標記訓練數據。

過去的方法中，標記函數只是以編程方式標記數據的腳本，它產生的標簽是帶有噪聲的。

為了解決噪聲等問題，Supert Drybell使用生成建模技術，以一種可證明一致的方式自動估計標記函數的準確性和相關性，而無需任何基本事實作為訓練標簽。然后用這種方法對每個數據點的輸出進行重新加權，并組合成一個概率標簽。

使用多種知識來源作為弱監(jiān)督

Snorkel Drybell先用多種知識來源作為弱監(jiān)督，在基于MapReduce模板的pipeline中編寫標記函數，每個標記函數都接受一個數據點生成的概率標簽，并選擇返回None（無標簽）或輸出標簽。

這一步生成的標簽帶有大量噪聲，甚至相互沖突，還行需要進一步的清洗才能用到最終的訓練集中。

結合和重新利用現有資源對準確度建模

為了處理這些噪聲標簽，Snorkel DryBell將標記函數的輸出組合成對每個數據點的訓練標簽置信度加權。這一步的難點在于，必須在沒有任何真實標簽的情況下完成。

研究人員使用生成建模技術，僅使用未標記的數據來學習每個標記函數的準確性。通過標簽函數輸出之間的一致性矩陣來學習打標簽是否準確。

在Snorkel DryBell中，研究人員還實現了建模方法一種更快、無采樣的版本，并在TensorFlow中實現，以處理Web規(guī)模的數據。

通過在Snorkel DryBell中使用此程序組合和建模標簽函數的輸出，能夠生成高質量的訓練標簽。與兩個分別有1.2萬和8萬個手工標記訓練數據集比較，由Snorkel DryBell標記的數據集訓練出的模型實現了一樣的預測準確度。

將不可服務的知識遷移到可服務的模型

在許多情況下，可服務特征(可用于生產)和不可服務特征(太慢或太貴而無法用于生產)之間也有重要區(qū)別。這些不可服務的特征可能具有非常豐富的信號，但是有個問題是如何使用它們來訓練，或者是幫助能在生產中部署的可服務模型呢？

在Snorkel DryBell中，用戶發(fā)現可以在一個不可服務的特征集上編寫標簽函數，然后使用Snorkel DryBell輸出的訓練標簽來訓練在不同的、可服務的特征集上定義的模型。

這種跨特征轉移將基準數據集的性能平均提高了52%。

這種方法可以被看作是一種新型的遷移學習，但不是在不同的數據集之間轉移模型，而是在不同的特征集之間轉移領域知識。它可以使用速度太慢、私有或其他不適合部署的資源，在廉價、實時特征上訓練可服務的模型。

資源地址

論文地址：
https:///abs/1812.00417

Snorkel項目地址：
https://hazyresearch./snorkel/

作者系網易新聞·網易號“各有態(tài)度”簽約作者

— 完 —

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：黃爸爸好 > 《AI人工智能》

舉報/認領

0條評論

請遵守用戶評論公約

類似文章 更多

黃爸爸好

關注對話

TA的最新館藏

狂攬 59.2k 星！終端下的 Git 效率神器，告別復雜！
比raid5更快更大更安全在4塊硬盤上同時實現raid1，raid0和Basic
69.3K Star！一款免費、強大的文件同步神器，全平臺支持，太香了！
MCP 架構設計深度剖析
喂飯級教程！Docker 容器網絡配置全攻略：橋接、Host、container 以及服務發(fā)現與負載均衡一網打盡！
12張圖清晰總結 MCP、RAG、Agent 架構設計間的關系

喜歡該文的人也喜歡更多

熱門閱讀換一換