數據集就是機器學習行業(yè)的石油,強大的模型需要含有大量樣本的數據集作為基礎。而標記訓練集中的數據樣本是開發(fā)機器學習應用的最大瓶頸之一。 最近,谷歌與斯坦福大學、布朗大學一起,研究如何快速標記大型數據集,將整個組織的資源用作分類任務的弱監(jiān)督資源,使機器學習的開發(fā)時間和成本降低一個數量級。 谷歌在論文中表示,這種方法能讓工程師能夠在不到30分鐘的時間內對數百萬個樣本執(zhí)行弱監(jiān)督策略。 他們使用一種Snorkel Drybell系統(tǒng),讓開源Snorkel框架適應各種組織知識資源,生成Web規(guī)模機器學習模型的訓練數據。 Snorkel是由斯坦福大學在2017年開發(fā)的系統(tǒng),它可以在弱監(jiān)督條件下快速創(chuàng)建訓練數據集,該項目已經在GitHub上開源。而Snorkel Drybell的目標是在工業(yè)規(guī)模上部署弱監(jiān)督學習。 而且用這種方法開發(fā)的分類器質量與手工標記樣本進行訓練的分類器效果相當,把弱監(jiān)督分類器的平均性能提高了52%。 什么是SnorkelSnorkel是斯坦福大學在2016年為許多弱監(jiān)督學習開發(fā)的一個通用框架,由這種方法生成的標簽可用于訓練任意模型。 已經有人將Snorkel用于處理圖像數據、自然語言監(jiān)督、處理半結構化數據、自動生成訓練集等具體用途。 原理與手工標注訓練數據不同,Snorkel DryBell支持編寫標記函數,以編程方式標記訓練數據。 過去的方法中,標記函數只是以編程方式標記數據的腳本,它產生的標簽是帶有噪聲的。 為了解決噪聲等問題,Supert Drybell使用生成建模技術,以一種可證明一致的方式自動估計標記函數的準確性和相關性,而無需任何基本事實作為訓練標簽。然后用這種方法對每個數據點的輸出進行重新加權,并組合成一個概率標簽。 使用多種知識來源作為弱監(jiān)督Snorkel Drybell先用多種知識來源作為弱監(jiān)督,在基于MapReduce模板的pipeline中編寫標記函數,每個標記函數都接受一個數據點生成的概率標簽,并選擇返回None(無標簽)或輸出標簽。 這一步生成的標簽帶有大量噪聲,甚至相互沖突,還行需要進一步的清洗才能用到最終的訓練集中。 結合和重新利用現有資源對準確度建模為了處理這些噪聲標簽,Snorkel DryBell將標記函數的輸出組合成對每個數據點的訓練標簽置信度加權。這一步的難點在于,必須在沒有任何真實標簽的情況下完成。 研究人員使用生成建模技術,僅使用未標記的數據來學習每個標記函數的準確性。通過標簽函數輸出之間的一致性矩陣來學習打標簽是否準確。 在Snorkel DryBell中,研究人員還實現了建模方法一種更快、無采樣的版本,并在TensorFlow中實現,以處理Web規(guī)模的數據。 通過在Snorkel DryBell中使用此程序組合和建模標簽函數的輸出,能夠生成高質量的訓練標簽。與兩個分別有1.2萬和8萬個手工標記訓練數據集比較,由Snorkel DryBell標記的數據集訓練出的模型實現了一樣的預測準確度。 將不可服務的知識遷移到可服務的模型在許多情況下,可服務特征(可用于生產)和不可服務特征(太慢或太貴而無法用于生產)之間也有重要區(qū)別。這些不可服務的特征可能具有非常豐富的信號,但是有個問題是如何使用它們來訓練,或者是幫助能在生產中部署的可服務模型呢? 在Snorkel DryBell中,用戶發(fā)現可以在一個不可服務的特征集上編寫標簽函數,然后使用Snorkel DryBell輸出的訓練標簽來訓練在不同的、可服務的特征集上定義的模型。 這種跨特征轉移將基準數據集的性能平均提高了52%。 這種方法可以被看作是一種新型的遷移學習,但不是在不同的數據集之間轉移模型,而是在不同的特征集之間轉移領域知識。它可以使用速度太慢、私有或其他不適合部署的資源,在廉價、實時特征上訓練可服務的模型。 資源地址論文地址: Snorkel項目地址: 作者系網易新聞·網易號“各有態(tài)度”簽約作者 — 完 — |
|