日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

25個數(shù)據(jù)科學(xué)家必須了解的深度學(xué)習(xí)開放數(shù)據(jù)集

 NeuAlec 2018-04-10

AI 前線導(dǎo)讀:深度學(xué)習(xí)性能的提高(生活中的大部分領(lǐng)域也許都如此)關(guān)鍵在于訓(xùn)練,從圖像處理到語音識別等各種問題。而每個問題都有其獨特的細(xì)微差別和對應(yīng)的方法。

但是,你可以從哪里獲得這些數(shù)據(jù)?現(xiàn)在你看到的很多研究論文都使用專有的數(shù)據(jù)集,而它們通常不會公開。如果你想學(xué)習(xí)并應(yīng)用你新掌握的技能,從哪里獲得數(shù)據(jù)集成了問題。

如果你有這個問題,別擔(dān)心,我們策劃了一系列公開可用的數(shù)據(jù)集列表以供所有人使用。

在本文中,我們列出了一系列高質(zhì)量的數(shù)據(jù)集,每個深度學(xué)習(xí)愛好者都應(yīng)該試著使用它們改進(jìn)技能。完成處理這些數(shù)據(jù)集后,你就可以成為一名更好的數(shù)據(jù)科學(xué)家,而且你從中獲得的知識將在你的職業(yè)生涯中發(fā)揮無可估量的價值。我們還收錄了最新的技術(shù)成果(state-of-the-art ,SOTA),供你參考并改進(jìn)模型。

更多干貨內(nèi)容請關(guān)注微信公眾號“AI 前線”,(ID:ai-front)
如何使用這些數(shù)據(jù)集?

首先,這些數(shù)據(jù)集的規(guī)模巨大!所以請確保你有網(wǎng)絡(luò)連接順暢,下載空間足夠大。

這些數(shù)據(jù)集可以用于各種目的,你可以將之應(yīng)用于各種深度學(xué)習(xí)技術(shù),磨練技能,了解如何識別和構(gòu)建每個問題,或和大家分享你的成果。

這些數(shù)據(jù)集分為三類: 圖像處理、自然語言處理和音頻 / 語音處理。

開始探索吧!

圖像數(shù)據(jù)集
MINST

https://datahack./contest/practice-problem-identify-the-digits/

MNIST 是最受歡迎的深度學(xué)習(xí)數(shù)據(jù)集之一。這是一個手寫數(shù)字?jǐn)?shù)據(jù)集,包含一組 60,000 個示例的訓(xùn)練集和一個包含 10,000 個示例的測試集。這個數(shù)據(jù)庫在實際數(shù)據(jù)中嘗試學(xué)習(xí)技術(shù)和深度識別模式方面非常好用,同時可以在數(shù)據(jù)預(yù)處理花費最少的時間和精力。

大?。?50 MB

記錄數(shù)量:10 種類別的 70,000 張圖片

SOTA:膠囊之間的動態(tài)路由(https:///pdf/1710.09829.pdf)

MS-COCO

http:///#home

COCO 是一個用于物體檢測、分割和字幕的大型、豐富的數(shù)據(jù)集,它有幾個特點:

  • 對象分割

  • 上下文識別

  • 超像素素材分割

  • 330K 張圖像(標(biāo)記> 200K)

  • 150 萬個對象實例

  • 80 個對象類別

  • 91 個素材類別

  • 每張圖片 5 個字幕

  • 250,000 個帶有關(guān)鍵點的人

大?。?25 GB(壓縮)

記錄數(shù)量:330K 張圖像,80 個對象類別,每幅圖像 5 個字幕,25 萬個關(guān)鍵點

SOTA:Mask R-CNNhttps:///pdf/1703.06870.pdf

ImageNet

http://www./

ImageNet 是根據(jù) WordNet 層次結(jié)構(gòu)組織的圖像數(shù)據(jù)集。WordNet 包含大約 100,000 個短語,ImageNet 平均用 1000 張圖像來說明每個短語。

大?。?150GB

記錄數(shù)量:圖像總數(shù):約 1,500,000;每張圖像都有多個邊界框和相應(yīng)的類標(biāo)簽。

SOTA:深度神經(jīng)網(wǎng)絡(luò)的聚合殘差轉(zhuǎn)換(Aggregated Residual Transformations for Deep Neural Networks)https:///pdf/1611.05431.pdf

Open Images

https://github.com/openimages/dataset

Open Images 是一個包含近 900 萬個圖像 URL 的數(shù)據(jù)集。這些數(shù)千萬種類別的圖像已經(jīng)用圖像級標(biāo)簽邊框進(jìn)行了注釋。該數(shù)據(jù)集包含 9,011,219 張圖像的訓(xùn)練集,41,260 張圖像的驗證集以及 125,436 張圖像的測試集。

大小:500 GB(壓縮)

記錄數(shù)量:9,011,219 張超過 5k 個標(biāo)簽的圖像

SOTA:Resnet 101 圖像分類模型(在 V2 數(shù)據(jù)上訓(xùn)練):模型檢查點,檢查點自述文件,推理代碼。https://www./blog/2018/03/comprehensive-collection-deep-learning-datasets/

VisualQA

http://www./

VQA 是一個包含有關(guān)圖像的開放式問題的數(shù)據(jù)集,這些問題需要理解視覺和語言。該數(shù)據(jù)集的一些有趣的特點是:

  • 265,016 張圖片(COCO 和抽象場景)

  • 每張圖片至少有 3 個問題(平均 5.4 個問題)

  • 每個問題有 10 個合理答案

  • 每個問題有 3 個看似合理(但可能不正確)的答案

  • 自動評估指標(biāo)

大?。?5 GB(壓縮)

記錄數(shù)量:265,016 張圖片,每張圖片至少有 3 個問題,每個問題有 10 個合理答案

SOTA:視覺問答的技巧和訣竅:從 2017 年挑戰(zhàn)賽中學(xué)習(xí)https:///abs/1708.02711

街景房號碼(SVHN)

http://ufldl./housenumbers/

這是用于開發(fā)對象檢測算法的真實世界圖像數(shù)據(jù)集。它需要很少的數(shù)據(jù)預(yù)處理,與本列表中提到的 MNIST 數(shù)據(jù)集類似,但具有更多標(biāo)簽數(shù)據(jù)(超過 600,000 張圖像)。這些數(shù)據(jù)是從谷歌街景中查看的房屋號碼中收集的。

大?。?.5 GB

記錄數(shù)量:10 種類別的 6,30,420 張圖片

SOTA:虛擬對抗訓(xùn)練的分布平滑https:///pdf/1507.00677.pdf

CIFAR-10

http://www.cs./~kriz/cifar.html

這仍然是一個圖像分類數(shù)據(jù)集,它由 10 個類的 60,000 張圖像組成(每個類在上圖中表示為一行),總共有 50,000 張訓(xùn)練圖像和 10,000 張測試圖像。數(shù)據(jù)集分為 6 個部分,其中有 5 個訓(xùn)練集和 1 個測試集。每個數(shù)據(jù)集包含 10,000 張圖像。

大小:170 MB

記錄數(shù)量:10 種類別的 60,000 張圖片

SOTA:ShakeDrop 正則化https:///pdf?id=S1NHaMW0b

Fashion-MNIST

https://github.com/zalandoresearch/fashion-mnist

Fashion-MNIST 包含 60,000 個訓(xùn)練圖像和 10,000 個測試圖像,是一個類似 MNIST 的時尚產(chǎn)品數(shù)據(jù)庫。開發(fā)人員認(rèn)為 MNIST 已被過度使用,因此他們創(chuàng)建了該數(shù)據(jù)集作為 MNIST 的直接替代品。每張圖片都以灰度顯示,并與 10 個類別的標(biāo)簽相關(guān)聯(lián)。

大?。?0 MB

記錄數(shù)量:10 種類別的 70,000 張圖片

SOTA:隨機擦除數(shù)據(jù)增強https:///abs/1708.04896

自然語言處理
IMDB Reviews

http://ai./~amaas/data/sentiment/

這是電影愛好者夢寐以求的數(shù)據(jù)集,可用于二元情感分類,并包含比之前此領(lǐng)域所有數(shù)據(jù)集都更多的數(shù)據(jù)。除了訓(xùn)練和測試評估示例之外,還有更多未標(biāo)記的數(shù)據(jù)可供使用。原始文本和預(yù)處理的單詞格式包也包括在內(nèi)。

大小:80 MB

記錄數(shù)量:25,000 個用于訓(xùn)練的高度兩極化的電影評論,25,000 個評論用于測試

SOTA:學(xué)習(xí)結(jié)構(gòu)化文本表示https:///abs/1705.09207

Twenty Newsgroups

https://archive.ics./ml/datasets/Twenty Newsgroups

顧名思義,該數(shù)據(jù)集包含有關(guān)新聞組的信息。為了管理這個數(shù)據(jù)集,創(chuàng)建者從 20 個不同的新聞組中獲取了 1000 篇 Usenet 文章。這些文章具有典型的特征,如主題行、簽名和引用。

大?。?0 MB

記錄數(shù)量:來自 20 個新聞組的 20,000 條信息

SOTA:用于文本分類的極深卷積網(wǎng)絡(luò)https:///abs/1606.01781

Sentiment140

http://help./for-students/

Sentiment140 是一個可用于情感分析的數(shù)據(jù)集。作為一個流行的數(shù)據(jù)集,它可以幫你進(jìn)行一場完美的 NLP 旅程。數(shù)據(jù)中的情緒已經(jīng)被預(yù)先刪除,最終的數(shù)據(jù)集具有以下 6 個特征:

  • 推文具有兩極分化性

  • 推文 ID

  • 推文日期

  • 查詢

  • 用戶名

  • 推文文本

大?。?0 MB(壓縮)

記錄數(shù)量:160,000 條推文

SOTA:用最先進(jìn)的情緒模型數(shù)據(jù)集評估最新的情感數(shù)據(jù)集http://www./anthology/W17-5202

WordNet

https://wordnet./

我們在上面的 ImageNet 數(shù)據(jù)集中提到,WordNet 是一個包含英文 Synsets(同義詞集合)的大型數(shù)據(jù)庫。 Synsets 是指描述不同的概念的同義詞的集合。WordNet 的結(jié)構(gòu)使其成為非常有用的 NLP 工具。

大?。?0 MB

記錄數(shù)量:通過少量“概念關(guān)系”將 117,000 個同義詞集與其他同義詞集相關(guān)聯(lián)。

SOTA:Wordnet:現(xiàn)狀和前景https:///pdf/R/R11/R11-1097.pdf

Yelp Reviews

https://www./dataset

這是 Yelp 為了學(xué)習(xí)目的而發(fā)布的一個開源數(shù)據(jù)集。它由數(shù)百萬用戶評論、商業(yè)屬性和來自多個大都市地區(qū)的超過 20 萬張照片組成。此數(shù)據(jù)集是全球 NLP 挑戰(zhàn)賽常用的數(shù)據(jù)集。

大小:2.66 GB JSON,2.9 GB SQL 和 7.5 GB 的照片(全部壓縮)

記錄數(shù):5,200,000 條評論,174,000 條商業(yè)屬性,20 萬張照片和 11 個大都市區(qū)

SOTA:Attentive Convolutionhttps:///pdf/1710.00519.pdf

維基百科語料庫

https://corpus./wiki/

該數(shù)據(jù)集是維基百科全文的集合。它包含來自 400 多萬篇文章,將近 19 億字。這個 NLP 數(shù)據(jù)集之所以強大,是因為你可以通過單詞、短語或段落本身的一部分進(jìn)行搜索。

大?。?0 MB

記錄數(shù):4,400,000 篇文章,19 億字

SOTA:打破 Softmax 瓶頸:高級 RNN 語言模型https:///pdf/1711.03953.pdf

博客作者身份語料庫

http://u.cs./~koppel/BlogCorpus.htm

此數(shù)據(jù)集包含從 blogger.com 收集的數(shù)千名博主收集的博客帖子。每個博客都作為一個單獨的文件,至少包含 200 個常用英語單詞。

大?。?00 MB

記錄數(shù):681,288 個帖子,超過 1.4 億字

SOTA:Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attributionhttps:///pdf/1609.06686.pdf

各種語言的機器翻譯

http:///wmt18/index.html

該數(shù)據(jù)集包含四種歐洲語言的訓(xùn)練數(shù)據(jù),它的任務(wù)是改進(jìn)當(dāng)前的翻譯方法。你可以進(jìn)行以下語言互譯:

  • 英漢互譯

  • 英語 - 捷克語互譯

  • 英語 - 愛沙尼亞語互譯

  • 英語 - 芬蘭語互譯

  • 英德互譯

  • 英語 - 哈薩克語互譯

  • 英俄互譯

  • 英語 - 土耳其語互譯

大?。?15 GB

記錄數(shù)量:約 30,000,000 個句子及其翻譯

SOTA:Attention Is All You Needhttps:///abs/1706.03762

音頻 / 語音數(shù)據(jù)集
免費口語數(shù)字?jǐn)?shù)據(jù)集

這個數(shù)據(jù)集也是受 MNIST 數(shù)據(jù)集的啟發(fā)而創(chuàng)建的,以識別音頻樣本中的數(shù)字。這是一個開放的數(shù)據(jù)集,所以希望隨著人們貢獻(xiàn)更多的樣本,它會不斷地增長。目前,它包含以下特點:

  • 3 個揚聲器

  • 1500 個錄音

  • 英語發(fā)音

大?。?0 MB

記錄數(shù)量:1500 個音頻樣本

SOTA:使用采樣級 CNN 架構(gòu)的基于原始波形的音頻分類https:///pdf/1712.00866.pdf

Free Music Archive (FMA)

https://github.com/mdeff/fma

FMA 是用于音樂分析的數(shù)據(jù)集。該數(shù)據(jù)集由全長和 HQ 音頻,預(yù)先計算的特征以及音軌和用戶級元數(shù)據(jù)組成。它是一個開源數(shù)據(jù)集,用于評估 MIR 中的幾個任務(wù)。以下是該數(shù)據(jù)集連同其包含的 csv 文件列表:

  • tracks.csv:每個曲目元數(shù)據(jù),例如 ID,標(biāo)題,藝術(shù)家,流派,標(biāo)簽和播放次數(shù),適用于所有 106,574 首曲目。

  • genres.csv:所有 163 種風(fēng)格的 ID 與其名稱和 parent(用于推斷流派層次和頂級流派)。

  • features.csv:用 librosa 提取的常用特征。

  • echonest.csv:由 Echonest(現(xiàn)在的 Spotify)為 13,129 首音軌的子集提供的音頻功能。

大?。?1000 GB

記錄數(shù)量:約 100,000 個軌道

SOTA:學(xué)習(xí)從音頻中識別音樂風(fēng)格https:///pdf/1803.05337.pdf

Ballroom

http://mtg./ismir2004/contest/tempoContest/node5.html

該數(shù)據(jù)集包含舞曲音頻文件,以真實音頻格式進(jìn)行了許多舞蹈風(fēng)格的一些特征摘錄。以下是該數(shù)據(jù)集的一些特征:

  • 樣本總數(shù):698

  • 持續(xù)時間:約 30 秒

  • 總持續(xù)時間:約 20940 秒

大小:14GB(壓縮)

記錄數(shù)量:約 700 個音頻樣本

SOTA:A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles

https://pdfs./0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf

 百萬歌曲數(shù)據(jù)集(Million Song Dataset)

https://labrosa.ee./millionsong/

百萬歌曲數(shù)據(jù)集是一個包含一百萬首當(dāng)代流行音樂曲目的免費音頻特征和元數(shù)據(jù)集合。其目的是:

  • 鼓勵對達(dá)到商業(yè)規(guī)模的算法進(jìn)行研究

  • 為評估研究提供參考數(shù)據(jù)集

  • 作為使用 API 創(chuàng)建大型數(shù)據(jù)集的捷徑(例如 The Echo Nest)

  • 幫助新手研究人員入門 MIR 領(lǐng)域

該數(shù)據(jù)集的核心是一百萬首歌曲的特征分析和元數(shù)據(jù),它不包含任何音頻,只包含派生的功能。示例音頻可以通過使用哥倫比亞大學(xué)提供的代碼從 7digital 等服務(wù)中獲取。

大小:280 GB

記錄數(shù)量:一百萬首歌曲!

SOTA:Preliminary Study on a Recommender System for the Million Songs Dataset Challengehttp://www.ke./events/PL-12/papers/08-aiolli.pdf

LibriSpeech

http://www./12/

該數(shù)據(jù)集是包含約 1000 小時時長英語語音的大型語料庫。這些數(shù)據(jù)來自 LibriVox 項目的有聲讀物,已被合理分割并分配。如果你想找一個起點,請查看在 kaldi-asr.org 上訓(xùn)練好的聲學(xué)模型和語言模型,而 http://www./11/ 適用于評估。

大?。?60 GB

記錄數(shù):1000 小時的語音

SOTA:Letter-Based Speech Recognition with Gated ConvNetshttps:///abs/1712.09444

VoxCeleb

http://www.robots./~vgg/data/voxceleb/

VoxCeleb 是一個大型的語音識別數(shù)據(jù)集。它包含從 YouTube 視頻上收集的 1,251 位名人的約 10 萬條語音。數(shù)據(jù)大致是性別均衡的(男性占 55%)。這些名人的口音、職業(yè)和年齡千差萬別,開發(fā)和測試集之間沒有重疊。識別出這些聲音屬于哪位明星可能是一個有趣的嘗試。

大小:150 MB

記錄數(shù):1,251 位名人的 100,000 條語音

SOTA:VoxCeleb: a large-scale speaker identification datasethttps://www.robots./~vgg/publications/2017/Nagrani17/nagrani17.pdf

分析實踐中遇到的問題

為了你們更好地訓(xùn)練,我們做了一份現(xiàn)實生活中會遇到的問題的列表。在這部分,我們列出了在我們的 DataHack 平臺上遇到的深度學(xué)習(xí)實踐問題。

Twitter 情緒分析

https://datahack./contest/practice-problem-twitter-sentiment-analysis/

以種族主義和性別歧視為形式的仇恨言論已成為 twitter 的麻煩,把這類推文與其他人隔離是很重要的工作。在這個實踐問題中,我們提供了既包含正常又有仇恨推言論文的 Twitter 數(shù)據(jù)。作為數(shù)據(jù)科學(xué)家,你的任務(wù)是確定哪些推文是仇恨推文,哪些不是。

大小:3 MB

記錄數(shù)量:31,962 條推文

印度演員的年齡檢測

https://datahack./contest/practice-problem-age-detection/

對于所有深度學(xué)習(xí)愛好者來說,這是一個令人著迷的挑戰(zhàn)。該數(shù)據(jù)集包含數(shù)千個印度演員的圖像,你的任務(wù)是確定他們的年齡。所有圖像都是手動從視頻幀中剪切的,這導(dǎo)致演員的姿勢、表情、光照、年齡、分辨率、遮擋和妝容的高度不確定性。

大?。?8 MB(壓縮)

記錄數(shù):訓(xùn)練集中的 19,906 幅圖像和測試集中的 6636 幅圖像

SOTA:深度學(xué)習(xí)——年齡檢測問題的解決方案https://www./blog/2017/06/hands-on-with-deep-learning-solution-for-age-detection-practice-problem/

城市中的聲音分類

https://datahack./contest/practice-problem-urban-sound-classification/

這個數(shù)據(jù)集包含超過 8000 個、10 種類別的來自城市的聲音片段,旨在介紹常見的音頻處理分類方法。

大?。河?xùn)練集 3GB(壓縮),測試集 2 GB(壓縮)

記錄數(shù)量:來自 10 個種類的 8732 個來自城市的標(biāo)注聲音片段(<= 4s)

原文鏈接:https://www./blog/2018/03/comprehensive-collection-deep-learning-datasets/

如果你喜歡這篇文章,記得給我們留個言點個贊,給編輯小哥哥小姐姐們鼓勵一下吧!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多