機(jī)器學(xué)習(xí)領(lǐng)域,最常討論到的一個(gè)話題就是機(jī)器學(xué)習(xí)項(xiàng)目。 學(xué)習(xí)或從事這個(gè)領(lǐng)域的小伙伴都會(huì)想要找一些機(jī)器學(xué)習(xí)的項(xiàng)目來進(jìn)行練手,做項(xiàng)目好比練題,孰能生巧,能夠在機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域獲取更多的知識(shí)和技能。 本篇目錄: 1、20個(gè)機(jī)器學(xué)習(xí)庫(kù)和框架 2、機(jī)器學(xué)習(xí)項(xiàng)目:
3、數(shù)據(jù)集
機(jī)器學(xué)習(xí)庫(kù)和框架 01 TensorFlow TensorFlow是一個(gè)采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計(jì)算的開源軟件庫(kù)。 最初是由研究人員和工程師在Google機(jī)器智能研究組織的Google Brain團(tuán)隊(duì)中開發(fā)的。 用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究,但這個(gè)系統(tǒng)的通用性使其也可廣泛用于其他計(jì)算領(lǐng)域。 貢獻(xiàn)者:1978,提交:55315,星級(jí):127129。 Github網(wǎng)址: Tensorflow https://www./ 02 Scikit-learn scikit-learn 是基于 Python 語(yǔ)言的機(jī)器學(xué)習(xí)工具。 它是一個(gè)簡(jiǎn)單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可供大家在各種環(huán)境中重復(fù)使用,建立在 NumPy ,SciPy 和 matplotlib 上,開源,可商業(yè)使用 - BSD許可證。 貢獻(xiàn)者:1303,提交:23978,星星:34958 Github URL: Scikit-learn http:/// 03 Keras Keras是一個(gè)高層神經(jīng)網(wǎng)絡(luò)API,由python編寫,能夠在TensorFlow,CNTK或Theano之上運(yùn)行。 keras具有高度模塊化,極簡(jiǎn),和可擴(kuò)充特性,支持CNN和RNN,或二者的結(jié)合,無縫CPU和GPU切換。 貢獻(xiàn)者:795,提交:5110,星星:40986 Github網(wǎng)址: Keras https:/// 04 PyTorch Pytorch是Facebook的AI研究團(tuán)隊(duì)發(fā)布了一個(gè)Python工具包,是Python優(yōu)先的深度學(xué)習(xí)框架。 作為numpy的替代品;使用強(qiáng)大的GPU能力,提供最大的靈活性和速度,實(shí)現(xiàn)了機(jī)器學(xué)習(xí)。 貢獻(xiàn)者:1034,提交:17856,星星:27849 Github URL: pytorch http://pytorch.org/ 05 Theano Theano是一個(gè)Python庫(kù),允許您定義,優(yōu)化和有效地評(píng)估涉及多維數(shù)組的數(shù)學(xué)表達(dá)式。 它建立在NumPy之上,與Numpy緊密集成,具有透明使用GPU,有效符號(hào)區(qū)分,動(dòng)態(tài)C代碼生成等優(yōu)點(diǎn)。 貢獻(xiàn)者:333,提交:28080,星星:8782 Github網(wǎng)址: Theano http:///software/theano/ 06 Gensim 是一個(gè)免費(fèi)的Python庫(kù),具有可擴(kuò)展的統(tǒng)計(jì)語(yǔ)義,分析語(yǔ)義結(jié)構(gòu)的純文本文檔,檢索語(yǔ)義相似的文檔等功能。
Github網(wǎng)址: Gensim https:///gensim/ 07 NuPIC Taylor 說,許多機(jī)器學(xué)習(xí)算法無法適應(yīng)新模式,而 NuPIC 的運(yùn)作接近于人腦。 nupic是一個(gè)在github上開源了的AI算法平臺(tái),相比于深度學(xué)習(xí),其更為接近人類大腦的運(yùn)行結(jié)構(gòu)。 其算法的理論依據(jù),就是純粹的生物神經(jīng)學(xué)知識(shí),類似突觸連接與分解,神經(jīng)元,多個(gè)腦皮層的交互,動(dòng)作電位等等。工程實(shí)現(xiàn)也基于此。 貢獻(xiàn)者:87,提交:6623,星星:5902 Github URL: NuPIC http:/// 08 Neon Neon是Nervana開發(fā)的基于Python的深度學(xué)習(xí)庫(kù)。它易于使用,同時(shí)性能也處于最高水準(zhǔn)。 貢獻(xiàn)者:77,提交:1117,星星:3763 Github URL: Neon http://neon./ 09 Nilearn Nilearn是一個(gè)Python模塊,用于快速簡(jiǎn)便地統(tǒng)計(jì)NeuroImaging數(shù)據(jù)。 它利用scikit-learn Python工具箱進(jìn)行多變量統(tǒng)計(jì),并使用預(yù)測(cè)建模,分類,解碼或連接分析等應(yīng)用程序。
Github網(wǎng)址: Nilearn https://nilearn./ 10 Caffe Caffe是一個(gè)深刻的學(xué)習(xí)框架,以表達(dá),速度和模塊化為基礎(chǔ)。它由伯克利視覺和學(xué)習(xí)中心( BVLC)和社區(qū)貢獻(xiàn)者開發(fā)。 貢獻(xiàn)者:266,提交:4154,星星:28032 Github網(wǎng)址: Caffe http://caffe./ 11 Chainer chainer是一種基于python的靈活框架,用于輕松直觀地編寫復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),適用于深度學(xué)習(xí)模型。 利用chainer可以輕松使用多GPU實(shí)例進(jìn)行訓(xùn)練,還會(huì)自動(dòng)記錄結(jié)果、圖表?yè)p失和精度并生成用于使用計(jì)算圖來可視化神經(jīng)網(wǎng)絡(luò)的輸出。 貢獻(xiàn)者:227,提交:26266,星星:4772 Github URL: Chainer http:/// 12 Statsmodels Statsmodels 是一個(gè)Python模塊,允許用戶瀏覽數(shù)據(jù),估計(jì)統(tǒng)計(jì)模型和執(zhí)行統(tǒng)計(jì)測(cè)試。 描述性統(tǒng)計(jì),統(tǒng)計(jì)測(cè)試,繪圖函數(shù)和結(jié)果統(tǒng)計(jì)的廣泛列表可用于不同類型的數(shù)據(jù)和每個(gè)估算器。
Github URL: Statsmodels http://statsmodels./ 13 Shogun 是機(jī)器學(xué)習(xí)工具箱,提供各種統(tǒng)一和高效的機(jī)器學(xué)習(xí)(ML)方法.工具箱無縫地允許輕松組合多個(gè)數(shù)據(jù)表示,算法類和通用工具。
Github URL: Shogun http:/// 14 Pylearn2 Pylearn2是一個(gè)機(jī)器學(xué)習(xí)庫(kù),它的大部分功能都建立在 Theano之上 。 這意味著你可以使用數(shù)學(xué)表達(dá)式編寫Pylearn2插件(新模型,算法等),Theano會(huì)優(yōu)化和穩(wěn)定這些表達(dá)式,并將它們編譯為你選擇的后端(CPU或GPU)。
Github URL: Pylearn2 http:///software/pylearn2/ 15 Annoy Annoy是一個(gè)帶有Python綁定的C ++庫(kù),用于搜索空間中接近給定查詢點(diǎn)的點(diǎn)。 它還創(chuàng)建了大型只讀基于文件的數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)映射到內(nèi)存中,以便許多進(jìn)程可以共享相同的數(shù)據(jù)。 貢獻(xiàn)者:43,提交:645,星星:5346 Github URL: Annoy https://pypi./pypi/annoy 16 PyBrain PyBrain是一個(gè)用于Python的模塊化機(jī)器學(xué)習(xí)庫(kù),其目標(biāo)是為機(jī)器學(xué)習(xí)任務(wù)和各種預(yù)定義環(huán)境提供靈活,易用且功能強(qiáng)大的算法。
Github URL: PyBrain http:/// 17 Fuel 是一個(gè)數(shù)據(jù)管道框架,可為機(jī)器學(xué)習(xí)模型提供所需的數(shù)據(jù)。
Github URL: Fuel https://fuel./ 18 Orange3 Orange3是新手和專家的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化工具,具有大型工具箱的交互式數(shù)據(jù)分析工作流程。 貢獻(xiàn)者:71,提交:10651,星星:1780 Github網(wǎng)址: Orange3 https://pymc-devs./pymc/README.html 19 Pymc Pymc是一個(gè)python模塊,它實(shí)現(xiàn)貝葉斯統(tǒng)計(jì)模型和擬合算法,包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴(kuò)展性使其適用于大量問題。 貢獻(xiàn)者:40,提交:2726,星星:818 Github URL: Pymc https://pymc-devs./ 20 Deap Deap是一種新穎的進(jìn)化計(jì)算框架,用于快速原型設(shè)計(jì)和思想測(cè)試。 它旨在使算法明確,數(shù)據(jù)結(jié)構(gòu)透明,與多處理和 SCOOP等并行機(jī)制完美協(xié)調(diào) 。 貢獻(xiàn)者:44,提交:1982,星星:2845 Github網(wǎng)址: Deap https://pypi./pypi/deap 各類機(jī)器學(xué)習(xí)項(xiàng)目 01 語(yǔ)言相關(guān) 1.python語(yǔ)言相關(guān) 網(wǎng)址:https://github.com/vinta/awesome-python 2.hph語(yǔ)言相關(guān) 網(wǎng)址:https://github.com/ziadoz/awesome-php 3.java語(yǔ)言相關(guān) 網(wǎng)址:https://github.com/akullpp/awesome-java 4.nodejs相關(guān) 網(wǎng)址:https://github.com/sindresorhus/awesome-nodejs 5.ios相關(guān) 網(wǎng)址:https://github.com/vsouza/awesome-ios 6.android相關(guān) 網(wǎng)址:https://github.com/snowdream/awesome-android 7.shell相關(guān) 網(wǎng)址:https://github.com/alebcay/awesome-shell 8.spider相關(guān) 網(wǎng)址:https://github.com/facert/awesome-spider 9.go相關(guān) 網(wǎng)址:https://github.com/avelino/awesome-go 02 計(jì)算機(jī)視覺 1.計(jì)算機(jī)視覺的資源列表 網(wǎng)址:http:///RwjDvTD 2.計(jì)算機(jī)視覺的深度學(xué)習(xí)資源的精選列表 網(wǎng)址:http:///RLvTzjn 03 自然語(yǔ)言處理1.學(xué)習(xí)溝通 概述新的OpenAI研究,開發(fā)自己的語(yǔ)言。 網(wǎng)址:http:///EKba21p 2.自然語(yǔ)言處理 專門針對(duì)自然語(yǔ)言處理(NLP)的精選資源列表。 網(wǎng)址:https://github.com/keon/awesome-nlp 3.一種新穎的神經(jīng)機(jī)器翻譯方法 使用一種新穎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)語(yǔ)言翻譯方法發(fā)表了研究成果,該方法以復(fù)現(xiàn)神經(jīng)系統(tǒng)速度的九倍達(dá)到了最先進(jìn)的精度。 網(wǎng)址:http:///EKbKKaa 4.如何在沒有真正嘗試的情況下制造種族主義者的AI 制作一個(gè)情緒分類器。 網(wǎng)址:http:///RKN4XpX 04 預(yù)測(cè)1.uber時(shí)間序列預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)工程不確定性估計(jì) 介紹一種新的端到端貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)架構(gòu),可以更準(zhǔn)確地預(yù)測(cè)時(shí)間序列預(yù)測(cè)和大規(guī)模的不確定性估計(jì)。 網(wǎng)址:http:///RpqIwnF 2.如何輕松預(yù)測(cè)股票價(jià)格 網(wǎng)址:http:///RiLyUGN 05 圖像處理1.高分辨率圖像合成與條件GAN的語(yǔ)義處理 提出了一種使用條件生成對(duì)抗網(wǎng)絡(luò)(條件GAN)從語(yǔ)義標(biāo)簽圖合成高分辨率照片真實(shí)圖像的新方法。 網(wǎng)址:http:///EK4NHTw 2.使用OpenCV(Python)進(jìn)行高動(dòng)態(tài)范圍(HDR)成像 學(xué)習(xí)如何使用不同曝光設(shè)置拍攝的多張圖像創(chuàng)建高動(dòng)態(tài)范圍(HDR)圖像。 網(wǎng)址:http:///EK4pgjj 06 風(fēng)格轉(zhuǎn)移1.通過深度圖像類比轉(zhuǎn)換視覺屬性 用于跨圖像的視覺屬性傳遞的新技術(shù),通過視覺屬性轉(zhuǎn)移,將視覺信息(例如顏色,色調(diào),紋理和樣式)從一個(gè)圖像轉(zhuǎn)移到另一個(gè)圖像。 網(wǎng)址:http:///EK48MYY 2.深度照片風(fēng)格轉(zhuǎn)換 本文介紹了一種深度學(xué)習(xí)的攝影風(fēng)格轉(zhuǎn)換方法,可以處理各種圖像內(nèi)容,同時(shí)忠實(shí)地傳遞參考風(fēng)格。 網(wǎng)址:http:///EK4uR8l 3.深度圖像優(yōu)先 本文表明, 深度網(wǎng)絡(luò)的結(jié)構(gòu)足以在任何學(xué)習(xí)之前捕捉大量的低級(jí)圖像統(tǒng)計(jì)數(shù)據(jù)。 隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò)可以作為手工制作的優(yōu)先在標(biāo)準(zhǔn)的逆問題, 如去噪, 超分辨率。 網(wǎng)址:http:///EK43mZA 07 圖像分類1.特征可視化:神經(jīng)網(wǎng)絡(luò)如何建立對(duì)圖像的理解 非常簡(jiǎn)單的方法可以產(chǎn)生高質(zhì)量的可視化。本文介紹了一些技巧,用于探索神經(jīng)元反應(yīng)的變化,它們?nèi)绾蜗嗷プ饔靡约叭绾胃倪M(jìn)優(yōu)化過程。 網(wǎng)址:http:///EKbvwWM 2.絕對(duì)新手的神經(jīng)網(wǎng)絡(luò)圖像分類指南 使用機(jī)器學(xué)習(xí)來高度確定地預(yù)測(cè)數(shù)據(jù)/未經(jīng)訓(xùn)練的樣本中的圖像。 網(wǎng)址:http:///EKbPjVM 08 人臉識(shí)別1.通過直接體積CNN回歸從單個(gè)圖像重建大姿態(tài)三維人臉 3D人臉重建是一個(gè)非常困難的計(jì)算機(jī)視覺基礎(chǔ)問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當(dāng)數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來解決許多這些限制。 網(wǎng)址:http:///EKbAgH1 2.使用OpenCV,Python和dlib進(jìn)行眨眼檢測(cè) 網(wǎng)址:http:///EKbLPUb 3.使用面部檢測(cè)在Python中處理它 程序?qū)⒉捎妹钚袇?shù),即輸入圖像。然后,它將使用Dlib中的面部檢測(cè)算法來查看是否有任何面部。如果有,它將為每個(gè)面部創(chuàng)建一個(gè)結(jié)束位置。 網(wǎng)址:http:///EKb4jEx 09 物體檢測(cè)1.對(duì)象檢測(cè):深度學(xué)習(xí)時(shí)代的概述 快速了解對(duì)象檢測(cè)中最常見的問題,深入了解實(shí)際應(yīng)用的細(xì)節(jié),并了解如何解決它的方法。 網(wǎng)址:http:///RNf1Ap9 2.使用深度學(xué)習(xí)和OpenCV進(jìn)行實(shí)時(shí)對(duì)象檢測(cè) 使用深度學(xué)習(xí)和OpenCV應(yīng)用實(shí)時(shí)對(duì)象檢測(cè)來處理視頻流和視頻文件。 網(wǎng)址:http:///EKbc32W10 自動(dòng)駕駛 1.使用Python自動(dòng)駕駛俠盜獵車手 探索使用Python玩Grand Theft Auto 5,主要用于創(chuàng)建自動(dòng)駕駛汽車和其他車輛。 網(wǎng)址:https://github.com/sentdex/pygta5 2.AirSim 是微軟的開源自動(dòng)駕駛仿真平臺(tái)這里主要用于自動(dòng)駕駛仿真研究。 網(wǎng)址:https://github.com/Microsoft/AirSim 11 游戲AI1.OpenAI Baselines:DQN 重現(xiàn)強(qiáng)化學(xué)習(xí)算法,RL算法實(shí)現(xiàn)的一些最佳實(shí)踐。 網(wǎng)址:http:///EKGo4YB 2.Dota 2強(qiáng)化學(xué)習(xí) 創(chuàng)造一個(gè)機(jī)器人,在標(biāo)準(zhǔn)比賽規(guī)則下,在Dota 2的 1v1比賽中擊敗世界頂級(jí)專業(yè)人士。機(jī)器人通過自我游戲從頭開始學(xué)習(xí)游戲,并且不使用模仿學(xué)習(xí)或樹搜索。 網(wǎng)址:http:///EKG9cTE 3.創(chuàng)建AI DOOM bot 利用VizDoom平臺(tái)進(jìn)行基于強(qiáng)化的深度學(xué)習(xí)的探索之旅。目標(biāo)是創(chuàng)建一個(gè)能夠在死亡競(jìng)賽環(huán)境中茁壯成長(zhǎng)的Doom AI。 網(wǎng)址:http:///EKGNxCL 4.用于字符控制的相功能神經(jīng)網(wǎng)絡(luò) 使用一種稱為“相位神經(jīng)網(wǎng)絡(luò)”的新型神經(jīng)網(wǎng)絡(luò)來創(chuàng)建適合游戲的角色控制器。 網(wǎng)址:http:///EKGpsY7 5.游戲模仿:用于快速視頻游戲AI的深度監(jiān)督卷積網(wǎng)絡(luò) 提出了一種僅用于游戲AI的視覺模型,它使用在純粹受監(jiān)督的模仿學(xué)習(xí)環(huán)境中訓(xùn)練的后期集成深度卷積網(wǎng)絡(luò)架構(gòu)。 網(wǎng)址:http:///EKGWXJd 12 國(guó)際象棋AI1.掌握國(guó)際象棋和將棋 利用強(qiáng)化學(xué)習(xí)算法通過自學(xué)習(xí)掌握國(guó)際象棋和將棋。 網(wǎng)址:http:///EKG85YH 2.AlphaGo Zero:從頭學(xué)習(xí)| DeepMind 本文介紹了AlphaGo Zero,它是AlphaGo的最新發(fā)展,以前版本的AlphaGo最初訓(xùn)練過成千上萬的人類業(yè)余和專業(yè)游戲,以學(xué)習(xí)如何玩Go。AlphaGo Zero跳過這一步,從完全隨機(jī)的游戲開始,只是通過玩游戲來學(xué)習(xí)玩游戲。 網(wǎng)址:http:///EKGEvDs http:///RWY4GZy 13 醫(yī)療AI1.CheXNet:放射學(xué)家檢測(cè)胸部X射線與深度學(xué)習(xí)的肺炎 模型CheXNet是一個(gè)121層的卷積神經(jīng)網(wǎng)絡(luò),輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。網(wǎng)址:http:///EKGuyqG 2.你能改善肺癌的檢測(cè)嗎? Kaggle舉辦的競(jìng)賽的解決方案的部分內(nèi)容,挑戰(zhàn)的目標(biāo)是在給定一組CT圖像的情況下預(yù)測(cè)患者肺癌的發(fā)展。 網(wǎng)址:http:///EKG3LBJ 3.通過深度學(xué)習(xí)改善姑息治療 - Andrew Ng 使用深度學(xué)習(xí)建立一個(gè)程序,通過檢查患者的電子健康記錄數(shù)據(jù),在接下來的3-12個(gè)月內(nèi)識(shí)別出具有高死亡風(fēng)險(xiǎn)的住院患者。 網(wǎng)址:http:///EKG13tt 14 演講AI1.Tacotron Tacotron,一種端到端的生成文本到語(yǔ)音模型,它直接從字符合成語(yǔ)音。 網(wǎng)址:http:///EKGdip1 2.CTC序列建模 用CTC進(jìn)行序列建模,用于在語(yǔ)音識(shí)別,手寫識(shí)別和其他序列問題中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。 鏈接:http:///EKGgtQs 3.深度語(yǔ)音 Deep Voice,一種完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建實(shí)現(xiàn)文本到語(yǔ)音的系統(tǒng)。該系統(tǒng)包括五個(gè)主要構(gòu)建塊,通過為每個(gè)組件使用神經(jīng)網(wǎng)絡(luò),系統(tǒng)比傳統(tǒng)的文本到語(yǔ)音系統(tǒng)更簡(jiǎn)單,更靈活。 網(wǎng)址:http:///EKGk93S 4.Siri's Voice的深度學(xué)習(xí) Siri語(yǔ)音的深度學(xué)習(xí):用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)網(wǎng)址:http:///EKGFZB5用于機(jī)器學(xué)習(xí)的數(shù)據(jù)集 01 經(jīng)典數(shù)據(jù)集 1.Iris鳶尾花卉數(shù)據(jù)集150分類和聚類 鏈接:http:///EKaE0uv 2.Adult美國(guó)人口普查數(shù)據(jù)48842分類和聚類 鏈接:http:///zlvhR8S 3.Wine葡萄酒數(shù)據(jù)178分類和聚類 鏈接:http:///EKan9Az 4.20 Newsgroups新聞數(shù)據(jù)集19997文本分類和聚類 鏈接:http://qwone/20Newsgroups/ 5.MovieLens電影評(píng)分的數(shù)據(jù)集26000000推薦系統(tǒng) 鏈接:https://datasets/movielens/ 6.MNIST手寫字識(shí)別數(shù)據(jù)集70000手寫字識(shí)別 鏈接:http://exdb/mnist/ 02 圖像處理 1.Labelled Faces in the Wild:13000 張貼有標(biāo)簽的人臉圖像,用于開發(fā)涉及人臉識(shí)別的應(yīng)用。 鏈接:http://vis-www.cs./lfw/ 2.Stanford Dogs Dataset:包含 20580 個(gè)圖像和 120 個(gè)不同品種的狗類別。 鏈接:http:///zTNMWy3 3.Labelme:注釋圖像的大數(shù)據(jù)集。 鏈接:http:///EKq2lMr 4.ImageNet:根據(jù) WordNet 層次結(jié)構(gòu)來組織,其中層次結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)都由成百上千個(gè)圖像來描述。 鏈接:http:/// 5.LSUN:場(chǎng)景理解和許多輔助任務(wù)(房間布局估計(jì)、顯著性預(yù)測(cè)等)。 鏈接:http://lsun.cs./2016/ 6.MS COCO:ImageNet 之外另一個(gè)常用的圖像數(shù)據(jù)集,包含通用圖像理解和注釋。 鏈接:http:/// 7.COIL100:100 個(gè)不同的物體在 360°旋轉(zhuǎn)中以每個(gè)角度成像。 鏈接:http:///EKqLjzo 8.Visual Genome:非常詳細(xì)的視覺知識(shí)庫(kù),配有約 100K 個(gè)圖像的注釋。 鏈接:http:/// 9.Google's Open Images:Creative Commons 下的 900 萬個(gè)圖片的網(wǎng)址集合。 鏈接:http:///EKqyzQF 10.Indoor Scene Recognition:包含 67 個(gè)室內(nèi)類別,總共 15620 個(gè)圖像。 鏈接:http://web./torralba/www/indoor.html 03 情感分析 1.Multidomain Sentiment analysis dataset:有點(diǎn)舊的一個(gè)數(shù)據(jù)集,以亞馬遜的產(chǎn)品評(píng)論為特色。 鏈接:http:///R6yTsJV 2.IMDB reviews:用于二進(jìn)制情感分類的較舊的、相對(duì)較小的數(shù)據(jù)集,具有 25000 個(gè)電影評(píng)論。 鏈接:http:///EKq5nB1 3.Stanford Sentiment Treebank:帶有情感注釋的標(biāo)準(zhǔn)情感數(shù)據(jù)集。 鏈接:http:///EKq5sUY 4.Sentiment140:一個(gè)流行的數(shù)據(jù)集,使用 16 萬條預(yù)先刪除表情符號(hào)的推文 鏈接:http:///EKqtUAC 5.Twitter US Airline Sentiment:2015 年 2 月以來美國(guó)航空公司的推特?cái)?shù)據(jù),分為正面、負(fù)面和中性。 鏈接:http:///EKqtiAY 04 自然語(yǔ)言處理 1.Jeopardy:機(jī)智問答節(jié)目 Jeopardy 中存檔的 20 多萬個(gè)問題。 鏈接:http:///EKqGyIB 2.SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數(shù)據(jù)集。鏈接:http:///EKqbg3h 3.Yelp Reviews:Yelp 發(fā)布的開放數(shù)據(jù)集包含 500 多萬條評(píng)論。 鏈接:https://www./dataset 4.UCI's Spambase:大型垃圾郵件數(shù)據(jù)集,可用于垃圾郵件過濾。 鏈接:http:///EKqbT7z 5.Enron Dataset:Enron 公司高層管理人員的電子郵件數(shù)據(jù),整理成文件夾。 鏈接:https://www.cs./~./enron/ 6.Amazon Reviews:包含來自亞馬遜長(zhǎng)達(dá) 18 年的約 3500 萬條評(píng)論。數(shù)據(jù)包括產(chǎn)品和用戶信息、評(píng)級(jí)和明文審查。 鏈接:http:///RhpYJUu 7.Google Books Ngrams:Google 書籍中的詞匯集合。 鏈接:http:///EKqq3Jh 8.Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個(gè)博客至少包含 200 個(gè)常用英語(yǔ)單詞。 鏈接:http:///EKqqAHL 9.Wikipedia Links data:維基百科全文。數(shù)據(jù)集包含 400 多萬篇文章中的近 19 億字。你可以根據(jù)單詞、短語(yǔ)或段落本身的一部分進(jìn)行搜索。 鏈接:http:///EKqGrJr 10.Gutenberg eBooks List:古騰堡計(jì)劃電子書注釋清單。 鏈接:http:///EKqGOfk 11.Hansards text chunks of Canadian Parliament:加拿大第 36 屆國(guó)會(huì)記錄 130 萬對(duì)文本。 鏈接:http:///EKqGJai 05 音頻數(shù)據(jù)集 1.TIMIT,英文語(yǔ)音識(shí)別數(shù)據(jù)集,包含630個(gè)揚(yáng)聲器的寬帶錄音,八個(gè)主要方言的美式英語(yǔ),每個(gè)閱讀十個(gè)語(yǔ)音豐富的句子。 鏈接:https://catalog.ldc. 2.CHIME,包含環(huán)境噪音的用于語(yǔ)音識(shí)別挑戰(zhàn)賽的數(shù)據(jù)集。 鏈接:http://chime_challenge 3.大型音樂分析數(shù)據(jù)集FMA 鏈接:https://github.com/mdeff/fma 4.音頻數(shù)據(jù)集AudioSet 鏈接:https://audioset/ontology 5.2000 HUB5 English Evaluation Transcripts,僅包含英語(yǔ)的語(yǔ)音數(shù)據(jù)集 鏈接:https://catalog.ldc.upenn 6.LibriSpeech,包含文本和語(yǔ)音的有聲讀物數(shù)據(jù)集,由Vassil Panayotov編寫的大約1000小時(shí)的16kHz讀取英語(yǔ)演講的語(yǔ)料庫(kù)。 鏈接:http://www./12/ 7.VoxForge,帶口音的語(yǔ)音清潔數(shù)據(jù)集 鏈接:http://www./ 06 自動(dòng)駕駛 1.Cityscape Dataset:記錄 50 個(gè)不同城市街道場(chǎng)景的大型數(shù)據(jù)集。 鏈接:https://www./ 2.CSSAD Dataset:該數(shù)據(jù)集可用于自主車輛的感知和導(dǎo)航。數(shù)據(jù)集在發(fā)達(dá)國(guó)家的道路上出現(xiàn)嚴(yán)重偏差。 鏈接:http:///R97oqgG 3.KUL Belgium Traffic Sign Dataset:比利時(shí)佛蘭德區(qū)數(shù)以千計(jì)截然不同的超過 10000 個(gè)的交通標(biāo)志標(biāo)注。 鏈接:http:///EKq40MF 4.Berkeley DeepDrive BDD100k:目前最大的自動(dòng)駕駛?cè)斯ぶ悄軘?shù)據(jù)集。 鏈接:http://bdd-data./ 5.Baidu Apolloscapes:百度 Apollo 計(jì)劃開放的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集。它定義了 26 個(gè)不同語(yǔ)義項(xiàng)目,如汽車、自行車、行人、建筑物、路燈等。 鏈接:http://to/ 6.Comma.ai:7 小時(shí)以上的公路行駛體驗(yàn)。詳細(xì)信息包括車速、加速度、轉(zhuǎn)向角和 GPS 坐標(biāo)。 鏈接:https:///details/comma-dataset 7.Oxford's Robotic Car:一年內(nèi)在英國(guó)牛津同一條路線重復(fù) 100 多次的行駛。數(shù)據(jù)集捕捉天氣、交通和行人的不同組合,以及建筑和道路工程等長(zhǎng)期變化。 鏈接:http://robotcar-dataset.robots./ 8.MIT AGE Lab:在 AgeLab 收集的 1000 多個(gè)小時(shí)的多傳感器驅(qū)動(dòng)數(shù)據(jù)集樣本。 鏈接:http:///carsync/ 9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數(shù)據(jù)集包括交通標(biāo)志、車輛檢測(cè)、交通燈和軌跡模式。 鏈接:http://cvrr./LISA/datasets.html ![]() |
|