'The world's most valuable resource is no longer oil,but data' 一種新的商品催生出一個(gè)利潤(rùn)豐厚、發(fā)展迅速的行業(yè)。這促使反壟斷監(jiān)管機(jī)構(gòu)介入,從而約束那些能夠控制這種商品流動(dòng)的巨頭。 一百年前,石油就是這樣一種資源?,F(xiàn)在,一些經(jīng)營(yíng)數(shù)據(jù)的巨頭引發(fā)了類似擔(dān)憂,這些數(shù)據(jù)將成為數(shù)字時(shí)代的石油。 目前處于數(shù)據(jù)驅(qū)動(dòng)型經(jīng)濟(jì)中,如果無法分析當(dāng)前或未來的趨勢(shì),任何組織都無法生存下去。搶奪數(shù)據(jù)已經(jīng)成為決定下一步行動(dòng)方案的關(guān)鍵。 作為數(shù)據(jù)科學(xué)領(lǐng)域的從業(yè)者來說,對(duì)于數(shù)據(jù)的需求更為強(qiáng)烈。 本次整理了一些NBA、社交網(wǎng)絡(luò)、圖像、語(yǔ)音、文本、時(shí)間序列、人文歷史、金融等領(lǐng)域的免費(fèi)和開源的數(shù)據(jù)集資源。(從正文帶藍(lán)色下劃線鏈接自?。?。 數(shù)據(jù)集 一、NBA球員數(shù)據(jù)集:
二、圖像、文本、語(yǔ)言數(shù)據(jù)集 圖像 1、由79302017幅圖像組成的數(shù)據(jù)集,每幅圖像為32x32像素彩色圖像。 http://horatio.cs./mit/tiny/data/index.html 2、人臉識(shí)別數(shù)據(jù)集。 http://www./databases/ 3、一個(gè)可搜索的圖像數(shù)據(jù)庫(kù)。 http://www./index 語(yǔ)音: 1、CMU語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)。 http://www.speech.cs./databases/ 2、對(duì)音樂分析的數(shù)據(jù)集。 http://users.cis./~lli003/Music/music.html 3、100萬首歌曲的數(shù)據(jù)集 https://labrosa.ee./millionsong/ 文本: 1、用于構(gòu)建機(jī)器學(xué)習(xí)推薦系統(tǒng)的1.5 TB數(shù)據(jù)集 https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1 三、金融和商業(yè)數(shù)據(jù)集: 1、ebay拍賣招標(biāo)數(shù)據(jù)集。 http://www./datasets 2、紐約市警察局的交通事故數(shù)據(jù)(csv格式)。 http://nypd./#/ 3、從aiHit數(shù)據(jù)庫(kù)中隨機(jī)抽取的10,000家英國(guó)公司的信息 https://www./redirect/cons/datasets.html 4、美國(guó)股票新聞數(shù)據(jù) http:///Dataju/web/datasetInstanceDetail/220 5、美國(guó)金融客戶投訴數(shù)據(jù) http:///Dataju/web/datasetInstanceDetail/229 6、Airbnb 開放的民宿信息和住客評(píng)論數(shù)據(jù) http:///Dataju/web/datasetInstanceDetail/360 四、政府出臺(tái)的相關(guān)數(shù)據(jù) 1、健康、環(huán)境、能源等數(shù)據(jù)。 http://data./ 2、經(jīng)濟(jì)時(shí)間系列,由美國(guó)政府機(jī)構(gòu)制作,以多種形式和媒體發(fā)行 http://inforumweb./econdata/econdata.html ![]() 3、USGovXML是一個(gè)由美國(guó)政府提供的公開可用web服務(wù)和XML數(shù)據(jù)源的索引 http:/// 五、技術(shù)、社交網(wǎng)絡(luò)、人文歷史等數(shù)據(jù)集 1、80 Tb的存檔web爬蟲數(shù)據(jù)。 http://blog./2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/ ![]() 2、一個(gè)包含許多“開放”社交網(wǎng)絡(luò)分析數(shù)據(jù)集的可訪問庫(kù)的站點(diǎn)。 http://ww31./overview ![]() 3、斯坦福大型網(wǎng)絡(luò)數(shù)據(jù)集收集。 http://snap./data/index.html ![]() 4、一個(gè)包含谷歌圖書公司的數(shù)據(jù)集。 https://aws.amazon.com/cn/datasets/google-books-ngrams/ ![]() 5、基因遺傳數(shù)據(jù)集。 http://portals./cgi-bin/cancer/datasets.cgi ![]() 6、地球撞擊隕石數(shù)據(jù)。 https://www.analyticbridge./profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized 機(jī)器學(xué)習(xí)數(shù)據(jù)集常用搜索網(wǎng)站 1、Kaggle https://www./competitions 2、加州大學(xué)歐文分校機(jī)器學(xué)習(xí)庫(kù)。 http://archive.ics./ml/index.php ![]() 3、Google數(shù)據(jù)集搜索。 https://toolbox.google.com/datasetsearch 4、Datahub,分享高質(zhì)量數(shù)據(jù)集平臺(tái) https:/// 5、用于上傳和查找數(shù)據(jù)集的機(jī)器學(xué)習(xí)數(shù)據(jù)集存儲(chǔ)庫(kù)。 https://www./www.mldata.org 介紹完以上的數(shù)據(jù),最后分享份收藏已久的數(shù)據(jù)分析課的視頻資源,希望幫助公眾號(hào)的讀者入門! 大家可以在本公眾號(hào)『程序IT圈』上輸入框回復(fù):數(shù)據(jù)。 |
|