AI科技大本營 · 40分鐘前 · 大公司編者按:本文來自微信公眾號“AI科技大本營”(ID:rgznai100),作者 非主流;36氪經(jīng)授權(quán)轉(zhuǎn)載。 繼 Google Scholar(Google 學術(shù)搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。 網(wǎng)址:https://toolbox.google.com/datasetsearch 為什么說這款產(chǎn)品如此重要?因為數(shù)據(jù)從未如此重要。由于深度學習的興起,AI 研究員需要大量的數(shù)據(jù)來訓(xùn)練他們的模型,吳恩達就曾表示,深度學習像火箭,計算是引擎,數(shù)據(jù)是燃料。有時候,數(shù)據(jù)可能比算法更重要。 然而,數(shù)據(jù)集和相關(guān)數(shù)據(jù)往往分布在網(wǎng)上的多個數(shù)據(jù)存儲區(qū)中。在大多數(shù)情況下,搜索引擎既無法提供這些數(shù)據(jù)庫相關(guān)信息的鏈接,也不會將這些信息編入索引,這會導(dǎo)致數(shù)據(jù)尋找變得無比繁瑣,或者在某些情況下無法實現(xiàn)。 一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢,而高校的學者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時雨。當然,其他需要各種數(shù)據(jù)的工作者也能從中受益。 Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。 現(xiàn)在,就讓我們來一起看下這款搜索工具。 與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無論是出版網(wǎng)站、數(shù)字圖書館還是作者的個人網(wǎng)頁。 為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關(guān)數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。 Google 的指南是基于一個數(shù)據(jù)集的開放標準(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過這種方式描述他們的數(shù)據(jù)集。 在這個新版本中,用戶可以找到很多環(huán)境和社會科學相關(guān)的數(shù)據(jù)集,以及其他學科的數(shù)據(jù),包括政府數(shù)據(jù)和新聞機構(gòu)提供的數(shù)據(jù),如 ProPublica。隨著越來越多的數(shù)據(jù)倉庫使用 schema.org 標準來描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長。 目前 Google Dataset Search 已經(jīng)支持多種語言,筆者嘗試了下,除了英文,還支持中文。 我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結(jié)果如下圖所示: 可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應(yīng)的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。 現(xiàn)在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時間段從 2017年7月1日—2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。 打開該數(shù)據(jù)集的鏈接,嗯,是個收費網(wǎng)站。不過,花錢能解決的事,總比毫無頭緒來得好。 Dataset Search 的發(fā)布凸顯了 Google 對數(shù)據(jù)集的重視。最近,Google 也對自家的 Google Search 也進行了改進,使得用戶搜索結(jié)果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過該計劃更側(cè)重于新聞機構(gòu)和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。 Google 表示,這個項目能夠帶來下列好處:
當然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標準來描述自己的數(shù)據(jù),那么搜索結(jié)果肯定會越來越好。 Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜! 針對 Google Scholar,2014 年 6 月百度上線了“百度學術(shù)”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看? 本文經(jīng)授權(quán)發(fā)布,不代表36氪立場。如若轉(zhuǎn)載請聯(lián)系原作者。 |
|