日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Google推出數(shù)據(jù)集搜索:百度,你怎么看?

 昵稱535749 2018-09-06

AI科技大本營 · 40分鐘前 · 大公司

針對 Google Scholar,2014 年 6 月百度上線了“百度學術(shù)”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?

編者按:本文來自微信公眾號“AI科技大本營”(ID:rgznai100),作者 非主流;36氪經(jīng)授權(quán)轉(zhuǎn)載。

繼 Google Scholar(Google 學術(shù)搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。

網(wǎng)址:https://toolbox.google.com/datasetsearch

為什么說這款產(chǎn)品如此重要?因為數(shù)據(jù)從未如此重要。由于深度學習的興起,AI 研究員需要大量的數(shù)據(jù)來訓(xùn)練他們的模型,吳恩達就曾表示,深度學習像火箭,計算是引擎,數(shù)據(jù)是燃料。有時候,數(shù)據(jù)可能比算法更重要。

然而,數(shù)據(jù)集和相關(guān)數(shù)據(jù)往往分布在網(wǎng)上的多個數(shù)據(jù)存儲區(qū)中。在大多數(shù)情況下,搜索引擎既無法提供這些數(shù)據(jù)庫相關(guān)信息的鏈接,也不會將這些信息編入索引,這會導(dǎo)致數(shù)據(jù)尋找變得無比繁瑣,或者在某些情況下無法實現(xiàn)。

一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢,而高校的學者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時雨。當然,其他需要各種數(shù)據(jù)的工作者也能從中受益。

Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。

現(xiàn)在,就讓我們來一起看下這款搜索工具。

與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無論是出版網(wǎng)站、數(shù)字圖書館還是作者的個人網(wǎng)頁。

為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關(guān)數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。

Google 的指南是基于一個數(shù)據(jù)集的開放標準(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過這種方式描述他們的數(shù)據(jù)集。

Google推出數(shù)據(jù)集搜索:百度,你怎么看?

在這個新版本中,用戶可以找到很多環(huán)境和社會科學相關(guān)的數(shù)據(jù)集,以及其他學科的數(shù)據(jù),包括政府數(shù)據(jù)和新聞機構(gòu)提供的數(shù)據(jù),如 ProPublica。隨著越來越多的數(shù)據(jù)倉庫使用 schema.org 標準來描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長。

目前 Google Dataset Search 已經(jīng)支持多種語言,筆者嘗試了下,除了英文,還支持中文。

我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結(jié)果如下圖所示:Google推出數(shù)據(jù)集搜索:百度,你怎么看?

可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應(yīng)的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。

現(xiàn)在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時間段從 2017年7月1日—2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。

Google推出數(shù)據(jù)集搜索:百度,你怎么看?

打開該數(shù)據(jù)集的鏈接,嗯,是個收費網(wǎng)站。不過,花錢能解決的事,總比毫無頭緒來得好。

Google推出數(shù)據(jù)集搜索:百度,你怎么看?

Dataset Search 的發(fā)布凸顯了 Google 對數(shù)據(jù)集的重視。最近,Google 也對自家的 Google Search 也進行了改進,使得用戶搜索結(jié)果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過該計劃更側(cè)重于新聞機構(gòu)和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。

Google 表示,這個項目能夠帶來下列好處:

  • a) 形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);

  • b) 為科學家提供相應(yīng)平臺,方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。

當然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標準來描述自己的數(shù)據(jù),那么搜索結(jié)果肯定會越來越好。

Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜!

針對 Google Scholar,2014 年 6 月百度上線了“百度學術(shù)”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?

本文經(jīng)授權(quán)發(fā)布,不代表36氪立場。如若轉(zhuǎn)載請聯(lián)系原作者。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多