日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

2020年arXiv十大熱門論文來了!不止GPT-3、SimCLR、YOLOv4...

 520jefferson 2021-01-08

轉(zhuǎn)載自 | AI科技評論

作者| 陳大鑫

近日,有位外國網(wǎng)友在Reddit上發(fā)帖稱利用metacurate.io持續(xù)讀取了2020年度arxiv上有關(guān)AI、機器學習、NLP和數(shù)據(jù)科學的大量論文資源。到2020年末,metacurate.io總共檢索了94,000多個論文鏈接。

然后,匯總到一起,并根據(jù)7天的社交媒體熱度對所有論文進行熱度評分,最后選出來了十大arXiv熱門論文,其中就有GPT-3、SimCLR、YOLOv4等研究工作。

以下是就是這十篇熱門的arxiv論文,排名不分先后。

1、《Towards a Human-like Open-Domain Chatbot》.

論文鏈接:https:///abs/2001.09977

本文介紹了Meena,這是一個多輪的開放域聊天機器人,對從公共領(lǐng)域社交媒體對話中提取和過濾的數(shù)據(jù)進行了端到端的訓練。對該2.6B參數(shù)神經(jīng)網(wǎng)絡(luò)進行簡單的訓練即可最大程度地減少下一個token的復雜度。本文還提出了一種被稱為“敏感度和特異度平均值(SSA:Sensibleness and Specificity Average)”的人類評估指標,該指標可捕捉類似于人類的多輪對話的關(guān)鍵元素。本文的實驗表明,復雜度與SSA之間有很強的相關(guān)性。

最優(yōu)復雜度的端到端訓練有素的Meena在SSA上得分很高(多輪評估為72%),這表明如果我們可以更好地優(yōu)化復雜度,則人類水平的86%SSA是可以達到的。此外,完整版本的Meena(具有過濾機制和調(diào)諧解碼功能)的SSA得分為79%,比我們評估的現(xiàn)有聊天機器人的絕對SSA得分高23%。

2、《A Simple Framework for Contrastive Learning of Visual Representations》.

論文鏈接:https:///abs/2002.05709

這篇論文來自深度學習之父Hinton負責的谷歌大腦團隊,論文一作Ting chen是位華人,本科在北郵就讀。

本文介紹了SimCLR:用于視覺表示的對比學習的簡單框架。本文簡化了最近提出的對比自我監(jiān)督學習算法,而無需專門的架構(gòu)或存儲庫。

本文證明:

1、數(shù)據(jù)擴充的組合在定義有效的預測任務(wù)中起著至關(guān)重要的作用;

2、在表示和對比損失之間引入可學習的非線性變換,可以大大提高所學習表示的質(zhì)量;

3、與監(jiān)督學習相比,對比學習受益于更大的batch和更多的訓練步驟。

通過結(jié)合這些發(fā)現(xiàn),本文能夠大大勝過ImageNet上用于自監(jiān)督和半監(jiān)督學習的先前的很多SOTA方法。SimCLR學習到的基于自監(jiān)督表示訓練的線性分類器達到了76.5%的top-1準確性,相對于以前的SOTA水平有7%的相對提升,與監(jiān)督學習的ResNet-50的性能相匹配。當僅對1%的標簽進行微調(diào)時,本文可以達到85.8%的top-5精度,而相比AlexNet的標簽數(shù)量減少了100倍。

3、《Language Models are Few-Shot Learners》.

論文鏈接:https:///abs/2005.14165

這篇論文就是無人不知無人不曉的來自O(shè)penAI團隊打造的2020年AI圈最為火爆的GPT-3 !

本文證明,通過擴大語言模型的參數(shù)規(guī)模,可以極大地提高與任務(wù)無關(guān)的、少樣本學習性能,有時甚至可以與現(xiàn)有的當前最佳微調(diào)方法相提并論。

具體來說,我們訓練了GPT-3(一個具有1750億個參數(shù)的自回歸語言模型,參數(shù)量是以前的任何非稀疏語言模型的10倍),并在少樣本學習設(shè)置下測試其性能。

對于所有任務(wù),GPT-3都可以在不進行任何梯度更新或微調(diào)的情況下使用,僅需要通過與模型的文本交互指定任務(wù)和少量演示即可。

GPT-3在許多NLP數(shù)據(jù)集上均具有出色的性能,包括翻譯、問答等任務(wù)。不過,我們還發(fā)現(xiàn)了一些數(shù)據(jù)集,在這些數(shù)據(jù)集上GPT3的少樣本學習仍然困難重重。此外,在一些數(shù)據(jù)集上,GPT-3也面臨一些與大型Web語料庫訓練有關(guān)的方法論問題。  

這篇論文獲得了NeurIPS 2020的最佳論文,其獲獎理由如下

語言模型是解決NLP中一系列問題的現(xiàn)代技術(shù)的骨干部分。這篇論文表明,當將此類語言模型擴展到前所未有的參數(shù)數(shù)量時,語言模型本身可以用作少樣本學習的工具,無需任何額外的訓練就可以在許多NLP問題上取得非常出色的表現(xiàn)。

GPT-3是一個令人感到震撼的工作,有望對NLP領(lǐng)域產(chǎn)生重大影響,并經(jīng)受住時間的考驗。除了科學上的突破,這篇論文還對工作的深遠影響進行了和全面且深入的詮釋,可以作為NeurIPS社區(qū)思考如何考慮研究的實際影響的示例。

4、《A Survey of Deep Learning for Scientific Discovery 》.

論文鏈接:https:///abs/2003.11755

在過去的幾年中,我們已經(jīng)看到了機器學習核心問題的根本性突破,這在很大程度上是由深度神經(jīng)網(wǎng)絡(luò)的進步所推動的。同時,在廣泛的科學領(lǐng)域中收集的數(shù)據(jù)量在規(guī)模和復雜性方面都在急劇增加。這為在科學環(huán)境中進行深度學習應(yīng)用提供了許多令人感到興奮的機會。

但是,一個重大的挑戰(zhàn)是不同深度學習技術(shù)的廣泛性和多樣性使得人們很難確定哪些科學問題最適合這些方法,或者哪種方法的特定組合可能提供最有希望的第一種方法。

在本次研究調(diào)查中,作者專注于解決這一核心問題,并概述了許多廣泛使用的深度學習模型,其中涵蓋了視覺、序列和圖形結(jié)構(gòu)化數(shù)據(jù),關(guān)聯(lián)的任務(wù)和不同的訓練方法,以及使用較少數(shù)據(jù)和更好地解釋這些復雜的模型---許多科學用例的兩個主要考慮因素。作者還提供了整個設(shè)計過程的概述、實施技巧,并鏈接了由社區(qū)開發(fā)的大量教程、研究摘要以及開源的深度學習pipeline和預訓練的模型。作者希望這項調(diào)查將有助于加速跨學科領(lǐng)域深度學習的使用。

5、《YOLOv4: Optimal Speed and Accuracy of Object Detection》.

論文鏈接:https:///abs/2004.10934

代碼:https://github.com/AlexeyAB/darknet

2002年4月份的某一天,CV圈被YOLOv4刷屏了,之前,YOLO系列(v1-v3)作者 Joe Redmon 宣布不再繼續(xù)CV方向的研究,引起學術(shù)圈一篇嘩然。

當大家以為再也見不到Y(jié)OLOv4的時候,然鵝那一天 YOLOv4 終究還是來了!
YOLOv4的作者陣容里并沒有Joe Redmon,YOLO官方github正式加入YOLOv4的論文和代碼鏈接,也意味著YOLOv4得到了Joe Redmon的認可,也代表著YOLO的停更與交棒。

大家一定被文章開頭的圖片吸引了,位于圖中靠右上角的YOLOv4 多么'亮眼',越靠右上角意味著AP越高、速度FPS越快!而且YOLO被大家追捧的原因之一就是:快而準。YOLOv4 在COCO上,可達43.5% AP,速度高達 65 FPS!

本文的主要貢獻如下:
1. 提出了一種高效而強大的目標檢測模型。它使每個人都可以使用1080 Ti或2080 Ti GPU 訓練超快速和準確的目標檢測器(牛逼?。?/section>
2. 在檢測器訓練期間,驗證了SOTA的Bag-of Freebies 和Bag-of-Specials方法的影響。
3. 改進了SOTA的方法,使它們更有效,更適合單GPU訓練,包括CBN ,PAN ,SAM等。文章將目前主流的目標檢測器框架進行拆分:input、backbone、neck 和 head。具體如下圖所示:
  • 對于GPU,作者在卷積層中使用:CSPResNeXt50 / CSPDarknet53
  • 對于VPU,作者使用分組卷積,但避免使用(SE)塊-具體來說,它包括以下模型:EfficientNet-lite / MixNet / GhostNet / MobileNetV3

更多內(nèi)容請移步“大神接棒,YOLOv4來了!”一文。

6、《Deep Differential System Stability — Learning advanced computations from examples》.

論文鏈接:https:///abs/2006.06462  

神經(jīng)網(wǎng)絡(luò)可以從示例中學到高級數(shù)學計算嗎?通過在大型生成的數(shù)據(jù)集上使用Transformer,我們訓練模型以學習差分系統(tǒng)的屬性,例如局部穩(wěn)定性,無窮大行為和可控性。

本文獲得了系統(tǒng)定性特性的近乎完美的估計,以及數(shù)值定量的良好近似值,這表明神經(jīng)網(wǎng)絡(luò)無需內(nèi)置數(shù)學知識即可學習高級定理和復雜的計算。

7、《AutoML-Zero: Evolving Machine Learning Algorithms From Scratch》.

論文鏈接:https:///abs/2003.03384

機器學習研究已在多個方面取得了進步,包括模型結(jié)構(gòu)和學習方法。使此類研究自動化的工作(稱為AutoML)也取得了重大進展。但是,這一進展主要集中在神經(jīng)網(wǎng)絡(luò)的體系架構(gòu)上,在該體系架構(gòu)中,神經(jīng)網(wǎng)絡(luò)依賴于專家設(shè)計的復雜層作為構(gòu)建塊(block),或類似的限制性搜索空間。本文的目標是證明AutoML可以走得更遠:有可能僅使用基本的數(shù)學運算作為構(gòu)建塊就可以自動發(fā)現(xiàn)完整的機器學習算法。

本文通過引入一個新的框架來證明這一點,該框架可以通過通用搜索空間顯著減少人為偏見。

盡管空間很大,但是進化搜索仍然可以發(fā)現(xiàn)通過反向傳播訓練的兩層神經(jīng)網(wǎng)絡(luò)。然后,接著可以通過直接在感興趣的任務(wù)上來進行研究探索,例如雙線性相互作用、歸一化梯度和權(quán)重平均。此外,演化使得算法能適應(yīng)不同的任務(wù)類型:例如,當可用數(shù)據(jù)很少時,出現(xiàn)類似于Dropout的技術(shù)。作者相信這些從頭開始發(fā)現(xiàn)機器學習算法的初步成功為該領(lǐng)域指明了一個有希望的新方向。

8、《Deploying Lifelong Open-Domain Dialogue Learning 》.

論文鏈接:https:///abs/2008.08076

NLP的很多研究都集中在眾包靜態(tài)數(shù)據(jù)集( crowdsourced static datasets)和訓練一次然后評估測試性能的監(jiān)督學習范式上。但是如de Vries等人所述,眾包數(shù)據(jù)存在缺乏自然性和與真實世界用例相關(guān)性的問題,而靜態(tài)數(shù)據(jù)集范式不允許模型從其使用語言的經(jīng)驗中學習。相反,人們希望機器學習系統(tǒng)在與人互動時變得更加有用。

在這項工作中,作者構(gòu)建并部署了一個角色扮演游戲,人類玩家可以與位于開放域幻想世界中的學習 agent交談。本文顯示,通過訓練模型來模擬他們在游戲中與人類的對話,通過自動指標和在線參與度評分可以逐步改善模型。當將這種學習應(yīng)用于與真實用戶的對話時,它比眾包數(shù)據(jù)更有效,并且書籍收集起來要便宜得多。

9、《A Primer in BERTology: What we know about how BERT works》.

論文鏈接:https:///abs/2002.12327

本文是一篇綜述性文章,概述了目前學術(shù)界對Bert已取得的150多項研究成果,并且對后續(xù)的研究也進行了展望,適合于初入BERT模型的人員學習。本文主要從BERT網(wǎng)絡(luò)結(jié)構(gòu)、BERT embeddings、BERT中的句法知識(Syntactic knowledge)、語義知識(Semantic knowledge)和知識庫(World knowledge)以及Self-attention機制等角度對當下學術(shù)界對BERT的研究進行了說明,基于前面的介紹,作者對BERT是如何訓練、當模型過于復雜時應(yīng)給如何解決等問題給出了相應(yīng)的解決方案。最后作者對BERT未來的研究方向以及需要解決的問題提出了展望。

10、《Building high accuracy emulators for scientific simulations with deep neural architecture search 》.

論文鏈接:https:///abs/2001.08055

計算機仿真(模擬)是進行科學發(fā)現(xiàn)的寶貴工具。但是,精確的仿真通常執(zhí)行起來很慢,這限制了它們在廣泛的參數(shù)探索、大規(guī)模數(shù)據(jù)分析和不確定性量化中的適用性。通過構(gòu)建具有機器學習功能的快速仿真器來加速仿真的一種有希望的途徑,但是這需要大量的訓練數(shù)據(jù)集,而對于低速仿真而言,獲得龐大的訓練數(shù)據(jù)集可能會非常昂貴。

在這里,本文提出了一種基于神經(jīng)體系架構(gòu)搜索的方法,即使在訓練數(shù)據(jù)數(shù)量有限的情況下,也可以構(gòu)建準確的仿真器。

該方法使用相同的超級體系架構(gòu)、算法和超參數(shù),成功地將10個科學案例的模擬仿真速度提高了20億倍,這些案例包括天體物理學、氣候科學、生物地球化學、高能物理學等等。

本文的方法還固有地提供了仿真器不確定性估計,我們預計這項工作將加速涉及昂貴仿真的研究,允許研究人員進行更廣泛的參數(shù)探索,并實現(xiàn)以前無法實現(xiàn)的新計算發(fā)現(xiàn)。

十篇熱門論文看完,有網(wǎng)友質(zhì)疑說Alphafold都不配上榜嗎?隨后有其他網(wǎng)友解釋道Alphafold的論文發(fā)在了Nature上和Deepmind的研究博客上,而不是在arxiv上。
最后,本文的十篇論文統(tǒng)計也許和大家心里的論文榜單有出入,畢竟每個人都有自己的哈姆雷特。

參考鏈接:https://www./r/MachineLearning/comments/koee07/p_top_10_arxiv_papers_in_2020_according_to/

    

下載1:四件套

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多