六項能力位居第一：Anthropic推出Claude 3.5，力壓GPT-4o和Gemini 1.5 Pro

江海博覽 2024-06-21 發(fā)布于浙江

展開全文

大模型領(lǐng)域再次迎來新突破。

當?shù)貢r間6月20日，OpenAI的“勁敵”Anthropic公司發(fā)布了最新模型Claude 3.5 Sonnet。

據(jù)Anthropic介紹，該模型是Claude 3.5系列模型中的首個版本，也是Anthropic迄今為止發(fā)布的“最強大、最智能”的模型。它不僅在性能上超越了競爭對手和自家此前最先進的Claude 3 Opus模型，還主打高性價比。

Anthropic 聯(lián)合創(chuàng)始人丹妮拉·阿莫迪（Daniela Amodei ）在接受采訪時表示：“Claude 3.5 Sonnet 是目前市場上功能最強大、最智能、最便宜的模型。在標準的七項智能和能力指標中，它在其中六項上擊敗了所有競爭對手，在第七項上也非常接近（第一名）?！?/span>

目前，所有用戶都可以在Claude.ai網(wǎng)頁端和Claude iOS應(yīng)用上免費使用Claude 3.5 Sonnet，而付費和企業(yè)用戶可以獲得更高的速率（更少的限制）。

此外，用戶也可以通過Anthropic API、亞馬遜Bedrock和谷歌云Vertex AI等服務(wù)調(diào)用該模型。

圖 | Claude 模型系列的性能VS成本對比圖（來源：Anthropic）

成本方面，該模型的每百萬輸入token收費3美元，每百萬輸出token收費15美元，上下文窗口為20萬token。

Anthropic 的特點是專注于企業(yè)市場，這使其有別于 OpenAI 等競爭對手，后者的GPT 模型主要面向消費者。

雖然 OpenAI 在突破大模型能力界限方面取得了重大進展，但 Anthropic 通過根據(jù)企業(yè)的特定需求定制其產(chǎn)品，開辟了一個利基市場。

這種戰(zhàn)略差異在 Claude 3.5 Sonnet 的功能和定價中顯而易見，它優(yōu)先考慮了對企業(yè)客戶最重要的關(guān)鍵因素：花銷與Claude 3 Sonnet完全一致，但模型性能卻有大幅提升。

在安全評估方面，盡管 Claude 3.5 Sonnet 的智能水平大幅提升，但它的人工智能安全水平（ASL）仍處于ASL-2水平，與現(xiàn)有主流大模型相同。

Anthropic在博客中介紹，Claude 3.5 Sonnet 為研究生水平推理 (GPQA)、本科生水平知識 (MMLU) 和編碼能力 (HumanEval)設(shè)定了新的行業(yè)基準。

它在掌握細微差別、幽默和復(fù)雜指令方面表現(xiàn)出顯著的進步，并且擅長以自然、親切的語氣撰寫高質(zhì)量的內(nèi)容。

Claude 3.5 Sonnet的運行速度是前代旗艦?zāi)Ｐ虲laude 3 Opus的兩倍，這對于需要快速響應(yīng)的應(yīng)用場景（如客戶服務(wù)聊天機器人）來說尤為重要。

在內(nèi)部代理編碼評估中，Claude 3.5 Sonnet 解決了 64% 的問題，擊敗了只解決了38%的問題的Claude 3 Opus。

這項評估測試了模型修復(fù)錯誤或向開源代碼庫添加功能的能力，人類測試員給出了所需改進的自然語言描述。

在得到提示和相關(guān)工具后，Claude 3.5 Sonnet 可以獨立編寫、修改和執(zhí)行代碼，并具有強大的推理和故障排除功能。

圖 | Claude 3.5 Sonnet在多項測試中斬獲第一，超越了GPT-4o和Gemini 1.5 Pro 等對手（來源：Anthropic）

在視覺分析方面，Claude 3.5 Sonnet也有了質(zhì)的飛躍。

Antropic表示，Claude 3.5 Sonnet 是其迄今為止最強大的視覺模型，在標準視覺基準上超越了 Claude 3 Opus。

據(jù)介紹，它能夠更準確地解讀圖表和圖形，并且可以從“不完美”的圖像中轉(zhuǎn)錄文本，如存在失真和視覺偽影的圖片。這些能力的提升使Claude 3.5 Sonnet在處理復(fù)雜的視覺任務(wù)時更加得心應(yīng)手，也可以獲得比純文本更多的信息和見解。

“對于標準視覺指標，我們在五項指標中的四項上名列前茅，剩下的一項也相差不多。”阿莫迪告訴媒體。

圖 | Claude 3.5 Sonnet在多項視覺測試中超越了GPT-4o和Gemini 1.5 Pro 等對手（來源：Anthropic）

除了新模型，Anthropic 還推出了一項名為 Artifacts 的新功能。

借助 Artifacts，用戶能夠查看并與 Claude 模型給出的結(jié)果進行交互。如果你要求模型為你設(shè)計某個東西，它現(xiàn)在可以向你展示它的外觀并讓你直接在應(yīng)用程序中進行編輯。

圖 | Artifacts功能演示（來源：Anthropic）

如果 Claude 幫你寫了一封電子郵件，你可以在 Claude 應(yīng)用中直接編輯該郵件，而不必將其復(fù)制到文本編輯工具中。

這是一個很小的功能，但卻很實用。這些人工智能工具的意義不僅僅是簡單的聊天機器人，像 Artifacts 這樣的功能可以讓應(yīng)用程序有更多協(xié)作功能，帶來更便捷的用戶體驗。

“這項新功能標志著 Claude 從對話式人工智能進化為協(xié)作式工作環(huán)境。這只是 Claude.ai 更廣闊愿景的開始，該愿景很快將進一步支持更大規(guī)模的團隊協(xié)作?！盇nthropic寫道。

Anthropic表示，其目標是每隔幾個月就大幅改善智能、速度和成本之間的權(quán)衡曲線。為了補全 Claude 3.5 模型系列，它將在今年晚些時候發(fā)布 Claude 3.5 Haiku（低端型號）和 Claude 3.5 Opus（高端型號）。

除了開發(fā)下一代模型系列外，該公司還在開發(fā)新模式和功能，以支持更多企業(yè)用例，包括與企業(yè)應(yīng)用程序集成。

其團隊還在探索諸如 Memory 之類的功能，該功能將使 Claude 模型記住用戶的偏好和指定的交互歷史記錄，從而使用戶體驗更加個性化和高效。

最后，Anthropic強調(diào)，指導(dǎo)其人工智能模型開發(fā)的核心原則之一是隱私。

除非用戶明確允許，否則Anthropic不會使用用戶提交的數(shù)據(jù)來訓(xùn)練其生成式模型。到目前為止，它還沒有使用任何客戶或用戶提交的數(shù)據(jù)來訓(xùn)練模型。

參考資料：

https://www./news/claude-3-5-sonnet

https:///ai/anthropic-unveils-claude-3-5-sonnet-pushing-the-boundaries-of-ai-capabilities-and-affordability/

排版：羅以

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：江海博覽 > 《科技》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

江海博覽

關(guān)注對話

TA的最新館藏

血栓最怕這7類食物，告訴家人要多吃！
2塊錢的愛眼冠軍，很多人都不知道怎么給娃吃。
醫(yī)生強調(diào)：超過70歲的老人，寧可不喝水渴著，也別在4個時候喝水
核聚變重大突破！功率提升100倍，成本降低50%
揉通這3個養(yǎng)肝穴，相當于吃“逍遙丸”，疏肝解郁、淡化斑點
一年當中哪個月份最適合懷孕？真不是迷信，中了的大人孩子都有福

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

六項能力位居第一：Anthropic推出Claude 3.5，力壓GPT-4o和Gemini 1.5 Pro

六項能力位居第一：Anthropic推出Claude 3.5，力壓GPT-4o和Gemini 1.5 Pro