大模型領(lǐng)域再次迎來新突破。 當?shù)貢r間6月20日,OpenAI的“勁敵”Anthropic公司發(fā)布了最新模型Claude 3.5 Sonnet。 據(jù)Anthropic介紹,該模型是Claude 3.5系列模型中的首個版本,也是Anthropic迄今為止發(fā)布的“最強大、最智能”的模型。它不僅在性能上超越了競爭對手和自家此前最先進的Claude 3 Opus模型,還主打高性價比。 Anthropic 聯(lián)合創(chuàng)始人丹妮拉·阿莫迪(Daniela Amodei )在接受采訪時表示:“Claude 3.5 Sonnet 是目前市場上功能最強大、最智能、最便宜的模型。在標準的七項智能和能力指標中,它在其中六項上擊敗了所有競爭對手,在第七項上也非常接近(第一名)?!?/span> 目前,所有用戶都可以在Claude.ai網(wǎng)頁端和Claude iOS應(yīng)用上免費使用Claude 3.5 Sonnet,而付費和企業(yè)用戶可以獲得更高的速率(更少的限制)。 此外,用戶也可以通過Anthropic API、亞馬遜Bedrock和谷歌云Vertex AI等服務(wù)調(diào)用該模型。 圖 | Claude 模型系列的性能VS成本對比圖(來源:Anthropic) 成本方面,該模型的每百萬輸入token收費3美元,每百萬輸出token收費15美元,上下文窗口為20萬token。 Anthropic 的特點是專注于企業(yè)市場,這使其有別于 OpenAI 等競爭對手,后者的GPT 模型主要面向消費者。 雖然 OpenAI 在突破大模型能力界限方面取得了重大進展,但 Anthropic 通過根據(jù)企業(yè)的特定需求定制其產(chǎn)品,開辟了一個利基市場。 這種戰(zhàn)略差異在 Claude 3.5 Sonnet 的功能和定價中顯而易見,它優(yōu)先考慮了對企業(yè)客戶最重要的關(guān)鍵因素:花銷與Claude 3 Sonnet完全一致,但模型性能卻有大幅提升。 在安全評估方面,盡管 Claude 3.5 Sonnet 的智能水平大幅提升,但它的人工智能安全水平(ASL)仍處于ASL-2水平,與現(xiàn)有主流大模型相同。 Anthropic在博客中介紹,Claude 3.5 Sonnet 為研究生水平推理 (GPQA)、本科生水平知識 (MMLU) 和編碼能力 (HumanEval)設(shè)定了新的行業(yè)基準。 它在掌握細微差別、幽默和復(fù)雜指令方面表現(xiàn)出顯著的進步,并且擅長以自然、親切的語氣撰寫高質(zhì)量的內(nèi)容。 Claude 3.5 Sonnet的運行速度是前代旗艦?zāi)P虲laude 3 Opus的兩倍,這對于需要快速響應(yīng)的應(yīng)用場景(如客戶服務(wù)聊天機器人)來說尤為重要。 在內(nèi)部代理編碼評估中,Claude 3.5 Sonnet 解決了 64% 的問題,擊敗了只解決了38%的問題的Claude 3 Opus。 這項評估測試了模型修復(fù)錯誤或向開源代碼庫添加功能的能力,人類測試員給出了所需改進的自然語言描述。 在得到提示和相關(guān)工具后,Claude 3.5 Sonnet 可以獨立編寫、修改和執(zhí)行代碼,并具有強大的推理和故障排除功能。 圖 | Claude 3.5 Sonnet在多項測試中斬獲第一,超越了GPT-4o和Gemini 1.5 Pro 等對手(來源:Anthropic) 在視覺分析方面,Claude 3.5 Sonnet也有了質(zhì)的飛躍。 Antropic表示,Claude 3.5 Sonnet 是其迄今為止最強大的視覺模型,在標準視覺基準上超越了 Claude 3 Opus。 據(jù)介紹,它能夠更準確地解讀圖表和圖形,并且可以從“不完美”的圖像中轉(zhuǎn)錄文本,如存在失真和視覺偽影的圖片。這些能力的提升使Claude 3.5 Sonnet在處理復(fù)雜的視覺任務(wù)時更加得心應(yīng)手,也可以獲得比純文本更多的信息和見解。 “對于標準視覺指標,我們在五項指標中的四項上名列前茅,剩下的一項也相差不多。”阿莫迪告訴媒體。 圖 | Claude 3.5 Sonnet在多項視覺測試中超越了GPT-4o和Gemini 1.5 Pro 等對手(來源:Anthropic) 除了新模型,Anthropic 還推出了一項名為 Artifacts 的新功能。 借助 Artifacts,用戶能夠查看并與 Claude 模型給出的結(jié)果進行交互。如果你要求模型為你設(shè)計某個東西,它現(xiàn)在可以向你展示它的外觀并讓你直接在應(yīng)用程序中進行編輯。 圖 | Artifacts功能演示(來源:Anthropic) 如果 Claude 幫你寫了一封電子郵件,你可以在 Claude 應(yīng)用中直接編輯該郵件,而不必將其復(fù)制到文本編輯工具中。 這是一個很小的功能,但卻很實用。這些人工智能工具的意義不僅僅是簡單的聊天機器人,像 Artifacts 這樣的功能可以讓應(yīng)用程序有更多協(xié)作功能,帶來更便捷的用戶體驗。 “這項新功能標志著 Claude 從對話式人工智能進化為協(xié)作式工作環(huán)境。這只是 Claude.ai 更廣闊愿景的開始,該愿景很快將進一步支持更大規(guī)模的團隊協(xié)作?!盇nthropic寫道。 Anthropic表示,其目標是每隔幾個月就大幅改善智能、速度和成本之間的權(quán)衡曲線。為了補全 Claude 3.5 模型系列,它將在今年晚些時候發(fā)布 Claude 3.5 Haiku(低端型號)和 Claude 3.5 Opus(高端型號)。 除了開發(fā)下一代模型系列外,該公司還在開發(fā)新模式和功能,以支持更多企業(yè)用例,包括與企業(yè)應(yīng)用程序集成。 其團隊還在探索諸如 Memory 之類的功能,該功能將使 Claude 模型記住用戶的偏好和指定的交互歷史記錄,從而使用戶體驗更加個性化和高效。 最后,Anthropic強調(diào),指導(dǎo)其人工智能模型開發(fā)的核心原則之一是隱私。 除非用戶明確允許,否則Anthropic不會使用用戶提交的數(shù)據(jù)來訓(xùn)練其生成式模型。到目前為止,它還沒有使用任何客戶或用戶提交的數(shù)據(jù)來訓(xùn)練模型。 排版:羅以 |
|