新智元報(bào)道 【新智元導(dǎo)讀】模型不open?沒關(guān)系,亞馬遜云科技幫你open。官宣Bedrock平臺,定制芯片打下訓(xùn)練推理成本,生成式AI競賽,越來越精彩了。如火如荼的AI競賽,亞馬遜云科技也下場了。 有些不同的是,除了自己構(gòu)建的AI模型,他們還招募第三方在亞馬遜云科技上托管模型。 憑借這個(gè)叫Amazon Bedrock的平臺,亞馬遜云科技正式進(jìn)軍生成式AI賽道。 在極優(yōu)性能的云基礎(chǔ)設(shè)施上,大規(guī)模運(yùn)行生成式AI應(yīng)用,毫無疑問,亞馬遜云科技在掀起一場顛覆性變革。 AIGC的「基石」:基礎(chǔ)模型 過去的十多年里,人工智能領(lǐng)域大部分研究集中在訓(xùn)練神經(jīng)網(wǎng)絡(luò)來完成一項(xiàng)特定的任務(wù)。 比如在CV中,圖像分類、分割、或者識別圖中是否是一只貓;在NLP中,語義檢索、翻譯等等。 直到ChatGPT的橫空出世,甚至可以說最早從Stable Diffusion開始,生成式AI的能力逐漸打破人們原有的認(rèn)知。 在大模型加持下的AI工具,不僅能創(chuàng)造新穎的內(nèi)容,還能夠生成圖片、視頻、音樂,以往它從未見過的東西。 研究者發(fā)現(xiàn),當(dāng)參數(shù)量足夠多,或者達(dá)到一定規(guī)模時(shí),大模型就會出現(xiàn)一種不可預(yù)測現(xiàn)象,也就是「涌現(xiàn)」能力。 隨著機(jī)器學(xué)習(xí)進(jìn)步,特別是基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),使得開發(fā)數(shù)十億參數(shù)規(guī)模的FMs成為可能。 正是GPT-3、DELL-E、GPT-4等超大模型興起,讓語言模型的訓(xùn)練范式發(fā)生了重大變化。 模型訓(xùn)練過程不再過度依賴顯性標(biāo)注,能夠根據(jù)句子中已有單詞,預(yù)測一下詞,實(shí)現(xiàn)了智能體的認(rèn)知能力進(jìn)步。 其實(shí),這些大模型就是李飛飛等人在2021年提出的「基礎(chǔ)模型」(Foundation Models)。 因?yàn)樵诖罅康臄?shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,基礎(chǔ)模型已具有了高度適應(yīng)性,能夠完成一系列下游任務(wù)。 基礎(chǔ)模型的優(yōu)勢就在于,可以被用于微調(diào)的特定領(lǐng)域,或者創(chuàng)建一個(gè)業(yè)務(wù)模型的起點(diǎn)。在理解數(shù)行為方面,F(xiàn)M當(dāng)然是最好的。 微調(diào)模型,就需要在特定數(shù)據(jù)集(有標(biāo)注)進(jìn)一步訓(xùn)練而來的模型。 而這種數(shù)據(jù)集是解決特定任務(wù)所需的,因?yàn)榇竽P椭荒茏龅健负芏?,但不能做到「很?!埂?/span> 微調(diào)后的模型結(jié)合了2點(diǎn)優(yōu)勢:一是對數(shù)據(jù)結(jié)構(gòu)的理解,再一個(gè)是通過標(biāo)注數(shù)據(jù)的形式了解業(yè)務(wù)問題的背景。 這樣一來,微調(diào)后的模型同樣能夠?qū)崿F(xiàn),在特定領(lǐng)域生成類人的文本或圖像。 就比如,彭博推出了金融領(lǐng)域?qū)S玫?00億參數(shù)大模型BloombergGPT。 由此可見,基礎(chǔ)模型是生成式AI的關(guān)鍵,是AIGC的基石。 大模型雖好,但一般人并用不起 當(dāng)下,整個(gè)業(yè)界呼聲最高的便是,哪里有大模型可用。 我們都知道,訓(xùn)練一個(gè)超大規(guī)模的語言模型,同樣離不開三駕馬車:算法、算力、數(shù)據(jù)。 而且還需要的是超強(qiáng)算法、超大算力和數(shù)據(jù)。 就拿訓(xùn)練ChatGPT來說,微軟曾揭秘了為OpenAI斥資數(shù)十億美元,用了3萬多個(gè)英偉達(dá)A100打造超算。 為了擺脫這一困境,報(bào)道稱微軟早在2019年開始,就投入300人團(tuán)隊(duì)自研芯片Athena。 數(shù)據(jù)方面,雖然現(xiàn)在僅依靠少樣本數(shù)據(jù)來訓(xùn)練模型,但數(shù)據(jù)可用性也是一大難題。 最近,紐約時(shí)報(bào)稱,Reddit便開始計(jì)劃向使用平臺數(shù)據(jù)訓(xùn)練模型的公司收費(fèi),其中就包括微軟、谷歌、OpenAI等公司。 而要訓(xùn)練出真正優(yōu)秀的大語言模型,不僅需要耗費(fèi)資本,還需要足夠多的時(shí)間。2022年,GPT-4模型訓(xùn)練完成后,還用了6個(gè)月的時(shí)間,進(jìn)行了微調(diào)和測試。 這也恰恰解釋了為什么大多數(shù)公司都想用大型語言模型,但又不想投入太多成本。只想借用基礎(chǔ)模型泛化能力,用自己特定領(lǐng)域的數(shù)據(jù),去微調(diào)模型。 對此,亞馬遜云科技做了大量的用戶調(diào)研后,發(fā)現(xiàn)客戶的主要需求是—— 1. 需要一個(gè)簡單的方法來查找和訪問高性能基礎(chǔ)大模型,既要提供出色的結(jié)果,也要符合自己的目標(biāo)。 2. 需要模型能夠無縫地集成到應(yīng)用程序中,而不必管理龐大的基礎(chǔ)設(shè)施集群或產(chǎn)生大量成本。 3. 希望能夠輕松獲得基礎(chǔ)大模型,并使用自己的數(shù)據(jù)(少量或大量數(shù)據(jù))構(gòu)建差異化應(yīng)用。 由于客戶希望用于定制的數(shù)據(jù)是非常寶貴的IP,因此他們需要在此過程中保持完全的保護(hù)、安全和隱私,并且他們希望控制其數(shù)據(jù)的共享和使用方式。 Bedrock:主打的就是一個(gè)模型定制+數(shù)據(jù)隱私 為了解決這些問題,亞馬遜云科技認(rèn)為,應(yīng)該讓生成式AI技術(shù)變得普惠起來。 也就是說,AIGC并不獨(dú)屬于少數(shù)初創(chuàng)公司和資金雄厚的大廠,而是要讓更多公司從中受益。 于是,一個(gè)名為Bedrock的基礎(chǔ)大模型云服務(wù),便應(yīng)運(yùn)而生了。 而Bedrock也是亞馬遜云科技在生成式AI市場上最大的一次嘗試,根據(jù)Grand View Research的估計(jì),到2030年,該市場的價(jià)值可能接近1100億美元。 值得一提的是,Bedrock最重要的特色,就是讓開發(fā)者能夠輕松定制模型,并構(gòu)建屬于自己的生成式AI應(yīng)用程序。 在訓(xùn)練時(shí),Bedrock會為開發(fā)者創(chuàng)建一個(gè)基礎(chǔ)模型的副本,并對此私有副本進(jìn)行訓(xùn)練。其中,所有的數(shù)據(jù)都經(jīng)過加密的,并且不會離開虛擬專用云(VPC)。此外,這些數(shù)據(jù)也不會被用來訓(xùn)練底層大模型。 此外,開發(fā)者還可以通過在Amazon S3中提供一些標(biāo)注示例來為特定任務(wù)微調(diào)模型,無需大量個(gè)人數(shù)據(jù)就能產(chǎn)生比較滿意的結(jié)果。 更重要的是,Bedrock可以與平臺上其他的工具和功能配合使用,這意味著開發(fā)者無需管理任何額外的基礎(chǔ)設(shè)施。 自研「泰坦」+第三方SOTA模型具體來說,Bedrock主要包含兩部分,一個(gè)是亞馬遜云科技自己的模型Titan,另一個(gè)是來自初創(chuàng)公司AI21 Labs、Anthropic,以及Stability AI的基礎(chǔ)模型。 基礎(chǔ)模型具體包括:
![]() ![]() AIGC爆發(fā),云服務(wù)供應(yīng)商需求猛增自研芯片:訓(xùn)練推理成本被打下來了 ![]() 20年,刻在DNA里的AI ![]() ![]() ![]() |
|