
 OpenAI機(jī)器人來了,說話竟然會“結(jié)巴”,AI負(fù)責(zé)人深度拆解背后技術(shù)。OpenAI大模型加持,F(xiàn)igure機(jī)器人再次顛覆了我們的想象!
▲測試員說自己餓了,問Figure 01有什么能吃的,F(xiàn)igure 01準(zhǔn)確地理解蘋果是可食用的并精準(zhǔn)遞送了過去 智東西3月14日消息,昨晚機(jī)器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻。視頻中,F(xiàn)igure 01可以輕松完成很多高難度動(dòng)作:判斷自己眼前看到的這些東西相互之間有什么關(guān)聯(lián);給饑餓的測試員找到桌子上唯一能吃的蘋果并精準(zhǔn)遞送過去;進(jìn)行“回憶”,并對自己做過的事情給出評價(jià);用簡單易懂的話語口頭解釋自己做事的緣由,比如為什么覺得自己做的好?這背后,Figure 01用上了OpenAI的大模型能力。整個(gè)過程中,Figure 01的動(dòng)作非常流暢自然,對人類語言的理解以及背后含義也能充分Get到,同時(shí)很多語言、動(dòng)作上的細(xì)節(jié)跟人類非常相似,它甚至還會“結(jié)巴”!簡直令人驚掉下巴。
▲測試員提問說,你覺得你剛才做的怎么樣,F(xiàn)igure 01對自己之前的行為進(jìn)行了評價(jià)并說明原因 Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch對該演示進(jìn)行了深入技術(shù)拆解。Corey Lynch特別強(qiáng)調(diào)說,這一切都是機(jī)器人自己學(xué)習(xí)并完成的,沒有任何人為操控,而且是標(biāo)準(zhǔn)的“1倍速”。
▲Corey Lynch發(fā)文進(jìn)行技術(shù)拆解 Figure創(chuàng)始人發(fā)文稱,OpenAI提供了視覺推理和語言理解能力,而Figure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、靈敏的機(jī)器人動(dòng)作。
▲Figure創(chuàng)始人Brett Adcock發(fā)文 今年2月24日,F(xiàn)igure剛剛宣布獲得了6.75億美元(折合約48.58億人民幣)高額融資,估值達(dá)到26億美元(折合約187.12億人民幣),一舉躍升獨(dú)角獸。其投資方包括微軟、OpenAI、英偉達(dá)、英特爾,陣容十分亮眼。
▲Figure宣布融資信息 當(dāng)天,F(xiàn)igure還提前官宣了與OpenAI、微軟達(dá)成合作,稱其將與OpenAI合作開發(fā)下一代人形機(jī)器人AI模型,利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建、訓(xùn)練等。Figure透露,他們將通過與OpenAI的合作繼續(xù)突破AI學(xué)習(xí)的邊界。OpenAI當(dāng)時(shí)也轉(zhuǎn)發(fā)了Figure的推文稱,OpenAI正在與Figure合作,將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知、推理和交互中。今天的視頻,顯然是Figure與OpenAI合作的階段性成果展示。毫無疑問,機(jī)器人與大模型的結(jié)合,又向前邁了一步。當(dāng)然,F(xiàn)igure還不忘在評論區(qū)放上了自己的招聘鏈接,呼吁更多有志之士加入自己。
▲Figure發(fā)布招聘信息 推薦智東西年度會議。4月18-19日,2024中國生成式AI大會將在北京舉行。同期設(shè)有具身智能技術(shù)研討會,優(yōu)必選和科大訊飛的人形機(jī)器人專家領(lǐng)銜。免費(fèi)報(bào)名或購票通道開放中,期待你的參會~視頻中,F(xiàn)igure 01機(jī)器人可以理解人的提問并對眼前物體進(jìn)行識別和理解。比如測試員問Figure 01眼前有什么,F(xiàn)igure 01可以準(zhǔn)確說出桌子上有一個(gè)蘋果放在盤子中央、有一個(gè)裝有杯子和盤子的晾碗架,還有測試員正站在桌子旁,一個(gè)手放在了桌子上。 緊接著測試員問它我能吃點(diǎn)什么,F(xiàn)igure 01在思考過后會快速準(zhǔn)確地抓取盤子中的蘋果交給測試員。Figure 01在拿蘋果的過程中還不忘“倒個(gè)手”,將蘋果從右手遞到左手,再通過左手遞給測試員,其動(dòng)作非常流暢,也非常符合人類做事的習(xí)慣:從距離更近的一邊把物體送過去。 測試員隨后讓Figure 01一邊整理桌子上的垃圾,一邊回答剛才為什么要這么做。Figure 01馬上開始將垃圾撿入籃子里,并在撿的過程中說,因?yàn)樘O果是桌子上唯一能吃的東西,所以我把蘋果給了你。 Figure 01在整理垃圾的過程中,機(jī)器人手臂和手掌的動(dòng)作非常靈活自然,拿放垃圾的動(dòng)作較為流暢,并且在整理完成后,還不忘貼心地把籃子往前推了一小下。 這“一小下”,卻讓我們感到十足的真實(shí)感。它似乎不僅知道如何完成任務(wù),還知道任務(wù)完成后的目的是什么:完成后交給測試員。但實(shí)際上,測試員起初并沒有在語言中提到整理后“遞給他”這件事。接下來,測試員問Figure 01,基于你現(xiàn)在看到的場景,你覺得你面前的這些餐具一會兒會到哪去?Figure 01在思考后回答說,桌上的餐具,包括盤子和杯子,很可能會進(jìn)到晾碗架里。這里我們能看到,F(xiàn)igure 01是可以理解面前的杯子、盤子與晾碗架之間的關(guān)系的。 測試員緊接著說,那你能把它們放進(jìn)去嗎?Figure 01在回答可以后,就把面前的一個(gè)杯子和一個(gè)盤子放到了晾碗架里。
▲把杯子放到晾碗架里 
▲把盤子放到晾碗架里 在放入的過程中,F(xiàn)igure 01知道杯子要倒扣著放進(jìn)晾碗架,這個(gè)要求測試員完全沒有說,同時(shí)Figure 01在放入盤子的時(shí)候知道要將盤子卡在晾碗架的槽子里,這一點(diǎn)測試員同樣沒有提到。 可以看到,F(xiàn)igure 01不僅可以理解測試員的要求并執(zhí)行,同時(shí)它對于執(zhí)行過程中操作的物體以及周邊環(huán)境是有理解的,它可以自己理解杯子和盤子要如何放進(jìn)晾碗架里。Figure 01思考后回答說它覺得自己做的很好,它說,蘋果有了新主人、垃圾不見了、桌上的東西也歸位了。 測試員回復(fù)它說,我同意,謝謝你Figure 01。Figure 01回答說,不客氣,如果還有什么需要幫忙的,跟我說就好。值得一提的是,F(xiàn)igure 01的回復(fù)話語一開始竟然“結(jié)巴”了一下:“I……I think……?!边@簡直過于真實(shí)了,好像它真的在思考自己該如何回答并有一些“猶豫”,說話的語氣與真人十分類似。同時(shí),F(xiàn)igure 01能夠理解測試員話語中“你做的”中到底包含哪些事,包括它自己之前做的遞送蘋果、整理垃圾、收拾杯盤。這一點(diǎn)無疑是更難得的。隨后在視頻說明中,F(xiàn)igure提到Figure 01的一些特性,包括充分學(xué)習(xí)、動(dòng)作迅速、可執(zhí)行靈巧操作。AI技術(shù)負(fù)責(zé)人深度拆解實(shí)現(xiàn)原理:流暢雙手動(dòng)作如何實(shí)現(xiàn)?Figure的創(chuàng)始人在X平臺發(fā)文稱,這是在端到端的神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)的人機(jī)對話,OpenAI提供的是視覺推理和語言理解能力,F(xiàn)igure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、底層級(low-level)、靈敏的機(jī)器人動(dòng)作。視頻中的測試員實(shí)際上是Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch,他也是前谷歌DeepMind科學(xué)家。他提到,F(xiàn)igure的機(jī)器人目前可以描述自己的視覺經(jīng)歷、計(jì)劃未來的行動(dòng)、進(jìn)行記憶回溯、口頭解釋自己的行為原因。隨后,Corey Lynch對視頻內(nèi)容進(jìn)行了進(jìn)一步技術(shù)拆解。以下是他技術(shù)拆解的全文:Figure 01所有的行為都是學(xué)習(xí)得來的(而非遙控操作的),并以正常的速度(1倍速)運(yùn)行。我們將機(jī)器人攝像頭的圖像和機(jī)載麥克風(fēng)捕獲的語音轉(zhuǎn)錄文本輸入到一個(gè)由OpenAI訓(xùn)練的大型多模態(tài)模型中,該模型會理解圖像和文本。該模型會處理整個(gè)對話的歷史記錄,包括過去的圖像,以產(chǎn)生語言響應(yīng),這些響應(yīng)通過文本到語音模型被人類聽到。同一個(gè)模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪個(gè)學(xué)習(xí)到的閉環(huán)行為以完成給定的命令,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU并執(zhí)行策略。 將Figure 01連接到一個(gè)大型預(yù)訓(xùn)練的多模態(tài)模型,賦予了它一些有趣的新能力。現(xiàn)在,F(xiàn)igure 01+ OpenAI可以:2、在做決策時(shí)使用常識推理。例如,“桌子上的那個(gè)盤子和杯子可能接下來會放到晾碗架上”。3、將模糊的、高級別的請求,如“我餓了”,轉(zhuǎn)化為一些符合上下文的行為,如“把蘋果遞給這個(gè)人”。4、用簡單的英語描述為什么它執(zhí)行了特定的動(dòng)作。例如,“這是我能從桌子上提供給你的唯一可食用的物品”。一個(gè)理解對話歷史的大型預(yù)訓(xùn)練模型賦予了Figure 01強(qiáng)大的短期記憶。考慮一下這個(gè)問題,“你能把它們放在那里嗎?”“它們”指的是什么,而“那里”又在哪里?正確回答需要反思記憶的能力。有了一個(gè)預(yù)訓(xùn)練模型分析對話的圖像和文本歷史,F(xiàn)igure 01很快就形成并執(zhí)行了一個(gè)計(jì)劃:最后,讓我們談?wù)剬W(xué)習(xí)得來的低層級的(learned low-level)雙手操作。所有的行為都由神經(jīng)網(wǎng)絡(luò)視覺運(yùn)動(dòng)變換策略驅(qū)動(dòng),將像素直接映射到動(dòng)作。這些網(wǎng)絡(luò)以10Hz的頻率接收機(jī)載圖像,并以200Hz的頻率生成24自由度的動(dòng)作(手腕姿態(tài)和手指關(guān)節(jié)角度)。這些動(dòng)作作為高速率的'設(shè)定點(diǎn)',供更高速率的全身控制器跟蹤。這是一個(gè)有用的關(guān)注點(diǎn)分離:1、互聯(lián)網(wǎng)預(yù)訓(xùn)練模型通過對圖像和文本進(jìn)行常識推理,提出高級計(jì)劃。2、學(xué)習(xí)到的視覺運(yùn)動(dòng)策略執(zhí)行計(jì)劃,執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,比如在任何位置操作可變形的袋子。3、同時(shí),全身控制器確保安全穩(wěn)定的動(dòng)態(tài)。例如,保持平衡。最后,Corey Lynch發(fā)表了自己的一些感受:即使在幾年前,我也會認(rèn)為和一個(gè)能規(guī)劃和執(zhí)行自己的全學(xué)習(xí)行為的類人機(jī)器人(a humanoid robot while it plans and carries out its own fully learned behaviors)進(jìn)行完整的對話是我們可能需要等待幾十年才能看到的事情。顯然,很多事情已經(jīng)改變了。在我看來,F(xiàn)igure現(xiàn)在是全世界將具身智能(embodied AI)規(guī)?;瘮U(kuò)展最好的地方。 在Figure發(fā)布的最新視頻中,我們可以看到Figure的人形機(jī)器人與OpenAI大模型能力結(jié)合,完成了此前許多難以完成的“高難度動(dòng)作”,機(jī)器人與人類的人機(jī)交互效果,再次向前迭代。未來隨著AI大模型與機(jī)器人更加深度的結(jié)合,機(jī)器人真正走向更廣泛的商用、走向千家萬戶的進(jìn)度也將提速,具身智能必將成為未來AI產(chǎn)業(yè)中的一條關(guān)鍵賽道。(本文系網(wǎng)易新聞·網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。)
|