找到應(yīng)用場景之前,人形機(jī)器人商業(yè)化還要再等一等。 文|黃楠 編輯|袁斯來 1978年北京,在早稻田大學(xué)加藤一郎舉辦的座談會(huì)上,現(xiàn)場播放了一段WABOT-15機(jī)器人的影像。這是世界上第一個(gè)全尺寸人形智能機(jī)器人。畫面中,WABOT-15緩慢地抬起腳。它每邁一步需要45秒,僅10公分的步幅,約為成年人類六分之一,但依舊引起全場轟動(dòng)。四十五年后,位于合肥市的蔚來汽車生產(chǎn)車間內(nèi),一臺(tái)優(yōu)必選人形機(jī)器人Walker S正式進(jìn)入工廠實(shí)地培訓(xùn)。Walker S身高近1.7米,外形上更接近人類,搭載41個(gè)伺服關(guān)節(jié)和多個(gè)感知系統(tǒng)。它對(duì)環(huán)境的感知更靈敏,動(dòng)作也更靈活,已經(jīng)開始替代部分工人完成工作。過去數(shù)年,國內(nèi)人形機(jī)器人領(lǐng)域技術(shù)幾經(jīng)發(fā)展迭代,無數(shù)科技公司投身其中,推動(dòng)人形機(jī)器人自緩慢靜態(tài)行走、連續(xù)動(dòng)態(tài)行走、高動(dòng)態(tài)運(yùn)動(dòng),步入今天的產(chǎn)業(yè)化前夜。根據(jù)國際機(jī)器人協(xié)會(huì)預(yù)測,2021年至2030年,全球人形機(jī)器人市場的年化復(fù)合增長率將達(dá)到71%;到2030年,其產(chǎn)業(yè)規(guī)??蛇_(dá)萬億美金左右,其中我國人形機(jī)器人市場規(guī)模有望達(dá)到8700億元。很長一段時(shí)間里,工業(yè)機(jī)器人都以傳統(tǒng)協(xié)作臂形態(tài)存在,執(zhí)行完成產(chǎn)線上的單點(diǎn)任務(wù)。人形機(jī)器人則處于全然不同的圖景中。它可以進(jìn)行門鎖質(zhì)檢、車燈蓋、板檢測、安全帶檢測、貼車標(biāo)等工作,覆蓋多個(gè)生產(chǎn)環(huán)節(jié),同時(shí)還能與人類員工互相配合,完成汽車裝配及質(zhì)量檢查作業(yè)。比如特斯拉所釋出的擎天柱(Optimus)在自家工廠工作的視頻中,擎天柱能重復(fù)拿取電池、放進(jìn)電池槽中并將電池排列整齊。 而進(jìn)入工廠只是第一步?!白屓诵螜C(jī)器人走進(jìn)千家萬戶”,是這場敘事里所有人共同追求的終極目標(biāo)。過去由于技術(shù)不成熟,機(jī)器人只能提供case by case服務(wù),缺乏對(duì)復(fù)雜場景的認(rèn)知能力,應(yīng)用空間局限;同時(shí)在本體控制層,人形動(dòng)作僵硬,需按照預(yù)設(shè)好的算法運(yùn)行,不具備更智能的靈巧操作能力。直至2023年,大模型席卷行業(yè),給了人形機(jī)器人具身智能這一新轉(zhuǎn)折,資本也聞風(fēng)涌入。賽迪研究院報(bào)告顯示,2023年人形機(jī)器人領(lǐng)域共計(jì)發(fā)生投融資案例22起,包括宇樹科技、銀河通用、達(dá)闥機(jī)器人、智元機(jī)器人和逐際動(dòng)力等融資金額均超過億元;今年已發(fā)生投融資事件7起,金額最高的是宇樹近10億元的B2輪融資。具身智能描摹出一個(gè)想象力十足的未來。大模型的加持無疑會(huì)大幅度提升機(jī)器人認(rèn)知和決策能力。但市場對(duì)人形機(jī)器人的判斷,出現(xiàn)了兩類截然相反的聲音。一種認(rèn)為下半年將會(huì)有企業(yè)率先跑進(jìn)場景,人形機(jī)器人替代人類工作進(jìn)程加速;另一種則認(rèn)為,目前人形機(jī)器人的智能化還很早期,成本、效率問題未解,更遑論形成一套清晰的商業(yè)模式。為此,36氪走訪了數(shù)十位人形機(jī)器人從業(yè)者,希望通過本文來回答以下幾個(gè)問題:1、對(duì)比上一代技術(shù)路徑,“新”的人形機(jī)器人企業(yè)其革命性體現(xiàn)在哪里?2、從研究到產(chǎn)品化的過程中,有哪些比較關(guān)鍵的硬件成本?存在哪些挑戰(zhàn)?3、如何看待人形機(jī)器人要重點(diǎn)突破的場景?現(xiàn)在談商業(yè)化是否為時(shí)過早? 以去年爆發(fā)的具身智能為分水嶺,從2010年開始,可以將國內(nèi)人形機(jī)器人技術(shù)路徑劃分為兩個(gè)階段。第一階段的技術(shù)路徑圍繞具體任務(wù)、從單個(gè)場景出發(fā)。這類人形機(jī)器人多以本體為基礎(chǔ),通過在本地改進(jìn)算法、增加算力來增強(qiáng)機(jī)器人能力。先預(yù)設(shè)任務(wù)在場景中的執(zhí)行邊界,用戶下發(fā)指令后,收集現(xiàn)有數(shù)據(jù)進(jìn)行訓(xùn)練,于限定范圍內(nèi)窮舉出能解決任務(wù)的多個(gè)算法,盡可能覆蓋更多路徑。 簡單來說,當(dāng)我們想讓機(jī)器人倒咖啡、就設(shè)計(jì)一個(gè)倒咖啡的模型,想讓機(jī)器人在工廠里擰螺絲、就設(shè)置一個(gè)擰螺絲的程序。比如工業(yè)場景的搬運(yùn)機(jī)器人,工程師會(huì)針對(duì)特定園區(qū)提前設(shè)置運(yùn)輸線路,機(jī)器人只需在固定路徑上完成配送任務(wù),靈活性低、但穩(wěn)定性強(qiáng);在多條路線的情況下,這些路徑也可以用算法提前規(guī)劃好。然而,機(jī)器人一旦脫離該地圖所設(shè)定的任務(wù),便無法運(yùn)轉(zhuǎn)。因此,面對(duì)新場景和任務(wù),人形機(jī)器人都需要重新收集數(shù)據(jù)訓(xùn)練、設(shè)定方案和測試,導(dǎo)致了極大的資源損耗。即使在生產(chǎn)中注入自動(dòng)化屬性,對(duì)人類勞動(dòng)力的釋放也十分有限。但在新一輪人形機(jī)器人浪潮中,以具身智能為代表的技術(shù)路徑更強(qiáng)調(diào)泛化性,追求多場景適配。大模型能解決多種任務(wù),這一通用能力被引入到人形機(jī)器人之后,令人們第一次看到了機(jī)器人從單任務(wù)式交付到規(guī)?;瘧?yīng)用的可能。“一個(gè)具體的轉(zhuǎn)變是,過去大家對(duì)機(jī)器人的要求是只需要定崗、提前把事項(xiàng)預(yù)編好,然后去執(zhí)行就可以了。但人形機(jī)器人不是。人們希望它既能是個(gè)熟練的螺絲工、同時(shí)又具備質(zhì)檢等其他工作能力,可以靈活配置,最終替代工廠里的員工完成繁重、枯燥性工作,而不是替掉現(xiàn)有的重型機(jī)械臂、傳送帶等?!睒肪蹤C(jī)器人副總裁柯真東告訴36氪。
夸父機(jī)器人在工廠內(nèi)工作(圖源:樂聚機(jī)器人) 場景能否差異化的決定性因素就是泛化的大腦。這源自兩大能力提升:一是基于自然語言的理解能力。嵌入大模型交互后,機(jī)器人能聽懂語言,理解人類需求,并將其分解為序列化指令、下發(fā)讓機(jī)器人到目標(biāo)地點(diǎn)執(zhí)行任務(wù)。 第二是學(xué)習(xí)能力。非結(jié)構(gòu)化的環(huán)境下,大模型加上多維傳感器,能夠?qū)W習(xí)、識(shí)辨并構(gòu)建環(huán)節(jié),在打穿mobile(移動(dòng))、pick(抓取)、place(搬運(yùn))三大基礎(chǔ)能力之上,讓人形機(jī)器人具備多場景作業(yè)的能力。以銀河通用的具身多模態(tài)小腦大模型為例。工作人員在后臺(tái)下單一樣藥品、這是意圖;而后雙臂輪式機(jī)器人接收到指令,將其分解為具體的運(yùn)動(dòng)步驟。模型會(huì)先識(shí)別出藥品、鎖定其在貨架上的位置,再伸出右臂吸盤抓取,由左臂兩指夾放進(jìn)籃筐內(nèi)。這一系列動(dòng)作由感知模型和操作模型協(xié)同完成,全程無人工參與,當(dāng)貨架上發(fā)生藥品擺放位置錯(cuò)誤、倒放等狀態(tài)時(shí),機(jī)器人會(huì)掠過它們,直接抓取后排正確的藥品。 Galbot正在撿垃圾(圖源:銀河通用) “泛化性本質(zhì)在于,任意場景、任意物體、任意情形下機(jī)器人mobile、pick、place都能成功?!北贝?銀河通用具身智能聯(lián)合實(shí)驗(yàn)室主任王鶴向36氪指出。可以看出,面對(duì)突發(fā)情況時(shí),理想狀態(tài)下的人形機(jī)器人能夠結(jié)合先前經(jīng)驗(yàn)學(xué)習(xí)并復(fù)制泛化。采訪中,多位關(guān)注人形機(jī)器人賽道的投資人普遍認(rèn)為,“今天人形機(jī)器人公司的優(yōu)勢(shì)都屬于階段性長板,最終要形成自己的閉環(huán),核心在于各家技術(shù)擅長點(diǎn)與想做的場景是否匹配、能否在場景中打通?!?/span>在本體層,人形機(jī)器人泛化則體現(xiàn)為下肢形態(tài)的選擇上。 人形機(jī)器人的上肢結(jié)構(gòu)相對(duì)穩(wěn)定,根據(jù)移動(dòng)方式,下肢可大致分為兩種,分別是以底盤為重心的輪式以及與人類相似的足式。 輪式機(jī)器人主要在平面、結(jié)構(gòu)化道路上運(yùn)動(dòng),如導(dǎo)購機(jī)器人、酒店配送機(jī)器人等。它的優(yōu)勢(shì)在于技術(shù)發(fā)展成熟,方向盤和輪子兩個(gè)驅(qū)動(dòng),就可以完成前進(jìn)、后退和轉(zhuǎn)彎,底盤比較重、能夠支撐機(jī)身穩(wěn)定。但其局限性也很明顯,無法在樓梯、野外、狹窄通道、凹凸不平的地面等非結(jié)構(gòu)化路面行走,對(duì)復(fù)雜地形的適應(yīng)能力較差,應(yīng)用場景有限。對(duì)比之下,人形雙足機(jī)器人在空間應(yīng)用的通用性更強(qiáng),末端控制自由度更高,面對(duì)復(fù)雜場景時(shí),它可以通過及時(shí)調(diào)整雙腿間重心來保持平衡,執(zhí)行多種任務(wù)。這對(duì)機(jī)器人的控制能力提出了更高要求。捕捉到環(huán)境信息后,機(jī)器人的腿要適應(yīng)不同地形,并能負(fù)重。以野外行走為例,足式機(jī)器人需要先感知并理解周圍的環(huán)境情況,是泥濘的土路還是顛簸的石子路、上下坡的地形等,這些信息往往是動(dòng)態(tài)的。根據(jù)現(xiàn)場環(huán)境變動(dòng),足式機(jī)器人會(huì)自主規(guī)劃新線路,并調(diào)整行走姿態(tài)和控制運(yùn)動(dòng)。但目前,市場上暫時(shí)未出現(xiàn)一款真正達(dá)到智能水平的人形雙足機(jī)器人產(chǎn)品,輪式機(jī)器人成為不少公司現(xiàn)階段商業(yè)化的首選形態(tài)。例如1X的EVE輪式仿真機(jī)器人、銀河通用的雙臂+輪式仿生機(jī)器人、達(dá)闥機(jī)器人的Ginger系列人形服務(wù)云端機(jī)器人,還有可根據(jù)場景選配下肢是輪式或足式的戴盟Sparky 1人形機(jī)器人等。“歸根結(jié)底,雙足人形機(jī)器人推動(dòng)了整個(gè)驅(qū)動(dòng)、特別是電機(jī)驅(qū)動(dòng)產(chǎn)業(yè)的發(fā)展。但人類大部分工作場景都是在平面中完成的,例如辦公室、工廠、購物中心等。”達(dá)闥機(jī)器人CEO黃曉慶告訴36氪,“匹配現(xiàn)階段機(jī)器人智能水平的前提下,輪式已經(jīng)可以覆蓋很大一部分應(yīng)用場景?!?/span>人形機(jī)器人的本質(zhì)是為了通用,在不同場景和任務(wù)下,將人類從危險(xiǎn)系數(shù)大、重復(fù)枯燥的工作中釋放出來。“我們要做的是尊重能力發(fā)展的規(guī)律,現(xiàn)階段人形機(jī)器人哪方面能力是ready的,就完成多少工作。”王鶴說。以銀河通用輪式機(jī)器人Galbot為例。Galbot采用人形上肢加輪式的形態(tài),由于輪式機(jī)器人無法實(shí)現(xiàn)下蹲、伸高等垂直空間移動(dòng),銀河通用提出了可伸縮軀干,蹲下手臂可以摸到地面,完全站立可以摸高達(dá)2.4米,并向櫥柜等內(nèi)部結(jié)構(gòu)伸入抓取,除特殊狹窄通道外,基本可以達(dá)到跟人類相同的活動(dòng)和操作空間。 Galbot將機(jī)械臂伸入櫥柜內(nèi)(圖源:銀河通用)
可以看到,具身智能從大腦層面增強(qiáng)了機(jī)器人對(duì)任務(wù)的理解能力、并進(jìn)行邏輯推理,將人形機(jī)器人推向一個(gè)新臺(tái)階。而硬件本體層面,雙足和輪式結(jié)構(gòu)技術(shù)也逐漸成熟。軟硬件兩方面革新終讓多場景泛化成為可能。 但人形機(jī)器人終究要從Demo視頻跨入真實(shí)場景。目前最緊迫的難題便是如何從實(shí)驗(yàn)室走向規(guī)模化。 作為集AI技術(shù)、軟件算法、運(yùn)動(dòng)控制、硬件結(jié)構(gòu)等為一體的移動(dòng)終端,人形機(jī)器人是目前公認(rèn)的難度系數(shù)最高的產(chǎn)品。與工業(yè)機(jī)器人和服務(wù)機(jī)器人相比,人形機(jī)器人的結(jié)構(gòu)更復(fù)雜。比如,常見工業(yè)機(jī)器人的關(guān)節(jié)數(shù)量一般為2-10個(gè),而人形機(jī)器人多超過40個(gè),有近5000多個(gè)零部件,系統(tǒng)工程量極大,在硬件搭配、控制算法及核心零部件選擇上都有差異。當(dāng)前,要讓人形機(jī)器人真正走進(jìn)場景得以應(yīng)用,首先需要跨過這些硬件的成本大山。比如特斯拉擎天柱,僅絲杠關(guān)節(jié)的總價(jià)就高達(dá)16萬元。 人形機(jī)器人核心零部件中,技術(shù)難度最高分別是減速器、伺服系統(tǒng)和控制器,占成本比例的60-70%。當(dāng)前關(guān)節(jié)所用的伺服電機(jī)主要從海外進(jìn)口,安川、松下、三菱等日系廠商占據(jù)國內(nèi)近50%市場,價(jià)格昂貴。減速器方面,常見的方案分為行星減速器、諧波減速器,二者在結(jié)構(gòu)、工作原理、應(yīng)用領(lǐng)域以及優(yōu)缺點(diǎn)上存在顯著的區(qū)別。其中,行星減速器的承載能力強(qiáng)、效率更高、成本低,力矩透明度較大,單級(jí)傳動(dòng)減速比小,多用于對(duì)精度要求相對(duì)不高的運(yùn)動(dòng)結(jié)構(gòu)。 而諧波減速器的優(yōu)勢(shì)在于,它的體積較小、重量輕、傳動(dòng)精度更高,單級(jí)傳動(dòng)比大,但缺點(diǎn)是隨著使用時(shí)間增長,柔輪易發(fā)生疲勞破壞,承載能力和使用壽命相比行星減速器較低,成本相對(duì)較高。目前工業(yè)界還沒有一個(gè)得到公認(rèn)的減速器方案,“根據(jù)減速器性能和產(chǎn)品需求不同,考慮成本的選行星、做輕量化的選諧波,各家做各家的?!秉S曉慶告訴36氪。其他硬件方面,人形機(jī)器人所用到的控制器、傳感器、電池系統(tǒng)等,和工業(yè)機(jī)器人和新能源車等領(lǐng)域有較大的重復(fù)性。通過復(fù)用部分傳統(tǒng)制造業(yè)的供應(yīng)鏈資源,國產(chǎn)硬件供應(yīng)商具備很強(qiáng)的低成本、大規(guī)模量產(chǎn)能力,可有效降低人形機(jī)器人的整機(jī)成本。 除伺服電機(jī)等零部件外,當(dāng)前人形機(jī)器人大型關(guān)節(jié)的國產(chǎn)化率為90%,小型關(guān)節(jié)國產(chǎn)化率更是達(dá)到95%以上。人形機(jī)器人成本開始有下探的跡象。5月13日,宇樹科技Unitree G1人形智能體在京東上架,售價(jià)9.9萬元起,比特斯拉擎天柱喊出低于2萬美元(折合人民幣約14.5萬)的價(jià)格便宜4.6萬元,率先在人形機(jī)器人領(lǐng)域打響了價(jià)格戰(zhàn)。“基于過去在四足狗產(chǎn)品的經(jīng)驗(yàn),宇樹的供應(yīng)鏈能力上去了,在成本控制方面做得很好。Unitree G1人形智能體9.9萬元的售價(jià),也證明了其規(guī)模化生產(chǎn)的能力,對(duì)其他人形機(jī)器人企業(yè)來說是件好事?!蹦酬P(guān)注AI+機(jī)器人賽道的FA高宇說到。即便如此,宇樹人形機(jī)器人還沒能滿足市場對(duì)價(jià)格的預(yù)期。據(jù)36氪了解,對(duì)比傳統(tǒng)工業(yè)機(jī)器人一體化關(guān)節(jié),由于人形機(jī)器人尚處在產(chǎn)品化早期,因此,大部分下游客戶對(duì)成本非常敏感。鈦虎機(jī)器人聯(lián)合創(chuàng)始人易港告訴36氪,“工業(yè)領(lǐng)域的客戶對(duì)可承受的價(jià)格閾值更高,哪怕售價(jià)5000元、也有愿意付費(fèi)的客戶。但人形機(jī)器人客戶大多只能接受1000-2000元的價(jià)格?!?/span>人形機(jī)器人仍陷在客戶不買賬、量產(chǎn)難進(jìn)而邊際成本無法降低的矛盾中。硬件行業(yè)的爆發(fā)最初會(huì)依靠一些資金雄厚的冒險(xiǎn)者開局,但行業(yè)邁向商業(yè)化最終只能依靠規(guī)模量產(chǎn)后不斷降低邊際成本。“要能把研發(fā)、開模以及其他加工費(fèi)用攤薄,目前很多廠家愿意前期低價(jià)合作,做定制化開發(fā)。但要正兒八經(jīng)有產(chǎn)線,得有一兩家本體公司跑出來量后才有可能?!?/span>柯真東表示。當(dāng)然,這是新行業(yè)啟動(dòng)時(shí)必然跋涉的路徑。產(chǎn)業(yè)不斷成熟,政府政策支持,大量社會(huì)資本與各種產(chǎn)業(yè)基金爆發(fā)性投入,會(huì)加速國內(nèi)具有競爭優(yōu)勢(shì)的供應(yīng)鏈形成。北航機(jī)器人研究所名譽(yù)所長、中關(guān)村智友研究院院長王田苗預(yù)測,人形機(jī)器人未來成本將下降至少50%。根據(jù)《2024年中國人形機(jī)器人行業(yè)研究報(bào)告》,人形機(jī)器人按量產(chǎn)規(guī)模不同,降本大致可劃分為三個(gè)階段:小批量千臺(tái)量級(jí)生產(chǎn),降本20%-30%至約10萬美元;萬臺(tái)級(jí)別降本50%至5萬美元;數(shù)十萬至百萬臺(tái)大規(guī)模量產(chǎn),降本70%-80%至2-3萬美元。優(yōu)必選副總裁、研究院執(zhí)行院長焦繼超告訴36氪,目前,優(yōu)必選真人尺寸工業(yè)版人形機(jī)器人Walker S的成本大約為4-5萬美元。 Walker S在蔚來車間(圖源:優(yōu)必選)另一方面,訓(xùn)練數(shù)據(jù)采集的難度,是橫亙?cè)谌诵螜C(jī)器人規(guī)?;涞孛媲暗牡诙笊?。今年4月,特斯拉推出多模態(tài)大模型Grok-1.5v,利用端到端高速大模型FSD(Full-Self Driving,完全自動(dòng)駕駛)推理,將足夠多的用戶數(shù)據(jù)清理干凈后喂給模型,以解決自動(dòng)駕駛邊緣案例的在線迭代學(xué)習(xí)問題。特斯拉擎天柱能在有限簡單場景下進(jìn)行自主作業(yè),其核心依靠數(shù)據(jù)驅(qū)動(dòng):采集海量的優(yōu)質(zhì)數(shù)據(jù),覆蓋各類場景和物體,并通過具身智能提煉泛化能力。目前,人形機(jī)器人公司對(duì)數(shù)據(jù)的需求可以分為三類。第一,通過數(shù)據(jù)理解世界規(guī)律。例如,空間內(nèi)存在桌子和杯子兩個(gè)分離物體,把杯子從桌上拿走,可以轉(zhuǎn)移放到另一張桌子上、也可能掉落摔碎。通過大量數(shù)據(jù)學(xué)習(xí),讓機(jī)器人理解任務(wù)意圖。第二,借助模擬數(shù)據(jù)學(xué)習(xí)邏輯推理和決策能力。機(jī)器人完成一項(xiàng)任務(wù)是由系列動(dòng)作構(gòu)成的。讓機(jī)器人從貨架上取一瓶牛奶,從什么角度去抓,紙殼包裝和易拉罐裝的力度等,過去并沒有數(shù)據(jù)集可學(xué)習(xí),但借助模擬環(huán)境,可以讓機(jī)器人掌握各種抓取方法。第三,真實(shí)場景的應(yīng)用數(shù)據(jù)。比如讓機(jī)器人將給iPhone手機(jī)充電,首先需要辨識(shí)手機(jī)充電口和各類數(shù)據(jù)線插頭,經(jīng)Sim-to-real transfer(模擬環(huán)境向真實(shí)世界遷移)掌握方法后,再通過Tele-operation(遙操作)方法完成。三類數(shù)據(jù)側(cè)重點(diǎn)不同會(huì)影響人形機(jī)器人的精度和成功率。例如谷歌和特斯拉的方案,均采用真實(shí)世界數(shù)據(jù)采集為主、持續(xù)優(yōu)化Tele-operation。特斯拉的VR Tele-operation系統(tǒng),可以第一視角操控人形機(jī)器人,看其所看、動(dòng)起所動(dòng),當(dāng)人的手臂擺動(dòng)時(shí),機(jī)器人也會(huì)跟著運(yùn)動(dòng)。這套系統(tǒng)被特斯拉應(yīng)用在其堿電池工廠中。“人形機(jī)器人最終落地是多種形態(tài)的,要提前做產(chǎn)業(yè)化布局,就意味著它需要提前進(jìn)入場景迭代,獲取數(shù)據(jù)、再不斷地迭代,去適配場景的真實(shí)需求。”星動(dòng)紀(jì)元聯(lián)合創(chuàng)始人席悅向36氪如是說。真實(shí)數(shù)據(jù)的增加有利于機(jī)器人提高智能水平。但要跨越鴻溝,真實(shí)數(shù)據(jù)需要提高多樣性和質(zhì)量,并非單純數(shù)量堆砌。舉個(gè)例子,堿電池工廠的電池是固定的、外包裝使用固定的盒子,在物體位置和環(huán)境相對(duì)固定的情況下,訓(xùn)練所得的數(shù)據(jù)與Imitation Learning(模仿學(xué)習(xí))沒太大差異,機(jī)器人的智能也并沒有得到拓展和增加。 “在機(jī)器人領(lǐng)域,我們面臨著海量未標(biāo)注的異構(gòu)行為大數(shù)據(jù),這使得語義與數(shù)據(jù)的精準(zhǔn)對(duì)齊變得異常困難,其中涉及語義歧義問題、模型幻覺的安全問題,以及標(biāo)準(zhǔn)化測試平臺(tái)和使用安全的評(píng)價(jià)問題等?!蓖跆锩缭诓稍L中向36氪指出。優(yōu)必選使用的訓(xùn)練數(shù)據(jù)中,由Tele-operation所收集的真實(shí)數(shù)據(jù)占20%,比如工具使用、工廠中的零件分揀等;像桌椅板凳、地面墻面、人類和環(huán)境等通用目標(biāo)識(shí)別,則是基于其他類型機(jī)器人積累的數(shù)據(jù),可直接用在人形機(jī)器人訓(xùn)練。此外還有80%的數(shù)據(jù)通過仿真環(huán)境合成獲得。由于真實(shí)數(shù)據(jù)稀缺,采集難度大、成本高,仿真合成數(shù)據(jù)被許多人形機(jī)器人企業(yè)視為解決數(shù)據(jù)問題的最優(yōu)選。以達(dá)闥機(jī)器人的數(shù)字孿生方案為例。公司搭建了一套實(shí)時(shí)同步、虛實(shí)轉(zhuǎn)換的數(shù)據(jù)收集系統(tǒng),通過傳感器,可以將人所在環(huán)境掃描并傳輸?shù)皆贫?,?0Hz/秒進(jìn)行重建,將機(jī)器人放置在孿生環(huán)境中進(jìn)行訓(xùn)練。簡而言之,就是將機(jī)器人看作一個(gè)NPC,各項(xiàng)任務(wù)是一個(gè)個(gè)游戲,用AI驅(qū)動(dòng)人形機(jī)器人在“游戲”中運(yùn)行。
基于RobotGPT多模態(tài)大模型(圖源:達(dá)闥機(jī)器人) “這時(shí)候,我們要多少合成數(shù)據(jù)就有多少,需要什么場景、也可以通過數(shù)字孿生的方式隨時(shí)搭建。當(dāng)數(shù)據(jù)在時(shí)間軸上被拉長、以切片形式存在,突發(fā)問題也變成了靜止問題?!秉S曉慶說。然而,合成數(shù)據(jù)的劣勢(shì)在于,它與真實(shí)數(shù)據(jù)之間存在數(shù)據(jù)分布的差異,實(shí)時(shí)性不強(qiáng),在落地時(shí),會(huì)面臨更高要求的精度問題。對(duì)此王鶴表示,“這件事的解決有先例。宇樹四足狗的運(yùn)動(dòng)、跑跳,以及雙足行走,都是通過大規(guī)模仿真強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。這就說明Sim2Real(從模擬到真實(shí))雖然有g(shù)ap,但是可以做得很work的?!?/span>對(duì)于一個(gè)真正稱得上智能的人形機(jī)器人,這三種數(shù)據(jù)沒有優(yōu)劣之分。但 “目前市場上,能夠在同一個(gè)階段把幾類數(shù)據(jù)都同步做好的公司幾乎沒有,普遍做法是根據(jù)自身的技術(shù)優(yōu)勢(shì),優(yōu)先從擅長方向切入?!惫庠促Y本董事總經(jīng)理婁洋告訴36氪。當(dāng)前,人形機(jī)器人距離里程碑式的跨越還很遙遠(yuǎn)。只是,如今的資本并沒有技術(shù)界的耐心。他們要看到可預(yù)見的商業(yè)化路徑,沒人會(huì)為脆弱的愿景買單。 機(jī)器人表演群舞“千手觀音”(圖源:達(dá)闥機(jī)器人) 今年4月,亞馬遜的媒體活動(dòng)日上,Agility Robotics分享了人形機(jī)器人Digit在亞馬遜倉庫的工作畫面。這次“員工試用期”始于2023年10月,經(jīng)過三個(gè)多月實(shí)踐,Digit已經(jīng)可以連續(xù)工作7.5個(gè)小時(shí),效率為人類速度的75%,任務(wù)成功率達(dá)到97%。亞馬遜倉庫內(nèi)有75萬臺(tái)物流機(jī)器人,在這之后,公司正考慮測試Digit人形機(jī)器人的物流托盤。按照人工作業(yè)5至8個(gè)小時(shí)、20-30元/小時(shí),機(jī)器人連續(xù)工作5年即可回本。根據(jù)高盛測算,預(yù)計(jì)2025年,少批量資金雄厚的人形機(jī)器人公司有望進(jìn)入商業(yè)化試點(diǎn),到2035年其替代率或從5%提高10%至15%,出貨量翻4倍、將達(dá)到140萬臺(tái)。人形機(jī)器人展現(xiàn)出了龐大的市場需求。但如上所述,現(xiàn)階段行業(yè)存在技術(shù)、成本等問題,部分國內(nèi)企業(yè)仍處于產(chǎn)品測試階段,商業(yè)化進(jìn)程還在早期。當(dāng)中的核心錨點(diǎn),是公司能否找到擅長的應(yīng)用場景。在所有人形機(jī)器人企業(yè)中,大家都會(huì)談到的問題是——找到PMF。Product market fit(產(chǎn)品-市場匹配),就是產(chǎn)品要能夠解決真實(shí)的需求,其中產(chǎn)品所創(chuàng)造的價(jià)值往往比產(chǎn)品售價(jià)本身還要貴。可以看到,當(dāng)前國內(nèi)外人形機(jī)器人已進(jìn)入汽車生產(chǎn)車間、物流倉儲(chǔ)間,可以完成一些基礎(chǔ)性的工作。在席悅看來,隨著機(jī)器人運(yùn)動(dòng)機(jī)能進(jìn)一步提升,落地場景將會(huì)從車間的單一的基礎(chǔ)勞動(dòng)過度到復(fù)雜的柔性任務(wù),逐步向服務(wù)業(yè)邁進(jìn),最終走進(jìn)千家萬戶。王田苗認(rèn)為,人形機(jī)器人的落地會(huì)先從商務(wù)場景切入,然后進(jìn)入工業(yè)場景,最后再到消費(fèi)場景。而“產(chǎn)品化過程需要時(shí)間來產(chǎn)生并驗(yàn)證價(jià)值,因此,基于場景的融合打磨與迭代變得至關(guān)重要?!?br> “當(dāng)面對(duì)具體場景時(shí),我們要解決的問題就變成了'如何提高機(jī)器人的魯棒性’(即在異常和危險(xiǎn)情況下、保持機(jī)器的穩(wěn)定運(yùn)行),讓人形機(jī)器人的適應(yīng)性和部署效率,能夠在真實(shí)應(yīng)用環(huán)境中切實(shí)落地。”焦繼超表示。第一種是以教育科研、開發(fā)者用戶為主,用于做人形機(jī)器人技術(shù)研究、產(chǎn)品二次開發(fā)以及開設(shè)教育課程、比賽等;這部分訂單在早期可以為企業(yè)帶來較為穩(wěn)定的收入,保持造血能力。第二種是B端客戶,面向典型制造業(yè)、物流倉儲(chǔ)業(yè)、商區(qū)服務(wù)業(yè);這批客戶當(dāng)下的需求是以前期案例示范應(yīng)用為主,目的是為未來批量引入人形機(jī)器人做準(zhǔn)備。第三種,也是所有人形機(jī)器人企業(yè)的終極目標(biāo),面向C端客戶,真正實(shí)現(xiàn)機(jī)器人走進(jìn)千家萬戶,為每個(gè)家庭服務(wù)。婁洋指出,以具身智能為核心的新一代人形機(jī)器人公司中,“大家當(dāng)前在場景側(cè)的選取和市場端的切入上尚未達(dá)成共識(shí)。有些探索進(jìn)度快,有些相對(duì)較慢,但進(jìn)度更快的公司所選取的路徑,并不一定代表著該場景的最優(yōu)解。目前場景落地的可行性和優(yōu)劣與否還沒有明確答案?!?/span>以工業(yè)場景為例,就存在落地成本不確定,以及數(shù)據(jù)訓(xùn)練和實(shí)際應(yīng)用轉(zhuǎn)化之間的錯(cuò)配問題。工廠對(duì)機(jī)器人的要求通常以精準(zhǔn)成本為導(dǎo)向,期待機(jī)器人能夠每天完成固定的任務(wù),確保生產(chǎn)的穩(wěn)定性。然而,人形機(jī)器人的智能水平提升需要更強(qiáng)的泛化性和應(yīng)變能力。與生活場景相比,工業(yè)環(huán)境能提供給機(jī)器人的反饋和學(xué)習(xí)機(jī)會(huì)相對(duì)受限。 夸父機(jī)器人正在炒菜(圖源:樂聚機(jī)器人)從資本視角來看,找到適配的場景以驗(yàn)證技術(shù)的有效性已十分迫切。“尤其是對(duì)于那些估值普遍超過20億人民幣的第一梯隊(duì)公司?!眾溲笳f。這些公司的機(jī)器人,首先要在一個(gè)特定場景中做到跟人一樣好,甚至比人做得好,包括承擔(dān)更危險(xiǎn)的工作、實(shí)現(xiàn)更高的精度、解決招人難題,或是用于成本更低的自動(dòng)化任務(wù)等。在單一場景驗(yàn)證后,公司再考慮向更廣泛的應(yīng)用場景進(jìn)行技術(shù)泛化。眼下各家在融資上仍有窗口期,絕對(duì)差距暫未被拉開。多位投資人告訴36氪,對(duì)人形機(jī)器人公司來說,接下來比拼的焦點(diǎn)是差異化, Demo視頻大家都有、場景實(shí)際表現(xiàn)才是見真章。市場上的錢畢竟有限。頭部企業(yè)能聚攏到更多的資源,擁有更多試錯(cuò)的可能,包括提高人才密度、買好的技術(shù)團(tuán)隊(duì)、提升產(chǎn)線等。對(duì)尚未找到清晰落地場景的新團(tuán)隊(duì)來說,融資的大門正在關(guān)閉。過去10年,AI給太多行業(yè)帶來過希望和失望。具身智能的概念足夠性感,但還沒有清晰的輪廓。甚至目前人們期待的機(jī)器人未必就是長得最像人、最智能的形態(tài)。“機(jī)器人是人形的也好、其他形態(tài)的也好,在我們看來,希望它短期內(nèi)替代人類做些復(fù)雜、危險(xiǎn)的工作,讓人們活的更輕松點(diǎn);長期來看,更智能的人形機(jī)器人還可以為我們提供情感價(jià)值。這是場景落地真正的價(jià)值所在?!苯估^超表示。具身智能帶來了一場顛覆式的生產(chǎn)力變革,但從進(jìn)入產(chǎn)業(yè)到終極生活場景的落地,行業(yè)需要時(shí)間。在這些新的技術(shù)路徑、硬件設(shè)計(jì)、供應(yīng)鏈搭建、市場需求驅(qū)動(dòng)的共同作用下,我們要做的事情還有很多。
|