宇樹(shù)機(jī)器人在春晚跳了一場(chǎng)秧歌之后,人們對(duì)人形機(jī)器人的關(guān)注度開(kāi)始*高漲。
而就在前天( 3 月 11 日 ),“ 華為天才少年 ” 稚暉君所創(chuàng)立的創(chuàng)業(yè)企業(yè)智元機(jī)器人發(fā)布了基于 GO-1 具身智能大模型的智元機(jī)器人靈犀 X2 。
靈犀 X2 給我們展現(xiàn)了它行走、小跑、騎自行車(chē)、溜滑板、縫線(xiàn)、語(yǔ)音聊天、俏皮的小動(dòng)作等等生動(dòng)的行為。
你可能會(huì)發(fā)現(xiàn),最近兩年人形機(jī)器人的發(fā)展速度變得很快,機(jī)器人越來(lái)越像一個(gè)有靈魂的 “ 人 ”。
那么,一個(gè)有趣的問(wèn)題來(lái)了:人類(lèi)是如何給機(jī)器人 “ 注入靈魂 ” 的呢?
首先,我們要先明白 “ 機(jī)器人為什么不會(huì)摔倒 ”,明白了這一點(diǎn),你就知道了機(jī)器人是如何運(yùn)動(dòng)的。
秘訣在于:大扭矩和平衡術(shù)。
機(jī)器人的運(yùn)動(dòng),最簡(jiǎn)單的方式,可以分解為本體運(yùn)動(dòng)和肢體運(yùn)動(dòng)。
肢體運(yùn)動(dòng)包括身體各個(gè)關(guān)節(jié)的旋轉(zhuǎn)、肢體的伸縮等,這就相當(dāng)于將肢體運(yùn)動(dòng)分解為了旋轉(zhuǎn)運(yùn)動(dòng)和直線(xiàn)運(yùn)動(dòng)。
而直線(xiàn)運(yùn)動(dòng),是可以通過(guò)旋轉(zhuǎn)運(yùn)動(dòng)來(lái)表達(dá)的,比如擰螺絲,就是通過(guò)旋轉(zhuǎn)運(yùn)動(dòng)達(dá)成了直線(xiàn)運(yùn)動(dòng)。
所以,你可以把機(jī)器人一切的運(yùn)動(dòng)都看作是一系列旋轉(zhuǎn)運(yùn)動(dòng)組成的,而達(dá)成這些旋轉(zhuǎn)運(yùn)動(dòng),通過(guò)電機(jī)就可以實(shí)現(xiàn)。
而這之中,又有一個(gè)比較關(guān)鍵的點(diǎn):在機(jī)械臂的工作使用中,通常需要有足夠大的扭矩,尤其對(duì)人形機(jī)器人來(lái)說(shuō),大扭矩的意義特別廣泛。
有了大扭矩,機(jī)械臂可以施加更強(qiáng)的力,用于舉起重物,也能在承載重物時(shí)保持穩(wěn)定,抗干擾能力加強(qiáng),比如搬運(yùn)機(jī)器人。
由于轉(zhuǎn)速降低( 功率=扭矩*轉(zhuǎn)速,功率相同時(shí)扭矩越大轉(zhuǎn)速越低 ),可以精準(zhǔn)控制旋轉(zhuǎn)角,從而進(jìn)行精密操作,同時(shí)能夠克服組織阻力,比如精密手術(shù)機(jī)器人。
而最重要的一點(diǎn)是,對(duì)于行走、爬坡或跨越障礙,大扭矩意味著機(jī)器人能夠克服地面摩擦、重力和其他阻力,確保穩(wěn)定的運(yùn)動(dòng)。
有了大扭矩這個(gè)先決條件,接下來(lái)就是平衡術(shù)。
本體運(yùn)動(dòng)可以理解為是機(jī)器人通過(guò)肢體運(yùn)動(dòng)與環(huán)境交互( 比如摩擦、推力等 )實(shí)現(xiàn)的質(zhì)心的平移、旋轉(zhuǎn)運(yùn)動(dòng),從而達(dá)到包括行走、跑動(dòng)甚至后空翻等目的。
想簡(jiǎn)單理解這個(gè)概念,你可以現(xiàn)在站起來(lái)走幾步,并且只關(guān)注自己的其中一只腳,比如右腳,會(huì)發(fā)現(xiàn)過(guò)程是這樣的:
右腳邁出并落在前方;
身體圍繞著前方落腳點(diǎn),向前 “ 甩出去 ”;
直到身體被 “ 甩 ” 的快失去平衡了,左腳突然出現(xiàn),幫你撐住身體。
這個(gè)過(guò)程,其實(shí)很像一個(gè)倒立的鐘擺向前方一 “ 甩 ” 一 “ 甩 ” 地?cái)[動(dòng)。
沒(méi)錯(cuò),在機(jī)器人動(dòng)力學(xué)中,確實(shí)也會(huì)將人形機(jī)器人簡(jiǎn)化為一個(gè)線(xiàn)性倒立擺模型,即著名的 LIPM 模型,它能很好地抓住人形機(jī)器人運(yùn)動(dòng)的基本規(guī)律。
在這個(gè)模型中,假設(shè)機(jī)器人所有重量集中在一個(gè)質(zhì)心點(diǎn)上,用無(wú)質(zhì)量的桿撐在地面上,在行走時(shí)保持質(zhì)心高度不變。
這時(shí),在地面上存在一個(gè)點(diǎn),圍繞這個(gè)點(diǎn)可以計(jì)算出所有水平方向的力矩之和為零,稱(chēng)之為零力矩點(diǎn),即 ZMP( Zero Moment Point )。
零力矩點(diǎn)說(shuō)明機(jī)器人不會(huì)圍繞這個(gè)點(diǎn)上的平行于這個(gè)平面的軸旋轉(zhuǎn)。( 可以理解為不會(huì)旋轉(zhuǎn)著摔倒在地 )
如果你覺(jué)得這樣理解太抽象,你可以看看花滑運(yùn)動(dòng)員,他們的身體如果圍繞身體豎直方向的力矩之和是不為零的,那么其就會(huì)開(kāi)始旋轉(zhuǎn)。
大概理解了什么是 ZMP 之后,我可以告訴你一個(gè)公式,這個(gè)公式就是機(jī)器人行走時(shí)的 “ 倒立擺 ” 公式:
你不需要理解這個(gè)東西,你只需要知道我們把 “ 行走” 這件事轉(zhuǎn)化成了一個(gè)方程,想要走好路,我們要做的就是解方程。
不過(guò),LIPM 模型很簡(jiǎn)單,他是一個(gè)比較理想的模型,生活中很難有完全近似于這個(gè)簡(jiǎn)單模型的運(yùn)動(dòng)。比如機(jī)器人的速度變化過(guò)大,質(zhì)心變化過(guò)大( 比如亂蹦亂跳或跳舞 ),或質(zhì)心不穩(wěn)定( 比如抓握物品或身上掛著不穩(wěn)定的器件 ),都會(huì)讓實(shí)際情況脫離模型,帶來(lái)很大的平衡難題。
所以,你會(huì)看到早期的機(jī)器人都用小碎步行走,這樣可以保持更加平穩(wěn)的速度以及更小的加速度,從而偏移程度小,更容易保持平衡。而機(jī)器人用彎曲的膝蓋行走,可以讓質(zhì)心保持在相同高度,更加適配這個(gè)極簡(jiǎn)的模型,也就避免了更多復(fù)雜因素的引入。
從以上討論中,我們也可以對(duì)運(yùn)動(dòng)有一個(gè)新的認(rèn)識(shí)角度。
行走并不是時(shí)刻保持著平衡狀態(tài),而是不斷處于一只腳制造失衡而另一只腳消除失衡的動(dòng)態(tài)平衡過(guò)程,從而推動(dòng)機(jī)器人前進(jìn)。
LIPM 模型討論的是對(duì)機(jī)器人運(yùn)動(dòng)的限制因素,但在實(shí)際運(yùn)動(dòng)中,機(jī)器人當(dāng)然并不是按照方程完全被動(dòng)地行走的,而是先規(guī)劃一個(gè)參考 ZMP 的路線(xiàn),再按照計(jì)算的質(zhì)心位置和加速度實(shí)際去行走,確保在這過(guò)程中,實(shí)際的 ZMP 與參考 ZMP 盡可能重合,從而保持平衡。
而機(jī)器人要在任意時(shí)刻保持平衡,就需要保持 ZMP 點(diǎn)( 上圖機(jī)器人身體下方標(biāo)記的一個(gè)點(diǎn) )位于支撐多邊形內(nèi)。支撐多邊形可以簡(jiǎn)單理解為上圖機(jī)器人的接觸地面的腳圍成的多邊形。
這太復(fù)雜了,看到這里你可能快要暈了,不過(guò)沒(méi)關(guān)系,機(jī)器自己也不理解,所以,注入靈魂的步驟開(kāi)始了:我們?cè)噲D讓機(jī)器自己學(xué)會(huì)理解如何去走路、做動(dòng)作。
行走、奔跑等基本的運(yùn)動(dòng)行為一般是通過(guò)經(jīng)典 AI 算法強(qiáng)化學(xué)習(xí)訓(xùn)練得到的,早年一直不用 AI 技術(shù)、成本降不下來(lái)的波士頓動(dòng)力現(xiàn)在也在用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練 Spot 機(jī)器人和 Atlas 機(jī)器人。
強(qiáng)化學(xué)習(xí)的原理大致是,比如機(jī)器人在行走時(shí),如果采用了正確的步伐或者沒(méi)有摔倒,就提供獎(jiǎng)勵(lì),如果采用了錯(cuò)誤的步伐或者摔倒了,就進(jìn)行懲罰。這在游戲的語(yǔ)境中很容易理解,吃豆人吃到豆子了就有獎(jiǎng)勵(lì),被幽靈抓住了就有懲罰。
同樣,機(jī)器人接收到獎(jiǎng)勵(lì)信號(hào),就會(huì)強(qiáng)化當(dāng)前的行為,接收到懲罰信號(hào),就會(huì)弱化當(dāng)前行為。
強(qiáng)化學(xué)習(xí)基本是機(jī)器人學(xué)習(xí)的底層配置了,但它也有非常大的缺點(diǎn)。
機(jī)器人又有太多的方式或動(dòng)作來(lái)完成同一個(gè)任務(wù),也就是動(dòng)作空間太大。
這就像是在一個(gè)非常龐大地圖的開(kāi)放式游戲中,沒(méi)有特定的任務(wù)指引,只能靠一點(diǎn)一點(diǎn)的摸索來(lái)獲取反饋,這樣固然有非常大的創(chuàng)新自由度,比如AlphaGo能夠采用人類(lèi)意想不到的方式來(lái)走棋。
他的弊端是資源消耗特別大,而且也有可能讓機(jī)器人用意想不到的方式獲取獎(jiǎng)勵(lì)。
比如靈犀 X2 機(jī)器人訓(xùn)練時(shí)會(huì)有 “ 抽象 ” 的行走方式,這些方式能夠滿(mǎn)足 “ 前進(jìn) ” 這一目標(biāo),但顯然不是我們想要的行為,這種現(xiàn)象通常被稱(chēng)為 “ reward hacking ”。
如今,人形機(jī)器人有一個(gè)發(fā)展趨勢(shì)就是自由度越來(lái)越大,比如手指數(shù)量和關(guān)節(jié)數(shù)量越來(lái)越多,對(duì)于具有越來(lái)越多自由度的人形機(jī)器人,每個(gè)狀態(tài)下可以采取的動(dòng)作數(shù)量呈指數(shù)級(jí)增長(zhǎng)。
下圖所示的很古早的本田機(jī)器人有 30 個(gè)自由度 ( DOF ),每個(gè)自由度都需要在每個(gè)時(shí)刻發(fā)出命令。即使每個(gè) DOF 的命令只有三個(gè)可能的值( 例如前進(jìn)、后退和無(wú) ),但在每個(gè)狀態(tài)下都可以采取 3^30 種不同動(dòng)作的組合。
這就讓機(jī)器人采用錯(cuò)誤行為的概率( 即便能夠達(dá)到相同目標(biāo) )極大。
于是,人們提出了 “ 模仿學(xué)習(xí) ” 這一概念來(lái)彌補(bǔ)不足,它讓機(jī)器人通過(guò)觀察其它機(jī)器人或人類(lèi)的動(dòng)作來(lái)學(xué)習(xí),這樣就把動(dòng)作到任務(wù)目標(biāo)的路徑都規(guī)劃好了,甚至不需要設(shè)置獎(jiǎng)勵(lì)。
圖源:https://human2robot.github.io/
模仿學(xué)習(xí)極大縮小了動(dòng)作空間,并避免了無(wú)效的探索。
這相當(dāng)于把原來(lái)開(kāi)放性極大的強(qiáng)化學(xué)習(xí),改造成了一個(gè)類(lèi)似圖像識(shí)別的監(jiān)督學(xué)習(xí)算法。甚至跳舞、打乒乓球等更加具備人類(lèi)特性的行為也是通過(guò)模仿學(xué)習(xí)實(shí)現(xiàn)的。
但,模仿學(xué)習(xí)也會(huì)遇到一個(gè)核心問(wèn)題。
Agent 在學(xué)習(xí)時(shí)直接模仿了專(zhuān)家提供的動(dòng)作,而不管交互的最終結(jié)果,就好像一個(gè)學(xué)徒只按照師傅提供的簡(jiǎn)單場(chǎng)景來(lái)開(kāi)車(chē),一般只需要按部就班地操作就行,一旦在現(xiàn)實(shí)中實(shí)操,就容易出錯(cuò)。
人們也嘗試了不同的解決方法,比如,交互式模仿學(xué)習(xí)。Agent在測(cè)試時(shí)如果出錯(cuò)了或遇到了學(xué)習(xí)范圍以外的場(chǎng)景,會(huì)向人類(lèi)專(zhuān)家詢(xún)問(wèn),然后人類(lèi)專(zhuān)家使用準(zhǔn)確的動(dòng)作重新標(biāo)記 Agent 收集的數(shù)據(jù)。
到這里,你應(yīng)該能明白,數(shù)據(jù),是一個(gè)非常重要的點(diǎn)。
從過(guò)去一年的進(jìn)展看來(lái),智元機(jī)器人可能就是希望用模仿學(xué)習(xí)結(jié)合超大規(guī)模數(shù)據(jù)把 “ 通用 ” 一路走到黑。
首先是做了 AgiBot World,一個(gè)百萬(wàn)級(jí)的機(jī)器人真機(jī)實(shí)操數(shù)據(jù)集,主打?qū)I(yè)性。
它包含的基礎(chǔ)動(dòng)作多,比如抓取、放置、推、拉等基礎(chǔ)操作,以及攪拌、折疊、熨燙等復(fù)雜動(dòng)作;場(chǎng)景又多樣,覆蓋家居、餐飲、工業(yè)、商超、辦公;數(shù)據(jù)模態(tài)豐富,360 度無(wú)死角視覺(jué)感知,以及六維力傳感器和高精度觸覺(jué)傳感器的數(shù)據(jù),后者對(duì)于精準(zhǔn)操控的訓(xùn)練必不可少。
在可視化視圖下,可以看到機(jī)器人所感知的數(shù)據(jù)形態(tài),其中包含了每時(shí)每刻的 360 度 RGB 圖像、深度圖、以及此時(shí)的動(dòng)作狀態(tài)。
然后他們還做了 AgiBot Digital World,更大規(guī)模的機(jī)器人虛擬仿真框架和開(kāi)源數(shù)據(jù)集,主打隨機(jī)性。
首先是保持了接近真機(jī)數(shù)據(jù)的模態(tài)豐富性,然后又能在同樣的任務(wù)下,生成大量的隨機(jī)因素。
生成不相關(guān)的因素,目的是為了讓神經(jīng)網(wǎng)絡(luò)知道,在一個(gè)任務(wù)下,哪些是相關(guān)的,哪些是不相關(guān)的,畢竟神經(jīng)網(wǎng)絡(luò)過(guò)于脆弱敏感,幾個(gè)意料之外的像素就能讓它大吃一驚,忘了自己是誰(shuí)、來(lái)自哪里、要去哪兒。
機(jī)器人如果沒(méi)有接觸到這些隨機(jī)因素,也就缺少了 “ 否定 ” 的能力,加入隨機(jī)因素能很好解決這個(gè)問(wèn)題。
只是再多的隨機(jī)化也不能彌合虛擬和現(xiàn)實(shí)的差距( sim2real gap ),現(xiàn)實(shí)的復(fù)雜性遠(yuǎn)超我們想象。
怎么彌合這種差距呢?關(guān)鍵在于知識(shí)共享。
神經(jīng)網(wǎng)絡(luò)的中間層能學(xué)習(xí)到一個(gè)表征空間,表征空間隱含了觀察現(xiàn)象背后的底層知識(shí),雖然還不能完全理解它,但將這一層進(jìn)行共享,就可以將其中的知識(shí)技能進(jìn)行遷移,這一點(diǎn)是在深度學(xué)習(xí)奠基者Yoshua Bengio很早期的論文 “ Representation Learning: A Review and New Perspectives ” 中就提出來(lái)的深刻洞察。
比如在這項(xiàng)研究中,機(jī)器人就學(xué)習(xí)了一種知識(shí)共享的方式。
圖源:https://www.science.org/doi/10.1126/scirobotics.aay4663
在開(kāi)藥瓶任務(wù)中,機(jī)器人從人類(lèi)演示中學(xué)習(xí)怎么擰瓶蓋。
人類(lèi)動(dòng)作的觸覺(jué)數(shù)據(jù),通過(guò)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為表征 A,A 再轉(zhuǎn)化為如何擰瓶蓋的高級(jí)決策。
對(duì)于不同類(lèi)型的機(jī)器人動(dòng)作的觸覺(jué)數(shù)據(jù),則通過(guò)另一個(gè)神經(jīng)網(wǎng)絡(luò),映射到 A,這相當(dāng)于是一個(gè)低級(jí)動(dòng)作識(shí)別模型。
這樣就將機(jī)器人的低級(jí)動(dòng)作識(shí)別連接到了人類(lèi)的高級(jí)決策,讓機(jī)器人可以想象自己是人類(lèi)來(lái)學(xué)習(xí)怎么擰瓶蓋。在實(shí)驗(yàn)中,機(jī)器人無(wú)需訓(xùn)練就能使用這些如何擰瓶蓋的高級(jí)決策。
人們對(duì)這種知識(shí)共享的根本理解還處于初步階段,神經(jīng)網(wǎng)絡(luò)還是很神秘,目前其實(shí)是從宏觀到微觀的方式逐步被結(jié)構(gòu)化的,怎么結(jié)構(gòu)化取決于專(zhuān)業(yè)領(lǐng)域的特點(diǎn)和你的需求。
但表征空間的共享是一種非常有想象力的方法。
它表明在表征空間內(nèi),任意模態(tài)的數(shù)據(jù)都是可以連接的,這就為不同領(lǐng)域的知識(shí)遷移和融合提供了橋梁,很自然地也包括不同類(lèi)型的機(jī)器人的技能遷移、通用大語(yǔ)言模型與專(zhuān)用機(jī)器人模型的知識(shí)融合等。
特別是,一個(gè)不成熟的領(lǐng)域的 AI 模型,可以通過(guò)成熟的領(lǐng)域的 AI 模型通過(guò)很小的訓(xùn)練量就能夠得到。
這便是預(yù)訓(xùn)練的另一個(gè)理解視角。
有研究就表明,在大語(yǔ)言模型的表征空間內(nèi),相似的虛擬和現(xiàn)實(shí)的機(jī)器人操作圖像在表征空間中更加靠近( 下圖中的綠框和紫框圖像 ),而不同的虛擬和現(xiàn)實(shí)的機(jī)器人操作圖像在表征空間中就會(huì)離得更加遠(yuǎn)( 下圖中的藍(lán)框和紅框圖像 )。
圖源:https://arxiv.org/pdf/2405.10020
所以,通用大模型更廣泛的現(xiàn)實(shí)世界知識(shí)有望彌合機(jī)器人領(lǐng)域依賴(lài)虛擬數(shù)據(jù)造成的虛擬和現(xiàn)實(shí)的差距。
比如在智元機(jī)器人 GO-1 具身智能大模型中,視覺(jué)大語(yǔ)言模型識(shí)別視覺(jué)輸入,然后調(diào)用行動(dòng)規(guī)劃專(zhuān)家和動(dòng)作專(zhuān)家來(lái)生成下一步動(dòng)作。
圖源:https://agibot-world.com/blog/agibot_go1.pdf
在模型設(shè)計(jì)中,其核心仍然是知識(shí)共享和復(fù)用,視覺(jué)大語(yǔ)言模型將知識(shí)共享給了行動(dòng)規(guī)劃專(zhuān)家和動(dòng)作專(zhuān)家,行動(dòng)規(guī)劃專(zhuān)家也將知識(shí)共享給了動(dòng)作專(zhuān)家。
模仿學(xué)習(xí)結(jié)合超大數(shù)據(jù)集是一條極簡(jiǎn)而有效的道路,不能證明是*的,但確實(shí)潛力極大,或許有望復(fù)刻機(jī)器人領(lǐng)域的 ChatGPT 時(shí)刻。
總之,簡(jiǎn)單來(lái)說(shuō),大模型的突破,大概率會(huì)帶來(lái)人形機(jī)器人的突破,做 AI,就是在做機(jī)器人的靈魂。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...