18個月的神速發展機器人 (示意圖)
18個月的神速發展機器人 (示意圖)

18個月的大突破:OpenAI與Figure合作的新型人形機器

【本文約有6,054字】

OpenAIFigure合作推出的新型人形機器人,在短短18個月內實現了顯著的技術進步。這款機器人具備使用視覺模型和端到端神經網路來完成任務的能力,並能在執行任務時與人進行交流。

機器人展示了其學習和自主行動的能力,所有的動作都是在正常速度下運行,並未加速顯示。透過OpenAI訓練的大型多模態模型,機器人能夠理解圖像和文本,處理對話歷史來產生語言回應,並自主決定如何執行給定命令。

此外,它展示了高級的推理能力,例如透過常識推理來處理高級請求,並具備強大的短期記憶能力,能夠快速執行計劃。整體而言,這款機器人的開發顯示了AI技術在實際應用中的巨大潛力,特別是在理解和互動方面的進步。

上方的影片是官網提供。

下方影片是國外 YTer 分享,數小時後因版權被禁止播放,之後又開放。

(00:00) 這真的是我這輩子看過最令人驚訝的AI示範,你馬上就會知道為什麼。OpenAI與Figure合作的新型人形機器人簡直令人難以置信,讓我們先看看示範,然後深入探討其中的所有技術細節。[音樂]

(00:16) 嘿,Figure 1,你現在看到什麼?我看到桌子中央的盤子上有一顆紅蘋果,一個晾碗架上有杯子和盤子,你就站在旁邊,手放在桌上。太好了,我可以吃點東西嗎?當然,[音樂] 給你。太好了,你能解釋一下你剛才為什麼這麼做嗎?你撿起這個

(00:46) [音樂] 把垃圾扔掉,所以我給了你蘋果,因為這是我能從桌上拿給你的唯一可食用的東西。太好了,根據現在的情況,你認為你面前的餐具接下來會放到哪裡?桌上的盤子和杯子,很可能接下來會放進晾碗架。太好了,你能把它們

(01:12) [音樂] 放在那裡嗎?[音樂] 當然可以。那麼,你覺得你做得如何?我覺得我做得很好,蘋果找到了新主人,垃圾不見了,餐具也放到了該放的地方。我同意,謝謝你,Figure 1。不客氣,如果你還需要任何幫助,儘管告訴我。[音樂]

(01:58) 女士們先生們,這就是震驚整個行業的示範,無論你用哪個詞來形容。老實說,這是我今年看到的最令人驚訝的事情,也是我見過的最令人印象深刻的示範。有一點必須要稱讚的是Figure公司,因為他們以閃電般的速度發展。這家公司僅成立了18個月,也就是從創立到現在只有1年半的時間,天哪,看看他們取得了多大的進步。他們從一無所有,到建造出一個可以使用視覺模型和端到端神經網路完成這些任務的工作人形機器人,而且在完成任務的同時還能與你交談。在我對此發表完整評論之前,因為我有很多要說的,讓我們先來看看這個AGI實驗室正在開發的機器人的一些技術細節。

(02:54) 首先,一位在那裡工作的人在推特上發布了第一張圖片,他們說,讓我們來分析一下這個視頻。所有行為都是學習得來的,而不是遠程操控的,並且以正常速度運行。你可能不知道的一點是,通常在過去進行機器人示範時,因為機器人有點慢,而且由於使它們快速運行是一項相當困難的任務,所以它們在過去一直很慢,它們的速度被加快了,只是為了向你展示機器人能夠做什麼。然而,最近的這個示範完全是以一倍速進行的,這意味著你看到的並沒有被加速,一切都是實時進行的。

(03:30) 其次,推文還指出,所有行為都是學習得來的,而不是遠程操控的。遠程操控是指使用人類通過VR控制器來控制機器人,可能是VR頭顯,然後將這種運動映射到機器人身上,在示範中展示機器人在物理上能夠做什麼。然而,這是一個使用端到端神經網路的機器人,這意味著這個機器人100%的行為都是完全自主的。他們還指出,我們將機器人攝像頭拍攝的圖像和機載麥克風捕捉到的語音轉錄文本輸入到由OpenAI訓練的大型多模態模型中,該模型能夠理解圖像和文本,模型處理整個對話歷史,包括過去的圖像,以產生語言響應,然後由人工語音合成說出來。同一個模型還負責決定在機器人上運行哪些學習好的閉環行為來執行給定的命令,將特定的神經網路權重加載到GPU上並執行策略。

(04:44) 本質上,這個AI系統能夠識別環境中發生的事情,一旦它從人類語音中識別出想要什麼,它就能夠從現有策略庫中選擇一個策略來執行,然後根據其推理執行該策略。這真的非常非常令人印象深刻,因為圖像處理實際上具有常識推理能力,機器人可以通過視覺理解周圍環境,它不只是看到圖像,而是以一種可以推理正在發生什麼或接下來需要做什麼的方式來理解圖像。

(05:02) 當然,其中一個非常酷的功能是文本到語音轉換,機器人可以將它輸出的文本轉換為口語,以便繼續與人進行對話。我真的很喜歡文本到語音轉換的一點,我想快速談一下,那就是它聽起來是如此連貫和人性化,事實上,它聽起來太像人了。現在大多數人可能會認為你從這個Figure機器人聽到的聲音就像人類的錄音,這可能是真的,但我想告訴你們,我稍後會向你們展示一個示範,讓人形機器人發出如此逼真的人聲是完全可能的,我過去曾經嘗試過一些聽起來100%逼真的軟件,機器人會說”呃”,會說”嗯”,這其實是可以做到的。我知道它聽起來非常逼真,但這是有可能的,它可能是OpenAI尚未發布的模型,但讓我們繼續深入技術細節,然後再進行一些推測。

(06:14) 此外,他們在這裡還提到,它是一個全身控制器,因此機器人可以以一種受控且穩定的方式移動,確保它不會翻倒或做出不安全的動作,就像擁有內在的平衡感和理解如何協調所有身體部位一樣。他們還指出,它有200赫茲的動作和1千赫茲的關節扭矩,這意味著機器人的動作每秒更新200次,關節上的力每秒更新1000次,這意味著機器人可以做出非常平滑和精確的動作,快速應對變化,整個系統設計為無縫運行,使機器人能夠理解環境的視覺和語音方面,並決定如何用語音和動作來響應,並在不受人類控制的情況下實時執行這些響應。

(07:04) 視頻中展示的行為是通過訓練學習的,而不是為每個特定的交互而編程的,這使它能夠非常快速地處理和響應信息。這裡有另一條推文對此進行了分析,這是一位從事該機器人工作的人發的推文,他說,將Figure 1與多模態模型連接起來,賦予了它一些有趣的新功能。Figure 1現在可以使用常識推理來描述其周圍環境,例如,桌上的盤子和杯子很可能接下來會被放進晾碗架。當然,還可以將模糊的高級請求,如”我餓了”轉化為一些與上下文相關的行為,如把蘋果遞給那個人,然後用簡單的英語描述它為什麼要執行這個特定的動作,例如,這是我從桌上能提供給你的唯一可食用的東西。

(07:55) 所以我認為,把蘋果遞給別人的示範可能看起來很基本,但這確實顯示出了高級的推理能力,因為如果有人說”我餓了”,你必須意識到,如果這個人餓了,那意味著他們想要食物,我必須掃描環境,尋找任何食物來源,我看到一個蘋果,然後我可以選擇把蘋果遞給那個人的策略,然後我必須拿起蘋果,把蘋果遞給那個人。所以這是在做決定時運用常識推理,這是我們之前見過的一個關鍵進步,這意味著這是另一個層次,不僅僅是展示機器人的靈巧性和扭矩。

(08:28) 我的意思是,這對於未來真的很酷,因為現在我們有了一個可以根據它看到的東西對接下來應該發生什麼做出有根據的猜測的機器人,例如,我們確實看到,如果它看到桌子上的盤子,它可以推斷出它們之後可能會被放在晾碗架上,這類似於你看到髒盤子時可能會想到這些盤子需要洗。

(08:44) 這裡有另一條推文,Corey說,一個經過大規模預訓練、能夠理解對話歷史的模型賦予了Figure 1強大的短期記憶能力。考慮這個問題:”你能把它們放在那裡嗎?” “它們”指的是什麼,”那裡”又是哪裡?正確回答需要有反思記憶的能力,預訓練模型分析對話的圖像和文本歷史,Figure 1快速執行並完成一個計劃:1. 把杯子放在晾碗架上;2. 把盤子放在晾碗架上。

(09:15) 所以本質上,這條推文再次描述了常識推理是如何工作的,因為有了記憶,它能夠意識到之前發生了什麼,然後根據這些信息做出有根據的猜測。這裡我們更詳細地看一下其中的一些東西,Corey在推特上發布了一條推文,他是Figure機器人的AI工作人員,我將為你分析這條推文。

(09:47) 這條推文主要是關於機器人如何用雙手完成複雜的任務,包括以非常精細的方式處理、握持和操縱物體,我們稱之為雙手操作。首先是神經網路視覺運動變換器策略,你可以將機器人的大腦想像成有一個特殊的部分,可以通過攝像頭拍攝的圖像,然後直接將其轉換為動作,如移動手臂或手指,這部分使用了一種叫做變換器的神經網路,它非常擅長處理數據序列,在這種情況下是一段時間內的圖像序列。本質上,我們將像素映射到動作,這個機器人不僅僅是看到圖像,它還解釋視覺信息,即像素,以決定它的手和手指應該採取什麼動作。

(10:22) 當然,機載圖像以10赫茲的頻率更新,動作以200赫茲的頻率更新,機器人的攝像頭以每秒10次的頻率捕捉圖像,根據這些圖像,機器人以每秒200次的頻率更新它的動作,在看到和行動之間有一個輕微的延遲,但實際上非常快,比人類可以感知到的要快得多。

(10:59) 當然,我們有24個自由度的動作,在機器人技術中,自由度是指機器人可以移動的不同方式,這裡意味著機器人可以通過24種獨特的方式來調整其手腕的位置和手指的角度,以抓取和操縱物體。當然,整個身體控制器的高速設定點,這本質上是機器人決定採取的動作,就像機器人要達到的目標或目的,然後由運行速度更高的全身控制器使用這些設定點,以確保機器人的整個身體與手部動作協調一致。

(11:31) 當然,還有關注點的分離,這個術語實際上意味著將一個複雜的問題分解成更小、更容易管理的部分。在這種情況下,互聯網預訓練模型就像機器人的高級思維,使用常識根據它看到和聽到的內容制定計劃,而學習的視覺運動策略則是機器人的反射,使它能夠執行那些太複雜而無法手工編程的任務,如適應擠壓袋子的不可預測運動。全身控制器就像機器人的平衡感和自我保護意識,確保無論手部執行什麼動作,機器人都保持穩定,不會跌倒或做出不安全的動作。

(12:08) 簡單地說,我們這裡基本上有一個機器人,它被設計成通過以非常快速和複雜的方式看到和行動來用雙手完成複雜的任務,大腦的不同部分專注於任務的不同方面,以確保任務順利和安全地完成。現在我們已經分析了這個故事的大部分技術方面,

我想真的有必要討論一下這裡發生的事情,因為這是我今年看到的最令人震驚的事情之一,在令我感到驚訝方面。我確實知道OpenAI和Figure正在研究這個更新,但我沒想到當它到來時會如此逼真。

(12:44) 我首先注意到的一點當然是聲音,我看到很多評論說,這是VR操控的,是有劇本的,ChatGPT不使用停頓詞,有人說它使用的是OpenAI的文本到語音轉換,如果你在ChatGPT應用中使用對話,你可以聽到它,他回應說我一直在使用它,它不包括停頓。這裡的問題是,我可能可以保證,好吧,我不能保證,因為我不在OpenAI工作,但我可能可以打賭,OpenAI使用的是不同的模型,因為此前當他們討論這個機器人,並討論ChatGPT 5和GPT 4.5(如果真有這個版本的話)的未來更新時,他們談到他們想增加延遲時間,或者實際上是我的意思是減少延遲時間,這意味著機器人和與你對話的AI系統的反應速度將變得更快,更像人類。

(13:33) 所以我們知道,他們可能使用的是一個更新的版本,可能是專門用於這種機器人的,因為我們可能在未來的ChatGPT更新中獲得的系統類型可能與這個不同,因為這個需要非常快,而且它處理的是一個完全不同的系統。所以我認為這100%是可能的,我認為讓你看到這一點非常令人震驚,因為人們對此非常懷疑,有人說是VR操控的,是有劇本的,當然還有人說ChatGPT不使用停頓詞。如果你真的使用過AI語音生成器,如果你使用過11 Labs或其他類型的技術,你就會知道有時AI實際上會出現故障,它們有時實際上會使用停頓。如果我設法找到一個AI這樣做的例子,我會附上,但這是我多次看到發生的事情,對OpenAI來說做到這一點並不難,因為OpenAI有一個非常好的團隊,無論他們做什麼,他們都會excel。我們看到他們在視頻方面表現出色,而視頻甚至不是他們的主要公司,當然他們是一家AI公司,但我們知道他們做的主要事情之一當然是這些大型語言模型,這是他們的主要關注點,但這表明,當OpenAI下定決心做某件事時,他們能夠以一種表明他們確實是市場領導者的方式執行。

(14:58) 我注意到的另一件非常流暢和流動的事情當然是機器人在放置物品時的移動有多麼流暢,你可以看到,當它把盤子放下時,我發現它能夠如此平穩地移動盤子,這太不可思議了。不僅如此,當它移開垃圾時,我只是覺得移開垃圾的動作非常像人類,看起來不像是機器人的抓取方式,而是像一個人以非常流暢、動態和人性化的方式扔東西。然後它甚至設法把籃子移回給這個人,所以我認為那部分非常像人類,這是我認為真的令人驚訝的兩個主要事情,未來將是令人震驚的,因為就在幾個月前,事實上不是很久以前,我們才看到這個機器人的一些非常基本的更新,你知道,這個自主的,你可以看到速度與人類的比較是16.7%,這就是這個機器人現在的位置。

(15:51) 我認為這家公司的下一步,就其未來發展方向而言,現在他們在開發方面處於一個非常好的位置,但我認為接下來可能會看到這個機器人在移動方面再多做一些工作,因為雖然它現在能夠擁有這種視覺能力,能夠與自然語言交談,這是一個重大進步,因為它能夠感知環境並對環境進行推理,但我認為接下來可能會提高腿部的移動速度,因為這似乎是一個相當緩慢的地方。

(16:27) 之前有一個更新,確實顯示了動態行走速度的提高,你可以看到它比這快了一點,當然人類走路的速度要快得多,我們看到特斯拉機器人實際上可以走得比這快得多,但我認為這個團隊進展如此之快,如果我們在年底看到這個東西,我不會說跑步,但如果我們看到它以100%的人類速度移動,並且能夠像現在這樣進行實時對話,甚至更快,我真的一點也不會感到驚訝。所以我認為這就是它接下來要做的,因為雖然這些示範非常酷,但我認為看到機器人在環境中走動,然後可能實時更新其策略以適應動態環境,將是非常有趣的,因為在很多示範中,我們看到的是預設的環境,一切看起來都是預先設置好的,但有時我們需要看到一個機器人進入它從未見過的廚房,然後在新環境中動態調整其策略。

(17:31) 但老實說,這是迄今為止我們所有人見過的最令人印象深刻的機器人,考慮到這個實驗室僅成立了18個月,這表明當你真正下定決心去做某件事時,加速發展的速度是可能的。波士頓動力公司和特斯拉的Optimus面臨著真正的競爭,因為這是我們看到的第一個具身AGI系統,老實說,這看起來真的非常好。如果這家公司繼續以目前的速度發展,他們肯定會完全主導市場,因為他們擁有真正有效的東西,我們看到了持續的示範,我們看到了一些聽起來真實、能夠很好地推理的東西。我看到的另一件事是,從事這個模型工作的人們實際上並沒有說它使用GPT-4,這意味著我們可能在這裡看到的是一個完全不同的模型,所以它可能是GPT-4的更新版本,GPT-4.5,它可能是GPT-5,但這條推文向我們展示,它說將Figure 1連接到一個大型預訓練的多模態模型,賦予它新的能力,它具有高級的常識推理能力。

(18:50) 當然,這是推測,但也許它可能是一個不同的模型,因為它只是說OpenAI模型,它沒有說GPT-4。如果它是GPT-4,他們會說它是GPT-4。所以我猜他們在這裡提到的OpenAI模型可能是一個專門用於機器人的模型,可能經過機器人方面的微調,了解一切是如何工作的,或者它可能是OpenAI在過去一年多時間裡一直在開發的一個先進系統。

(19:24) 綜上所述,如果你喜歡這個視頻,請告訴我你是否認為這很瘋狂,你是否認為這會立即取代Bender和裝袋雜貨的人,或者在某些商店工作的人,我不知道未來會是什麼樣子,因為我的天,我們在這裡看到的是非凡的、令人震驚的、令人驚訝的、令人難以置信的。就這樣,請告訴我你對這整個示範的看法,這是否是你感到興奮的事情,我們下次見。