|
|
| 當前位置:首頁 > 機器人技術 |
首個視覺-語言-動作多模態大模型RT-2,能夠端到端直接輸出機器人的控制 |
| 來源:東方證券 時間:2024/9/5 |
| 谷歌 DeepMind 推出 了 RT-2,這是D一個控制機器人的視覺-語言-動作 (Vision-Language-Action,VLA)模型。通過將 VLM 預訓練與機器人數據相結合,能夠端到端直接輸出機器人的控制。 RT-2 以 VLM 為基礎,升J成為全新的視-語言-動作(VLA)模型。RT-2 將一個或多個圖像作為 輸入,并生成一系列通常代表自然語言文本的標注。例如RT-2將原本非常具體的機器人動作數據 轉變成文本 token,例如將轉動度數、坐標點等數據,轉變成文本“放到某個位置”。這樣一來, 機器人數據也能被用到視覺-語言數據集中進行訓練,同時在進行推理的過程中,原本的文本指令 也會被重新轉化為機器人數據,實現控制機器人等一系列操作:為了控制機器人,研究人員通過 將操作表示為模型輸出中的標注,并將操作描述為可以由標準自然語言標注生成器處理的字符串, 這種字符串的示例可以是機器人動作標記編號的序列,例如“1 128 91 241 5 101 127 217”。該 字符串以一個標志開始,該標志指示機器人是繼續還是終止當前情節,然后機器人根據指示改變末端執行器的位置和旋轉以及機器人抓手等命令。由于動作被表示為文本字符串,因此機器人執行動作命令就像執行字符串命令一樣簡單。有了這種表示,就可以直接對現有的視覺-語言(VLM) 模型進行微調,并將其轉換為視覺-語言-動作(VLA)模型。 RT-2 較基線模型 RT-1 等而言具有更強的任務處理能力和泛化能力。谷歌在去年推出了 RT-1 機 器人模型,RT-2的訓練則延續使用了 RT-1 的演示數據,由 13 個機器人在辦公室、廚房環境中, 歷時 17 個月進行收集。RT-2的基礎 VLM則選用了不久前推出的 PaLM-E和更早一些的 PaLI-X, 通過測試后發現,RT-2 與之前的模型相比,具有更G的任務成功率(符號理解、推理和人類識別 三個方面)以及更強的泛化和涌現能力(在機器人面對以前未見過場景中的性能方面,RT-2 從 RT-1 的 32% 提G到 62%)。 RT-2 具有學習長期規劃和簡易技能的能力。研究人員將思維鏈能力加入到了機器人控制中,通過 對數據進行增強,添加了一個額外的“計劃”步驟,該步驟用自然語言描述機器人即將采取的動 作的目的,然后是動作的描述和標注。例如“指令:我餓了。計劃:挑選 Rxbar 巧克力。行動: 1 128 124 136 121 158 111 255”。通過這一過程,RT-2 就可以先用自然語言規劃自己的行動, 從而可以執行更多復雜的命令。
|
| 信息推薦 |