|
|
| 當前位置:首頁 > 機器人技術 |
機器人任務軌跡規劃系統VoxPoser,把復雜指令轉化成具體行動規劃 |
| 來源:東方證券 時間:2024/9/5 |
| 坦福大學李飛飛團隊提出了智能系統 VoxPoser, 它可以從大模型 LLM 和視覺- 語言模型 VLM 中提取可行性和約束,以構建 3D 仿真環境中的值地圖,供運動規劃器使用,用于 零樣本地合成機器人操縱任務的軌跡,從而實現在真實世界中的零樣本機器人操縱。 該模型把復雜指令轉化成具體行動規劃,人類可以隨意地用自然語言給機器人下達指令,機器人也無需額外數據和訓練。其原理很簡單,先,給定環境信息(用相機采集 RGB-D 圖像)和我 們要執行的自然語言指令。接著,LLM根據這些內容編寫代碼,所生成代碼與 VLM進行交互,指導系統生成相應的操作指示地圖,即 3D 值地圖。它是可行性地圖和約束地圖的總稱,既標記了 “在哪里行動”,也標記了“如何行動”。再利用動作規劃器,將生成的 3D 地圖作為其目標函 數,便能夠合成終要執行的操作軌跡。相比傳統方法需要進行額外的預訓練,這個方法用大模 型指導機器人如何與環境進行交互,直接解決了機器人訓練數據稀缺的問題。 VoxPoser 還具有 4 個新穎的涌現能力。 1)估算物理屬性:給定兩個未知質量的方塊,機器人被 要求使用現有工具進行物理實驗,確定哪個方塊更重。 2)常識性行為推理:在擺桌子的任務中, 用戶可以指定行為偏好,比如“我是左撇子”,機器人能根據上下文理解其含義。 3)細粒度語言糾正:比如執行“給茶壺蓋上蓋子”這種精度要求較G的任務時,可以向機器人發出“你偏離 了 1 厘米”等準確指令來校正它的操作。 4)基于視覺的多步操作:比如叫機器人將抽屜準確地打 開成一半,由于沒有對象模型導致的信息不足可能讓機器人無法執行這樣的任務,但 VoxPoser 可以根據視覺反饋提出多步操作策略,即先完全打開抽屜同時記錄手柄位移,然后將其推回至 中點就可以滿足要求了。
|
| 信息推薦 |