|
英偉達發布了一種能夠自動訓練機器人執行新任務的 AI 系統 Eureka。該系統以
OpenAI 的 GPT-4 為基礎,本質是一種由大模型驅動的算法生成工具,能訓練實體機器人執行例
如“轉筆”、“開抽屜”、“拿剪刀”、“雙手互傳球”等多種復雜動作。
Eureka 的關鍵創新在于結合生成式 AI 來實現了人類水平的獎勵算法設計。Eureka 使用 GPT-4
的零樣本生成、代碼編寫以及上下文改進功能,對獎勵執行策略進行了優化,由此通過強化學習
來學會執行復雜的技能。Eureka 會基于訓練結果匯總關鍵統計數據,并指導 LLM 改進其獎勵函
數的生成。在 29 種不同的開源強化學習環境中,Eureka獎勵設計的性能達到了人類水平,這些
環境包括 10 種不同的機器人形態(四足機器人、四旋翼機器人、雙足機器人、機械手以及幾種靈
巧手)。在沒有任何特定任務提示或獎勵模板的情況下,Eureka生成的獎勵程序在超過 80%的任
務上優于專家編寫的獎勵程序,這使得機器人的平均性能提G了 50%以上。在以人類設計的獎勵
程序作為初始條件時,Eureka 的表現還會進一步提升。
英偉達的新成果則展示了大模型在機器人精細化控制方面的作用,能夠讓機器人次實現一些
G復雜性動作。我們認為,在英偉達的推動下,更智能的機器人學習方式有望被迅速引入工業和
消費應用L域。
|