|
|
| 當前位置:首頁 > 機器人技術 |
最大的多模態視覺語言模型PaLM-E,5620億參數具身多模態視覺語言模型 |
| 來源:東方證券 時間:2024/9/5 |
| 柏林工業大學和 Google Robotics 團隊結合了 Google 當時 5400 億參數的 PaLM 大 語言模型和 220 億參數的 Vision Transformer(ViT)模型,提出了當時大規模的 5620 億參數 的具身多模態視覺語言模型 (Visual Language Model, VLM)PaLM-E。在 PaLM 模型基礎上, 引入了具身化和多模態概念,實現了指導現實世界機器人完成相應任務的功能。 PaLM-E 采用從多模態信息到決策端的端到端訓練。PaLM-E 直接將連續的、具體的多模態觀察 (如圖像、狀態估計或其他傳感器模態),轉化為和語言 token 嵌入空間維數相同的向量序列, 用和語言 token 同樣的方式注入預訓練語言模型的語言嵌入空間,從而在文字和感知之間建立聯 系,已解決機器人相關的具身問題。模型的輸入是交錯的視覺、連續狀態估計和文本組成的多模 態編碼,然后對這些編碼進行端到端訓練,輸出的內容則是對于機器人要執行的動作的文本決策。 整個過程不需要對場景的表示進行預處理。 以大模型作為核心的 PaLM-E 表現出了較強的泛化能力和涌現能力。研究人員發現,PaLM-E 繼 承了大語言模型的核心優點:泛化和涌現能力。得益于端到端的多模態信息訓練,PaLM-E 在面 對沒有學習過的任務(zero-shot)時也能有很好的表現,具備將從一項任務學到的知識和技能遷 移到另一項任務的能力。經過不同任務混合訓練后的 PaLM-E,與執行單一任務的機器人模型相 比,性能明顯提G。同時,盡管 PaLM-E 只接受了單圖像提示的訓練,但卻已經展示出了涌現能 力,比如多模式思維鏈推理(可讓模型分析包括語言和視覺信息在內的一系列輸入)與多圖像推 理(用多個圖像作為輸入來做出推理或預測)。
PaLM-E 展示了大模型和機器人結合的諸多可能性。以大模型為核心的 PaLM-E 有了良好的遷移 學習能力,從而可以通過自主學習來完成長跨度規劃的任務,比如,“從抽屜里拿出薯片”這類 任務包括了多個計劃步驟,并且需要調用機器人攝像頭的視覺反饋。經過端到端訓練的 PaLM-E 可以直接從像素開始對機器人進行規劃。由于模型被集成到一個控制回路中,所以機器人在拿薯 片的過程中,對途中的干擾具有魯棒性。并且由于其采用了多模態信息作為輸入,相比 ChatGPT for Robotics 論文中需要將圖像信息轉化為文字輸入來說能夠獲取更多的信息,從而提升機器人模 型的性能,能夠應用到更廣泛的場景中。
|
| 信息推薦 |