|
|
| 當前位置:首頁 > 機器人技術 |
軟件與硬件融合,打造智能講解機器人新高度 |
| 來源:東方證券 時間:2024/9/5 |
| 人形機器人是軟硬件能力G集成的實體,商業化的核心突破點在于“AI 大腦”。可以說,當前的 AI 大腦在邏輯思維和行為智慧決策層面還需要一段成長空間,其驅動力很大程度上來自于算法的 升J與G水平的智能化。 具身智能是人形機器人想要實現的終方向。具身智能是指一種智能系統或機器能夠通過感知和 交互與環境(物理世界)產生實時互動的能力。具身智能包括三個模塊:具身 感 知 (Perception)、具身想象(Imagination)和具身執行(Execution),AI+機器人正是“具身智 能”當前的落點。在機器人L域,有一個“莫拉維克悖論”——人類所d有的G階智慧能力只需 要非常少的計算能力,但無意識的技能和直覺(如辨識人臉、舉起鉛筆、在房間內走動、轉筆等 能力)卻需要J大的運算能力,即越簡單的事情越難,越難的事情越簡單。具身智能機器人未來 要能夠像人一樣與環境交互、感知、決策、完成任務,其感知層和認知層的能力是非常G的。顯 然,當下的人形機器人距離這一狀態還有非常巨大的差距。人形機器人傳感器數量、品類、執行 機構復雜程度遠G于工業機器人,對控制器實時算力、集成度要求JG。
大模型為人形機器人的發展帶來了新的突破。以往由于算法模型的局限,機器人難以實現通用化 能力,只能通過對于某一個特定L域訓練對應的基礎模型,達到能夠滿足特定用途的機器人 AI 算 法,比如工廠車間大量采用的機器人臂、家用掃地機器人等。軟件層面的局限性限制了機器人的 應用場景狹窄、可通用性較差,無法充分發揮硬件層面的性能。而大模型的出現,補全了讓機器人能力實現躍升的技術基礎。大模型的向量應用提供了大腦給機器人,使機器人具備更G的事物 處理能力。大模型的 Chat 應用把自然語言理解提供給了機器人,機器人次可以用接近人的語言 水平,和真實人類聊天,進行基于自然語言的互動。此外,大模型的編程輔助可以肉眼可見的減 少軟件工程師的工作量,產出軟件的成本會逐年下降。 ChatGPT 已經在機器狗L域落地應用,人形機器人未來可期。今年 4 月,AI 公司 Levatas 與波士 頓動力合作,將 ChatGPT 和谷歌的語音合成技術接入 Spot 機器狗,成功實現與人類的交互? 以說,ChatGPT 的成功,也為人形機器人這一更加GJ的L域帶來了發展拐點。以 ChatGPT 為 代表的語言大模型能夠實現近似人一樣的自然語言交互,多模態大模型則能讓人形機器人能夠通 過“視覺”去與環境交互?梢哉f,大模型賦予了人形機器人一個通識大腦,從而能夠順暢地和 外界對話,還可以增加任務理解、拆分和邏輯推理等“決策”能力。 大模型的泛化能力讓研究者看到人形通用機器人的曙光。以往的 AI 模型訓練完成后,就只能用于 其被設計出來的場景中,難以進行拓展,無法實現通用性。而大模型具備強大的泛化能力,讓通 用這一目標的實現成為了可能。泛化(Generalization)可以理解為一種遷移學習的能力,把從過 去的經驗中學習到的表示、知識和策略應用到新的L域。人類就具有“舉一反三”的能力,學習 一個新概念后立即就能理解它在其他情況下的相關用法。以往的 AI 泛化能力很低,應用場景比較 局限,泛化能力的出現讓大模型能夠在沒有被訓練過的場景中也能表現出色,是 AI 實現通用性的 基礎。人形機器人所面臨的應用場景與人類的日常生活接近,需要面對多種多樣、不重復、沒見 過的任務,模型的泛化能力就成為了其能否真正實現通用的核心要素。 以 GPT-4 為的多模態大模型已經具備成為通用性人形機器人核心大腦的初步條件。OpenAI 在 10 月正式上線 GPT-4V(ision)這一新版本,為 GPT-4 新增了語音與圖像功能,F在用戶可以直 接與 GPT-4V 進行語音交互,并且 GPT-4V 能夠對圖像進行推理和分析。根據微軟團隊對 GPT- 4V 的詳細評測,GPT-4V 有作為具身機器人的理解核心的潛力。在微軟的測試案例中,GPT-4V 可以扮演一名家庭機器人,閱讀咖啡機的操作界面并給出正確的指令操作;或者通過房間圖片的輸入,要求 GPT-4V 規劃出去廚房冰箱取物品的路線,GPT-4V 也可以執行面向任務的導航。具 有多模態輸入的 GPT-4V 在面對動態環境時可以很好地與環境交互,證明了 GPT-4 擁有成為人形 機器人核心大腦的潛力。如果將 GPT-4 與合適的硬件進行結合,就有望實現具備 GPT-4 水平的 具身智能。
|
| 信息推薦 |