瞭望丨何時擺脫遙控器

2025-11-19 15:46 新華社責任編輯：吳靜

觸覺融入、硬件、模型等方面的挑戰，制約著具身智能向通用智能演進

文|《瞭望》新聞周刊記者王鶴龔雯

從央視春晚上宇樹機器人“扭秧歌”開始，中國具身智能正以驚人速度成長，跑馬拉松、打拳擊、踢足球、跳街舞，還可以在汽車工廠“上崗”……每一個“驚人”的技能都在凸顯這個行業的發展新高度。

“這些花樣玩活的視頻放出來，把大家的胃口吊起來了，容易讓人誤判形勢，以為機器人已經高度成熟，可以做很多高難度事情，就快上天入地、無所不能了。”一位工業機器人企業高管感嘆，我們需要透過“表面繁榮”，看到具身智能的實際能力。

細心的人會發現，幾乎所有做高難度動作的機器人身旁，都有一位人類工程師在遙操，或者機器人提前植入了程序，也就是說，這些機器人還是“提線木偶”，需要人類“把著手”做事。

具身智能何時才能擺脫遙控器，距離“全自主”還有多遠？

大腦“進化”

突破遙操的關鍵是要具備強大大腦，即機器能夠理解物理世界并與之交互，實現感知—決策—執行—反饋的閉環。以自動駕駛領域為例，VLA大模型（視覺—語言—行動模型）、端到端強化學習和世界模型是三類核心技術要素，三者協同實現機器從感知環境到執行動作的自主智能。

VLA大模型融合視覺、語言和動作三種模態，用于讓機器人理解環境、接受指令并執行物理動作，是具身智能基礎模型。今年6月銀河通用發布了面向零售場景的大模型GroceryVLA，實現機器人對復雜環境的自主決策與精準執行，例如當人類發出“幫我拿點吃的”指令后，機器人無需遙操作，無事先采集場景數據，通過自主規劃路徑，從貨架中識別并抓取餅干飲料送達。

端到端強化學習是能夠直接從圖像、傳感器數據等原始輸入到動作輸出的強化學習系統，中間不依賴路徑規劃器等模塊，是訓練VLA大模型的關鍵方法。在2025世界人形機器人運動會上，清華大學教授、機器人控制實驗室主任趙明國帶領的機器人足球隊“清華火神隊”贏得足球賽冠軍。比賽中機器人已實現無遙操，能夠走、跑、跳、翻跟頭，具備在復雜、有障礙物路面上行走所需的平衡和適應能力。趙明國團隊的核心突破是采用端到端強化學習算法，直接將機器人的視覺信號，如球的位置、隊友/對手的位置、球場邊界等映射到運動控制指令，實現機器人的行走方向、踢球力度、身體姿態調整。

世界大模型是模擬環境動態的“虛擬大腦”，其核心是通過學習環境的物理規律，如物體運動、碰撞后果，預測未來狀態，為VLA大模型提供環境認知支持。在攻堅世界模型技術瓶頸方面，智元近期發布了自主研發的世界模型GE。相比傳統機器人的你說什么、它做什么，GE通過學習物理規律、環境動態，在內部預測未來狀態，模擬人類“腦內推演”，從而讓機器人具備了主動預判與決策的能力，像人一樣先想、再練、后做。搭載該模型的機器人已實現“做三明治”“倒茶”“擦桌面”等任務。GE平臺開放底層架構，未來或成為機器人界的“安卓系統”。

通用智能還需突破核心挑戰

具身智能大腦技術不斷有突破，但要實現通用智能，讓機器像人一樣“理解”環境，具備舉一反三的泛化能力，受訪專家認為目前水平差距極大。“機器人在某些特殊場景下能自主完成動作，比如足球比賽，但到了別的場景就不會了。”趙明國說。

業界專家認為，觸覺融入、硬件、模型等方面的挑戰，制約著具身智能向通用智能演進。

觸覺融入方面，機器人從“看得見”走向“摸得著、懂力度、會適應”任重道遠。VLA大模型整合了視覺、語言、動作三種模態，如果再加上觸覺則困難重重。觸覺感知是一個多維度感知的能力，除了力度感知外，還涉及材質感知，比如表面干性程度、溫度高低、柔性還是脆性等。

“當視覺數據跟觸覺數據加在一起，要考慮的有效數據元素過多，模型體量增大，難度也必然提升。”他山科技CEO、聯合創始人馬揚舉例，他山科技正在研究機器人剝小龍蝦任務，這種看似非常簡單的精細動作，實則需要大量的訓練和學習。“我們目前在武漢招募了十幾個人的團隊做小龍蝦項目，計劃今年底完成模型訓練，并推進小批量試驗。”

硬件方面，具身智能本體端部署的大模型，對算力水平要求高，專用芯片仍不夠成熟。“需要加速發展低功耗、高性能且專用于具身智能大模型的芯片；同時將大參數模型輕量化、小型化，并保證在執行任務時性能不會大幅下降。”一位高校具身智能專家提出。

算法層面，業界仍難以訓練出強泛化能力的大模型。中國信息通信研究院人工智能所安全與具身智能部副主任張蔚敏介紹，在3D場景中的情景問答（SQA3D）任務中，當前最先進的模型準確率已提升至55%～60%區間，但仍遠低于人類的90.06%，這表明算法成熟度不夠高。

此外，目前探討的具身智能多為單體智能，在實際應用中，多臺機器人協同工作的群體智能，亦是行業需要攻克的課題。

不可否認，具身智能產業飛速發展，泛化能力正越來越強大。“部分場景樂觀估計三五年就能在技術上實現突破。”趙明國表示。

分級分類加快落地

加速實現通用智能，僅靠實驗室環境無法模擬復雜場景的動態不確定性，需要在真實落地場景中暴露問題并找到解決方案。“具身智能需要一個標準分層，有標準就可以實現技術對齊，加速產品落地。”瑞銀證券中國工業分析師王斐麗說。

目前，國內一些行業機構效仿智能駕駛分級標準，提出了具身智能相關分級框架，以加快技術進步和場景落地。

例如，2024年10月國家地方共建人形機器人創新中心聯合行業內企業和機構，在上海發布了《人形機器人分類分級應用指南》團體標準和《具身智能智能化發展階段分級指南》團體標準。

北京人形機器人創新中心有限公司牽頭制定的團標《人形機器人智能化分級》從感知、決策、執行、協作四個維度建立了四維五級評價體系，給出了通用安全底線，明確了不同等級機器人的能力要求和適用場景，有助于加速推動人形機器人在特種作業、物流搬運、教育科研、商業服務、健康養老等多領域的應用落地，打破技術與場景之間的壁壘。

受訪專家建議，參照自動駕駛在封閉場景和開放場景中不同等級的應用，加速人形機器人等分級應用。工廠車間等封閉場景，障礙物、光線、地形等因素都比較容易預測和控制，高等級人形機器人可以在這樣的環境中更穩定地執行復雜任務，如進行高精度的零件裝配、特定區域的貨物搬運等。而開放場景，具有高度的不確定性，人形機器人在這些場景中運行需要應對各種突發情況，因此可以使用較低等級的人形機器人執行一些特定任務，如引導服務、物品配送等，逐步積累開放場景運行經驗。

本
網
聲
明

本網轉載內容出于更直觀傳遞信息之目的。該內容版權歸原作者所有，并不代表本網贊同其觀點和對其真實性負責。如該內容涉及任何第三方合法權利，請點擊投訴按鈕，我們會及時反饋并處理完畢。

投訴

新聞中心