1. 黄色视频软件大全,黄色视频网站APP,黄色视频免费观看下载,黄色视频污在线观看网站

          網站地圖
        2. LEwin樂玩機器人聯合香港大學推出的UniVLA入選 RSS 2025 並開源! 發布時間:2025-05-14 18:01:00


          導 言 

          現有具身模型沒有充分利用更加多樣的視頻數據,難以適應未訓練過的新任務與新場景,通用性受限。為此,LEwin樂玩機器人聯合香港大學提出UniVLA:一個具備跨機器人本體、場景與任務泛化能力的通用策略學習係統。它構建了以任務為中心的隱式動作空間,充分利用語言描述與視頻示範進行策略學習,實現了從“看視頻”、“聽指令”到“動手操作”的通用控製。該成果已被機器人頂會 RSS 2025 認可,同時代碼也已經開源,並成為全球頂尖機器人賽事 AgiBot World Challenge @ IROS 2025【點擊文字跳轉相關文章】 的baseline之一。


          想象一下在不遠的未來,通用機器人真正走進了日常生活。黄色视频软件大全希望當你發出一條自然語言指令,無論是“幫我給貓喂食”,還是“幫我關掉台燈”,它都能夠理解你的意圖,並準確地完成動作——不依賴預定義的任務模板,也不受限於曾經訓練過的數據分布。


          然而,現有的機器人係統往往依賴人工標注的數據與固定的動作空間,麵對那些未被明確訓練過的任務或非典型場景,它們常常會因為“未見過”“無定義”而選擇拒絕執行,嚴重限製了通用性的發揮。有沒有一種能夠從更廣泛的數據來源,如從互聯網上的人類視頻中學習動作的方法,並實現多種場景、任務的真正通用和泛化呢?


          最近,LEwin樂玩機器人聯合香港大學基於此提出了全新框架——UniVLA,一個跨本體、跨場景、跨任務的通用策略學習係統,就像為機器人安裝了“跨界大腦”,實現了從“看視頻”、“聽指令”到“動手操作”的通用控製。


          圖片

          UniVLA:跨本體、跨場景、跨任務的通用策略


          論文地址:

          http://www.arxiv.org/abs/2505.06111

          ? 開源代碼

          http://github.com/OpenDriveLab/UniVLA


          以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢,但依然存在諸多瓶頸:


          • 訓練數據源單一:訓練時隻使用大量人工采集的真機示範數據,沒有充分利用更加多樣的視頻數據。

          • 缺乏通用性和跨平台適配能力:換個機器人,動作空間就全得重來。

          • 推理慢且精度不穩:自回歸預測方式對錯誤累積敏感,執行效率不高。


          UniVLA 選擇了一條更具前瞻性的路徑:不再直接預測每一步動作,而是構建一個任務中心的隱式動作空間,在這個“中間表征”上統一訓練與泛化策略,不僅可以有效解決上述瓶頸,同時也能夠以更低的計算資源消耗實現更優的效果。


          UniVLA的核心創新在於構建了以任務為中心的隱式動作空間(task-centric latent action space),讓模型可以從海量無標簽視頻中學習任務相關且高效泛化的動作表示,隻在人類視頻數據(Ego4D)上預訓練,就可以在LIBERO仿真平台上達到SOTA級別效果。經過預訓練後同一模型可以同時完成操作與導航等任務,實現了通用的動作學習。



          為什麽是隱式動作?

          因為它既“壓縮信息”,又“對齊知識”


          傳統的通用模型如OpenVLA采用自回歸策略直接預測每一步動作,推理速度慢且魯棒性不強。UniVLA則另辟蹊徑,將動作預測劃分為三個階段:


          1. 隱式動作學習:

          從海量跨領域視頻中“默默學習”,通過逆動力學建模並使用VQ-VAE進行離散化,構建出對任務理解更強、更緊湊的隱式動作空間;

          2. 通用策略預訓練:

          借助Prismatic-7B等大模型架構,將視覺觀察與語言指令編碼為統一輸入,預測隱式動作序列,從而實現具身無關的通用策略;

          3. 動作解碼與部署:

          使用輕量化解碼器將隱式動作轉譯為真實機器人控製信號,作為下遊的控製策略,從而能夠在多款機器人平台上進行快速適配和部署,輕裝上陣、高效執行。


          圖片

          UniVLA的前兩階段訓練策略


          相比 OpenVLA 那種直接在動作空間裏“硬解”的做法,UniVLA 的“隱式編碼”(Latent Encoding)策略有幾個顯著優勢:


          1. 可以更好的利用視頻數據,泛化範圍大:

          隻需視頻和語言,就能從互聯網視頻數據中學技能,提取動作;

          2. 壓縮維度,降低計算成本:

          動作空間被有效壓縮,推理速度從<5Hz 提升至 10Hz+;

          3. 適配靈活,遷移效率高:

          由於隱式動作具有通用性,故隻需輕量微調,就能部署到不同機器人上,下遊數據效率拉滿。


          數據算力所需更少,性能反而更強


          相比OpenVLA,UniVLA在計算效率和適配能力上表現出壓倒性優勢:預訓練GPU時長僅為其1/20,卻在多個任務和平台上實現性能的全麵超越。


          在LIBERO、CALVIN等多個操控基準測試中,UniVLA展現出優越的通用性與任務適應能力,在四項評估指標中成功率平均提升達18.5%。更值得注意的是,僅使用人類視頻預訓練(Ego4D),UniVLA也能在LIBERO-Goal中達到SOTA效果。同時隻需要10%的數據就在LIBERO-Goal上達到了SOTA效果(62.4%),優於同樣數據量訓練下的OpenVLA(11.6%)和 OpenVLA-OFT(43.0%),數據利用效率如同開掛。


          圖片

          LIBERO 實驗結果


          更重要的是,UniVLA以其結構化的隱式動作空間設計,天然具備擴展性與數據可擴展性:無論是引入更多人類示範作為提取隱空間表征的與訓練,還是增加新的機器人平台僅通過輕量微調即可遷移適配,實現跨具身、跨視角、跨任務的全麵通用。


          在真實機器部署中,受益於僅12M參數的簡單動作解碼器以及高效的隱空間動作表征,UniVLA可以實現(閉環)10Hz以上的實時推理控製,在多個任務中(如“清理案板”、“疊漢諾塔”等)展現出高精度、高魯棒的操作能力,平均成功率達到80%+,推理時延遠低於OpenVLA,打通了通用大模型到落地應用的可能路徑。


          圖片

          UniVLA在真機實驗表現出色


          同時在設計的若幹泛化實驗中,麵對各種泛化挑戰,它不僅不社恐,還能“快準穩”上手。通用的隱式動作空間+異構數據的預訓練,讓它不止是“聰明”,而且真“通用”。


          圖片

          UniVLA在不同泛化條件下的表現


          多虧了UniVLA的‘隱式動作+通用訓練’,UniVLA能夠充分在大量異構數據(操作、導航甚至人類視頻)中進行學習,並能夠有效容納足夠多的知識,單全收,越學越強。


          圖片

          UniVLA的異構數據擴展能力


          少樣本情況下UniVLA性能優勢盡顯,在LIBERO長程任務基準上僅用10%數據(不到50條demo,平均每個任務僅5條)擊敗了全量數據微調的OpenVLA。


          圖片

          UniVLA在少樣本情況下的表現


          UniVLA的方法不僅代表了視覺語言動作模型(VLA)領域的一次突破,更為“通用機器人智能”提供了新的思考與貢獻:從像素重建走向語義解耦的隱式動作學習、從高耗能預訓練走向輕量高效的跨本體適配、從單一機器人數據閉環走向人類視頻與多本體數據的開放協同。


          - END -


          網站地圖