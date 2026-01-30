NVIDIA 最近發佈了 Cosmos Policy，這是一種新的機器人控制方法，旨在推動其在物理人工智能系統中的世界基礎模型的發展。該框架旨在簡化機器人決策行動的過程，通過調整大型視頻預測模型以應用於控制和規劃任務。

在機器人學中，政策是將觀察結果（例如相機圖像和傳感器數據）轉化為物理行動（例如關節運動或抓取動作）的決策層。傳統的機器人政策通常作為特定任務的神經網絡構建，這些網絡需要分開的感知、規劃和控制模塊。這些系統通常需要大量標記數據和為每個機器人或環境進行自定義調整。Cosmos Policy 採取了不同的方法。NVIDIA 並非從頭設計新的控制模型，而是在機器人示範數據上對預訓練的視頻世界模型 Cosmos Predict 進行後訓練。該模型已經了解物理世界隨時間的演變，因為它從大規模視頻數據中學習而來。

廣告 廣告

在後訓練過程中，機器人的行動、物理狀態和任務結果被視為模型內部時間表示的一部分，這使模型能夠預測機器人接下來應該做什麼以及會發生什麼。這種設計使 Cosmos Policy 能夠在單一架構中聯合預測行動、未來狀態和預期的任務成功。通過依賴單一的後訓練階段，該框架減少了架構的複雜性，避免了將多個專門模型對接在一起以進行感知和控制的需求。

根據基準結果，這種方法的效果顯著。在標準的機器人操作基準測試中，Cosmos Policy 在需要長期推理的多步任務中取得了高成功率。在某些情況下，它的表現甚至匹配或超過了現有方法，同時使用的訓練示範數量顯著減少。這種數據效率在機器人學中尤為重要，因為收集現實世界的訓練數據既昂貴又耗時。通過利用已經嵌入大型視頻模型的知識，Cosmos Policy 減少了學習可靠控制行為所需的機器人特定數據量。

Cosmos Policy 的另一個關鍵特徵是其在推理時的規劃能力。該模型不僅能生成下個即時行動，還能生成和評估多個候選行動序列。通過預測這些序列的未來結果和預期獎勵，機器人能夠選擇在長期內更可能成功的行動。這種規劃能力使機器人在面對複雜任務時能夠更具策略性，而非僅僅反應。

該框架也在實際的機器人系統中進行了評估。在涉及雙手操作的物理實驗中，該政策能夠直接從視覺輸入中完成長期任務，這表明這一方法能夠從模擬轉移到現實環境中。Cosmos Policy 是 NVIDIA 更大 Cosmos 生態系統的一部分，該生態系統專注於為機器人和自主系統構建通用的世界模型。其更廣泛的目標是提供共享基礎設施，幫助機器理解、預測和在物理世界中行動，從而減少對特定任務工程的需求。

Cosmos Policy 並不作為規則手冊或安全標準，而是為機器人控制提供技術基礎。安全、合規和治理仍然是高層系統和監管機構的責任。隨著機器人變得越來越有能力和自主，像 Cosmos Policy 這樣的框架突顯了行業日益努力標準化將人工智能推理與物理行動連接的核心決策層。

推薦閱讀