國內首個利用世界模型生成數據實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發布。
這是國內首個利用「世界模型」生成數據實現真機泛化的視覺-語言-動作(VLA)基礎模型,旨在通過世界模型為中心,無論在數據側還是模型側,徹底改變通用機器人大腦的開發方式。
GigaBrain-0擁有當前最先進的VLA模型架構,同時支持圖像、點云、文本、本體狀態的輸入,輸出結構化的任務規劃和運動規劃,并在大規模的數據上完成預訓練,可以實現更精準的移動導航和長序列的復雜操作。
搭配極佳視界自研「世界模型平臺GigaWorld」,構建最完整的具身數據體系,可以快速實現多種本體上復雜的機器人移動操作任務。后續GigaBrain-0將全面開源。

項目鏈接: https://gigabrain0.github.io/
論文鏈接: https://arxiv.org/pdf/2510.19430

針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力,通過引入這兩項關鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的復雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類復雜、柔性、長程移動操作任務!
1. 3D空間感知能力:加入Depth輸入,更精準的移動導航
GigaBrain-0通過加入深度信息的輸入,提升了物體3D位置和空間3D布局的感知能力,這兩點對于精確的雙臂操作和精確的移動導航至關重要。
2. 結構化推理能力:更穩定的長程、復雜任務表現
GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務規劃和運動規劃能力,極大提升了復雜、長程任務的成功率:
-
子目標拆解:模型在推理過程中,可以同時輸出子任務的自然語言描述,讓GigaBrain-0對于長程任務的分解更合理。
-
末端軌跡輸出:模型在推理過程中,增加了機械臂末端執行器運動路徑在圖像平面上2D投影的輸出,增強GigaBrain-0整體的全局動作規劃能力。

世界模型無論在數據側還是模型側,對于具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能數據體系,具體包括:
-
Sim2Real Transfer Data: 利用Isaac Sim等仿真環境合成多樣化的機器人操作數據,通過GigaWorld的Sim2Real變換,實現逼真的外觀渲染,同時保留原始場景幾何和動作語義。
-
Real2Real Transfer Data: 將真實世界機器人采集的視頻重新渲染成外觀幾何上不同但物理上合理的變體,通過文本提示來控制前景及背景的材質、表面紋理、光照條件,同時保持機器人動作和交互的一致性。這有效地將真實數據的多樣性提高了約10倍。
-
View Transfer Data: 利用GigaWorld的3D空間場景重建能力,將單個真實采集的數據片段生成新視角的數據片段。
-
Video Generation Data: GigaWorld可以根據單個輸入圖像和不同的文本提示生成多樣化的具身機器人操作視頻,并通過逆動力學模型推斷出相應的機器人動作序列,合成訓練數據。
-
Human Transfer Data: 通過視頻變換和運動學重定向,將大規模第一人稱視頻中的人手替換為機械臂,生成穩定且可由機器人執行的動作序列。
我們在多個任務上驗證了世界模型生成數據對于具身機器人真機操作任務的價值,結果表明通過增加世界模型生成的數據進行預訓練和后訓練,GigaBrain-0的真機操作成功率可以持續提升,并且全球首次實現了連續柔性復雜長程操作的開放世界泛化。
同時,通過混合世界模型生產的數據和真機采集數據,GigaBrain-0可以快速完成特定本體上的任務適配和泛化。
通過「世界模型」驅動的具身最全數據體系,極佳視界將持續迭代具身大模型,加速走向物理世界通用智能。