「一腦多形」圓桌:世界模型、空間智能在具身智能出現了哪些具體進展?
在 12 月 13 日舉行的腦多能具能出第八屆 GAIR 全球人工智能與機器人大會 " 數據 & 一腦多形 " 分論壇上,一場有關 " 一腦多形 " 的形圓型空現具圓桌論壇,將整個會場氣氛推向高潮,桌世展在英諾天使基金 ED 王建明的界模間智主持下,浙江大學控制學院副教授,身智微分智飛創(chuàng)始人高飛,體進寧波東方理工大學助理教授金鑫,腦多能具能出上海人工智能實驗室青年科學家王靖博三位嘉賓圍繞著具身智能、形圓型空現具空間智能、桌世展世界模型等話題進行了熱烈討論。界模間智
通過主持人特有的身智投資人式、抽絲剝繭的體進提問,圍繞著幾位學者的腦多能具能出研究和創(chuàng)業(yè)方向,我們可以了解到當下最火熱的形圓型空現具世界模型、空間智能在具身智能領域的桌世展研究進展和細節(jié),從而得以穿透資本籠罩在世界模型、空間智能的迷霧,看到具身智能當下遇到的挑戰(zhàn)與機遇。
具身智能技術路線仍未收斂
王建明:三位學者研究的方向都非常不一樣,開場先問一個共性的問題熱熱場,大家怎么看過去兩年具身智能的發(fā)展?
高飛:現在還沒到技術路線收斂的時候,還屬于探索階段,這是好事,有發(fā)散才有機會。這波具身智能的熱潮,大家本質期待的還是 AI 結合本體能帶來的智能性的飛躍。我認為從發(fā)散探索到技術路線收斂、到最后落地階段,大家還是要記住自己做具身智能的初心是什么。如果不是為了通用泛化智能,最后這個領域又收斂回工業(yè)自動化了,可能就沒有太大的意義了。
金鑫:我也非常同意高老師的看法,我感覺這兩年留給高校的機會相對產業(yè)界來講比較少,希望未來更多把具身智能的核心問題交給高校去突破,比如交互、人機協(xié)同、多智能體、世界模型等等抽象出的關鍵問題,產業(yè)去做更落地的事情。希望未來兩年能看到高校跟企業(yè)更好地合作、平衡。
王靖博:相比較在純數字世界中做一些例如 scaling up 的事情,我更關注具身智能軟硬件的 code design,比如人形機器人十年前的波士頓動力 Atlas 就展示出了很好的運動能力,但它并沒有從實驗室的產品進入產業(yè)界,當有了較好的軟硬件的 code design,可能會加快整個領域的進程。
王建明:高飛老師的演講剛剛展示了特別多的能力,例如單個機器人的自主路徑的規(guī)劃決策、集群、飛行操作,demo 演示都非常驚艷,這些能力背后是如何做到的?跟您過往研究是否有協(xié)同?
高飛:很難有一句話來說明白怎么做到的,不同的 demo 肯定有不同的技術路線,我之所以比較擅長做一些比較 fancy 的 demo,可能是因為我比較擅長在保持著一定發(fā)散思維的情況下,還有比較好的執(zhí)行力,最后能把想法落實。在具體技術路線里,我的優(yōu)勢可能是:在無人機領域,我可能是比較懂 AI 的;在 AI 領域,我可能是比較懂無人機的。
單體機器人的研究思路是通過放大其極限情況下的小腦能力,現在比較合適收斂的技術路線越來越往端到端的方向傾斜。通過端到端可以降低整個系統(tǒng)的 compound error(復合誤差)和降低延遲。具體用什么解法,就要 case by case,做 robotics 的好處就是這是很尊重客觀事實、面向對象的一個學科,什么好用我們用什么。
決策這塊,現在業(yè)界的共識可能要通過放大 VLM 的能力,而對于群體機器人而言,打造一種柔性的、彈性的、分布式的、靈活的群體架構才是一切的基礎。
王建明:我比較好奇無人機的端到端是什么端到端?我的簡單粗化理解大家說的端到端是一個黑箱操作,是 data driven 的事情。
高飛:我認為端到端和 data driven 是兩個概念,舉個例子,無人機的端到端是圖像輸入,電機控制,那是不是一定要用到機器學習、黑箱、RL,其實不一定。20 年前大家研究無人機,就可能會在地上貼一個小球,無人機的攝像頭看到這個小球,通過把小球的像素點控制在像平面中間,讓無人機可以保持懸停。這是不是端到端?是,因為它用 PID 把一端輸入的信息——圖像空間中的點誤差,映射到另一端輸出的控制指令。
端到端是一種范式,強化學習是一種解法,黑箱是一種模式,三者是不一樣的概念,不應該被直接畫上等號。
王建明:所以高老師的端到端也用到各種解法?
高飛:各種各樣的解法,以解決問題為唯一目標。
王建明:也有涉及到強化學習?
高飛:現在用大量的強化學習。
王建明:無人機的高速穿越我印象里有強調強化學習,高老師的工作中還是有一些 rule base 的東西存在?
高飛:我們不叫 rule base,我們叫 model base 或者叫 principle base,我們很少去寫規(guī)則。大家經常會批判 rule base,但是如果只寫了一個規(guī)則要怎么解釋你的算法可以在不同的地方避障。所以它一定不是一套規(guī)則,而是一種系統(tǒng)化的模式。
世界模型解決了自動駕駛的哪些問題?
王建明:金老師剛分享了很多世界模型在自動駕駛領域的突破,金老師的研究方向主要是世界模型空間智能。最近一段時間世界模型的概念很火,那么自動駕駛的具體什么問題用世界模型來解決了?
金鑫:現在第一梯隊像特斯拉的方案基本都在用世界模型,之前他們收集到的數據已經把數據飛輪轉起來了,這么多數據上已經積累了大量的 corner case,那么他們下一步可能就要通過世界模型模擬的方式再去生成更多海量數據,例如覆蓋掉之前在國內采集的數據以及之前布局不到的地方。
再一個,跟原來通過離線數據訓練相比,通過世界模型方式可以做閉環(huán)測試。閉環(huán)測試是指上線一個模型后,在世界模型里面跑,跑完后能輸出 action 得到未來的狀態(tài),再根據未來的狀態(tài)測試下一步該怎么做,就能把整個 decision making 鏈路放到 world model 里面去做閉環(huán)的測試跟優(yōu)化。這是跟原來技術方案最大的不同。
現在世界模型在自動駕駛領域為什么這么火,主要還是因為自動駕駛的場景生成還是比較簡單,不像機器人。而自動駕駛領域很早就有世界模型的概念,只是叫法不一樣叫閉環(huán)仿真器,用來做自動駕駛安全測試。是生成式 AI 能力的提升才使得現在世界模型生成的數據已經到了真假難辨的地步,為此提供大量非常有價值的訓練樣本。
王建明:視頻生成是一種世界模型,如果帶上機器人的 3D 空間,再加上很多動作維度,這個狀態(tài)表征可以是多種多樣的,那么在自動駕駛領域的表征是什么?是一個共識嗎?
金鑫:機器人領域世界模型路線究竟對不對還存在爭議。對于世界模型的定義大家也有不同的看法,例如李飛飛跟 LeCun 就存在差異。李飛飛更偏重于 "pixel-wise"(像素級)重建,LeCun 認為不需要重建成人人可見可視的 video,直接 " latent-based" 表達出來對應的機器人的 latent state 就可以了,它也是一種世界模型,只要能夠給定前序的 action,能夠預測出后續(xù)的 action,或者 state 狀態(tài)應該怎么變化,本體下個階段會出現什么情況,只要能把這個階段抽象地表達出來,都算世界模型。
所以目前世界模型的定義還沒有定式,我認為在自動駕駛跟機器人兩個任務之間,對于世界模型的要求跟技術范式也都有區(qū)別。最初世界模型那篇 paper 提出的概念也很抽象,只要有能預測未來的能力并且有記憶,都可以被稱為世界模型。
王建明:我觀察到創(chuàng)業(yè)公司層面,現在做世界模型創(chuàng)業(yè)的很多公司創(chuàng)始人都有自動駕駛背景,我想了解下自動駕駛的狀態(tài)表征到底是個什么?
金鑫:可能主流的還是視頻生成。因為牽扯到安全性問題,如果連視頻模態(tài) RGB 的 video 都給不出來,如何相信生出來的數據是有效的?自動駕駛主要還是視頻的 ADAS,同時雷達、點云這些傳統(tǒng)的數據也要有,所以這是我為什么要做 UniScene,因為生成的模態(tài)越多,信息量越大,我認為 multi model 的前景可能更好。
每家主機廠都在做自己的方案,因為對安全性的要求以及道路場景的復雜度不同,偏重也都不一樣,例如特斯拉就是純視覺方案,華為有激光雷達輔助。
王建明:世界模型解決具身智能相關問題,會不會距離太遠?
金鑫:前兩天 LeCun 公布了多模態(tài) V-JEPA,他一直宣稱自己的 latent space 就是世界模型的方案之一。如果要把世界模型打造出來,offline 先做好,再去驅動具身,這個目前似乎沒有比較明確走通的技術方案,但像 LeCun V-JEPA 直接通過 representation learning 方式先學到對應的預測能力,再去追問輔助,其實已經有不少工作,比如 VLA。
但是要說它走通了嗎,把世界模型跟具身結合起來的方案已經有人在售賣了,但要說真正達到剛高老師說的那種通用智能似乎又沒有,還需要時間驗證。
王建明:現在一種說法是把世界模型跟 VLA 對立起來,你剛提到其實這兩種可以結合。
金鑫:我們昨天上線了一篇研究《Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey》就是將兩者結合起來。如何做我們梳理了兩種方式,一種是先創(chuàng)建世界模型,再做 policy learning,要么同時做,不分先后。
王建明:兩者結合解決的是不同層次的問題?
金鑫:解決的還是老問題,即原本 offline 數據集沒辦法通過 imitation learning 模仿學習擁有長程思維和未來預測的能力。
高飛:相當于 MPC 中的 P ( 預測 ) 。很多人認為 MPC 中的模型就是機器人,可以把其他所有狀態(tài)都放到 model 里,也會往前預測。
王建明:我可以理解 MPC 可能是用一個方程來 predict,而世界模型其實是用一個生成式方法來 predict?
高飛:我認為 MPC 里面的 M 怎么來,其實是工程師跟科學家去做了抽象,而世界模型這種數據驅動就是用 AI 自己去探索。本質上如果我們用更多 AI,以后就可以不需要那么多科學家去抽象了。
王建明:那 predict 的下一個狀態(tài)是什么樣的?
金鑫:比如說一個長程任務,我要想象出來后面怎么做,就相當于把它抽象成一個一個 long horizon 問題,現在最難解決的就是長程任務,有了世界模型之后,長程任務的理解、預測能力就能很好地賦予后續(xù)的 different policy 去學習。
什么是無人機的空間智能?
王建明:王博士您主要做全身控制(Whole-Body Control, WBC),把視覺引入到 Whole-Body Control,在這個方向,您覺得大概到什么時間點可能會實現一個看上去還不錯的通用控制器。
王靖博:如果說在仿真器里不做一些力矩的限制,要實現一個還不錯的控制器不難,但會有精度的平衡,可能不太會像真的機械臂一樣指哪打哪。
如果在真實世界里,要實現這件事一方面是算法的問題,一方面也看硬件,在上海 AI LAB 有非常多不同型號的人形機器人,相同的算法跑出來很多不同的結論,我覺得硬件能力的上限決定了什么時候能取得不錯的成績。
王建明:高老師您剛給我們展示了多機的集群,包括多無人機的協(xié)同,這是否有點像集群學習?
高飛:集群學習具體的定義我不太熟,但是我們會采用集中學習、分布計算的模式,學習、訓練的時候在一起,work 的時候各做各的,但是大家都有一個共同的目標。
王建明:三位嘉賓共同探討的另一個共同點可能還有空間智能,包括無人機的空間感知、VLR(Vision-Language Reconstruction
相關文章
中新網1月9日電 據中央紀委國家監(jiān)委駐國家稅務總局紀檢監(jiān)察組、山西省紀委監(jiān)委消息,原山西省地方稅務局副巡視員牛晉華涉嫌嚴重違紀違法,目前正接受中央紀委國家監(jiān)委駐國家稅務總局紀檢監(jiān)察組紀律審查和山西省朔2026-01-09
中新網哈爾濱1月4日電 (溫天禹 趙雁星)4日,記者獲悉,元旦假期,哈爾濱機場共保障航班起降1523架次,運送旅客23.6萬人次,旅客吞吐量同比增長1.8%。哈爾濱機場值機大廳 哈機場供圖隨著冰雪大世2026-01-09
【太平洋汽車 新車頻道】近日,大眾汽車發(fā)布了全新純電動小型車—— ID. Polo的內飾官圖,新車作為 ID. 2all概念車的量產版,延續(xù)概念車的設計理念的同時還保留了大量實體按鍵,兼顧科技感和實用2026-01-09
【太平洋汽車 新車頻道】近日,大眾汽車發(fā)布了全新純電動小型車—— ID. Polo的內飾官圖,新車作為 ID. 2all概念車的量產版,延續(xù)概念車的設計理念的同時還保留了大量實體按鍵,兼顧科技感和實用2026-01-09
烏美安全協(xié)議基本就緒俄指認“戰(zhàn)爭軸心”
新華社北京 1 月 9 日電烏克蘭總統(tǒng)澤連斯基 8 日表示,烏克蘭與美國的雙邊安全保障協(xié)議文本已基本就緒,將由烏美兩國總統(tǒng)親自敲定。俄羅斯當天則將主要由西方國家組成的 " 志愿聯盟 " 和烏克蘭稱為2026-01-09
一年破產717家,創(chuàng)十五年新高,美國遭遇破產潮
2025 年,美國商業(yè)世界上演了一場前所未有的 " 至暗時刻 "。據華盛頓郵報報道,截至 2025 年 11 月,717 家大型企業(yè)申請破產保護,這一數字不僅超過了去年同期的 687 件,更創(chuàng)下了自2026-01-09
