浙江大學研究員彭思達:底層空間感知技術對訓練機器人有何作用?
在 " 世界模型 " 分論壇上,浙江作用浙江大學研究員彭思達帶來了《面向具身智能的大學底層對訓通用空間感知技術》的主題演講,介紹了其團隊近期在賦予機器人通用感知能力方面的研究員彭有何多項工作。彭思達是思達浙江大學軟件學院 " 百人計劃 " 研究員、博士生導師,空間研究方向為三維計算機視覺和計算機圖形學。感知
? 團隊主要聚焦于賦予機器人三項基礎能力:一是技術相機定位(Camera Pose Estimation),即讓機器人知道自己在空間中的練機位置;二是深度估計(Depth Estimation),使機器人了解場景中各物體與自身的器人距離;三是物體運動估計(Object Motion Estimation),讓機器人感知世界的浙江作用運動狀態(tài)。?
? 這些底層空間感知技術有何作用?大學底層對訓首先,它們能為機器人提供關鍵的研究員彭有何決策信息。例如,思達無人機在空間中需要先知道自身位置、空間與場景目標的感知距離,才能實現(xiàn)基礎避障;進而還需了解目標物體的運動情況,才能進行追蹤。基于從場景中獲取的三維空間信息,機器人的行為規(guī)劃便能得到有力支持。?
? 其次,這些技術可用于生成訓練數(shù)據(jù)。當前具身智能領域的一大難題是數(shù)據(jù)匱乏。以往有人嘗試仿真或遙操獲取數(shù)據(jù),但遙操數(shù)據(jù)雖好卻難以規(guī)?;瘮U展,而仿真技術目前仍與真實世界存在較大差距。
彭思達提出,其實可將人類視作一種特殊形態(tài)的機器人——具備完整的身體結(jié)構與行為模式。若能發(fā)明一種數(shù)據(jù)采集設備,將人類日常行為完整記錄下來,就相當于獲取了機器人所需的行為數(shù)據(jù),從而可用于訓練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術。
相機定位
相機定位方面,最傳統(tǒng)經(jīng)典的方法是 Colmap。該方法從圖像中提取特征并進行兩兩匹配,再通過增量式運動恢復結(jié)構(SfM)得到相機位置。最終每張圖像對應一個相機位置,并共同生成三維點云,形成經(jīng)典的三維重建流程。
然而,該流程目前面臨的挑戰(zhàn)在于圖像匹配。團隊發(fā)現(xiàn),傳統(tǒng)匹配方法在惡劣環(huán)境或視角差異較大的情況下效果不佳,會影響后續(xù)相機位姿估計的準確性。
針對這一問題,彭思達所在實驗室于 2021 年提出一種新方法:不再依賴傳統(tǒng)匹配方式,而是直接使用 Transformer 大模型進行圖像匹配。具體而言,將兩張圖像輸入 LoFTR 模型以提取稠密特征,這些特征之間即使在弱紋理區(qū)域也能實現(xiàn)良好的匹配。
但這個方法的問題是,多模態(tài)匹配很難,例如現(xiàn)實環(huán)境往往是黑夜白天交替、熱傳感跟可見光同時出現(xiàn),這種情況下兩兩無法匹配。所以我們要解決跨模態(tài)的問題,
去年團隊針對此問題提出了新的工作叫 MatchAnything,核心思路是用大量來源的數(shù)據(jù),和多模態(tài)預訓練框架去訓練 LoFTR 模型,成功實現(xiàn)了實現(xiàn)了紅外和可見光、事件和可見光、CT 和 MR 的匹配。這其中其實是工程數(shù)據(jù)問題,彭思達團隊整合了多種數(shù)據(jù)來源,一種是常見的多視角圖像,一種是大量的單目視頻。單目視頻要如何匹配?團隊使用了成熟的光流算法,將其一個個拼接起來,得到一個長時序的匹配關系。第三種數(shù)據(jù)來源是通過圖像變換,例如將單張圖片用傳統(tǒng)的圖像變換給 warp,就形成了一個稠密匹配。
前三種都是在同一個模態(tài)下,進一步增光匹配的數(shù)據(jù)訓練來源,還有一種是做跨模態(tài)數(shù)據(jù)生成。團隊通過對現(xiàn)有兩兩匹配中的一張圖片做跨域生成,比如將其變成熱傳感圖像、黑夜圖像、深度圖像,發(fā)現(xiàn)只做少量的三種模態(tài)就能實現(xiàn)任意跨模態(tài)能力。如此便可以實現(xiàn)即便衛(wèi)星圖像是夏天的,無人機在冬天工作也能匹配,以前是匹配不上的。
此外,跨模態(tài)數(shù)據(jù)生成還包括可見光跟雷達圖像,可見光跟矢量地圖,紅外跟可見光,匹配的情況增多,逐漸形成一個匹配的模型后,特別是應用于遙感領域的無人機性能大大增強,同時應用于自動駕駛領域也出現(xiàn)了不錯的效果。
但 MatchAnything 面臨一個問題,即沒法融入已有的 SfM 算法,因為 MatchAnything 或者 LoFTR 模型的輸出匹配因圖片對不同而不同,導致無法建立多視圖匹配,因此沒法直接用在 SfM 算法中。
彭思達表示這是一個大問題,導致 MatchAnything 無法直接用于相機定位,為此他們又提出一個新的解決思路 Detector-free Sf,即先基于 MatchAnything 重建一種粗糙的模型,再做模型優(yōu)化。
具體做法是給兩張圖片做無特征檢測的圖像匹配,因為無法很好地形成多視角匹配,首先要做量化匹配把多張圖片的匹配關系連接起來,再去跑傳統(tǒng)的 SFM 算法。但圖片匹配關系被量化后,準確率降低,所以 SFM 跑出來的結(jié)果不準。因此需要迭代式去優(yōu)化。
迭代式優(yōu)化的具體流程是先優(yōu)化多視角匹配,再優(yōu)化三維模型,根據(jù)下圖所示,優(yōu)化后就能看到最右邊的三維模型有一個更精密的點云以及更精細的三維位姿。
同時,Detector-free SfM 面臨的問題跟所有傳統(tǒng)方法一樣,重建速度太慢了,一個模型迭代式優(yōu)化可能需要幾十個小時甚至一天,以至于對于那些對時間比較敏感的重建任務不太好用。
為了解決速度的問題,彭思達團隊進而進行了一項端到端的重建工作。已有的方法像 VGGT,這是今年 CVPR 的最佳論文,最大的突破是直接使用一個大型的大模型去回歸圖片的相機位置和深度,因為是網(wǎng)絡直出所以速度很快,比如一個場景傳統(tǒng)的相機位置估計方法可能需要十幾個小時,VGGT 只需要一兩秒,這是非常大的提升。
但 VGGT 最大的問題是沒法處理大規(guī)模場景,因為它是個大的網(wǎng)絡,圖片越多網(wǎng)絡很容易就會爆顯存。處理上百張圖片勉強可以,但是 1000 張肯定就不行了。
一個直觀的解決辦法將大場景進行分段預測。如果沒辦法一次性處理太多圖片,可以把大場景進行分段預測,分成很多 chunk,然后對每個 chunk 去估計相機位置。但這種情況下,由于每個 chunk 預測不夠精準,導致 chunk 之間難以拼接,兩兩連接效果并不好,最后會形成一個累積誤差,整個網(wǎng)絡會壞掉。
對此,彭思達團隊提出了一個新方法 Scal3R,其相關論文已經(jīng)被 CVPR 接收。該方法受人類的全局視野啟發(fā)——人有全局視野的情況下,對局部場景的幾何預測也有更一致的預測,所以 Scal3R 致力于賦予 VGGT 對目標場景的全局視野。
構建全局視野的具體方法是使用網(wǎng)絡權重記錄每個 chunk 的內(nèi)容。具體實現(xiàn)的流程是先輸入 chunk 的一組圖片,直接更新到一個網(wǎng)絡權重里就能記錄這組 chunk 圖片內(nèi)容。在推理中如何實現(xiàn)呢?一個網(wǎng)絡模塊直接預測 KB,再拿這個 KB 去更新一個網(wǎng)絡權重,該網(wǎng)絡權重就記錄了該 chunk 的圖片內(nèi)容。
在線更新網(wǎng)絡權重作為場景的記憶,整個網(wǎng)絡就記錄了整個場景的記憶,有了記憶可以預測出每個 chunk 的顯性位置的點云,該點云也更具有全局一致性,因此拼接起來效果更好。
深度估計
深度估計是通用空間感知的關鍵組成部分。去年,彭思達團隊在提升深度估計能力方面取得了三項進展,其中之一是 "Pixel-Perfect-Depth" 思路。
? 具身智能需要深度估計,是因為準確的深度信息能提升機器人的決策性能。但現(xiàn)有方法普遍在物體邊緣存在 " 飛點 " 問題:判別式模型(如 Depth Anything)傾向于預測 " 折中值 " 以最小化損失,從而導致飛點;生成式模型(如 Marigold)雖能從理論上建模多峰深度分布,但因使用 VAE 進行壓縮,同樣會產(chǎn)生飛點。?
? 團隊從生成式模型出發(fā),提出了 Pixel-Perfect-Depth 的解決思路:首先移除 VAE,直接在像素空間進行優(yōu)化,以避免 VAE 帶來的信息損失,使得像素空間擴散避免了邊緣飛點。然而,沒有 VAE 后模型需要更全局的視野,因此他們將語言特征整合到 DiT 模型中,發(fā)現(xiàn)這能顯著增強模型深度估計能力。
Pixel-Perfect-Depth 方法還能拓展提升視頻深度估計能力。相對于單張圖片輸入,常見的是視頻輸入,要對視頻深度估計,只需要在 Pixel-Perfect-Depth 上做兩個簡單的改進,首先是提取視頻的語義特征,得到特征以后注入到多視角的估計模型里;第二,視頻深度估計重要的是保持時序的連續(xù)性,通過 target tokens 疊加 reference tokens,提升時序一致性。
Pixel-Perfect-Depth 雖然能做好單張圖片和視頻深度估計,但做不好帶尺度的深度估計。而很多場景是帶尺度的,因為沒有尺度機器人就不好用。為了解決該問題,彭思達團隊從語言模型的 prompt 技術匯總獲得靈感,試圖探索為深度基礎模型設計提示詞機制,以提升其輸出絕對深度的準確性。
他們將雷達做誒深度感知的 prompt 喂給深度估計基礎模型,讓其產(chǎn)生絕對深度。
該算法 Prompt Depth Anything 不僅可以提升通用機器人抓取能力,抓取成功率超越 Image 及 LiDAR 作為輸入;還能應用于自動駕駛重建;做三維掃描、前饋式三維高斯等等。
但 Prompt Depth Anything 仍然存在問題,要得到三維場景的深度估計一般通過反投影,但透視投影在相鄰視角看著還不錯,如果俯視、反投影得到的點云在遠處會產(chǎn)生裂痕。
對此彭思達團隊提出了一個叫 InfiniDepth 的解決思路,即不只是給每個像素估計深度值,還給每個次像素估計,其論文已經(jīng)投稿在 CVPR。具體做法是將已有 DPT Head 改為 Implicit Decoder,就能得到一個完整的幾何,達到大范圍的視角渲染。這樣能提高模型精細度,例如能更好服務于機器人去抓取線纜的能力。
物體運動估計
將人類行為數(shù)據(jù)轉(zhuǎn)化為有效訓練數(shù)據(jù),是當前具身智能發(fā)展的關鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于跟蹤。彭思達團隊去年的一個工作就跟三維跟蹤有關。?
? 此前已有方法使用時序匹配進行跟蹤,例如 Google 的 CoTracker:先初始化一組二維像素點,再利用 Transformer 迭代優(yōu)化這些點的軌跡。但該方法僅在二維層面進行跟蹤,容易因相鄰區(qū)域的干擾而丟失目標,效果受限。?
? 彭思達團隊的思路是將二維圖像反投影至三維空間,做 3D ? tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用 Transformer 對該軌跡進行優(yōu)化,從而實現(xiàn)更魯棒的跟蹤效果。該方法被命名為 SpatialTracker?!咐追寰W(wǎng)」
相關文章
中新網(wǎng)1月9日電 據(jù)市場監(jiān)管總局網(wǎng)站消息,為加強標準物質(zhì)管理,保障國家計量單位制的統(tǒng)一和測量結(jié)果的準確可靠,近日,市場監(jiān)管總局出臺《標準物質(zhì)管理辦法》(以下簡稱《辦法》),將于2026年12月1日起正2026-01-09
德雷森:將全力爭取承辦2028年歐冠決賽,安聯(lián)擁有完美基礎設施
直播吧1月7日訊 拜仁董事會主席德雷森接受媒體的采訪,談到了安聯(lián)球場可能在2028年再次舉辦歐冠決賽的話題。德雷森說道:“慕尼黑市必須在2026年6月前向歐足聯(lián)提交正式申請,目前我們是唯一的申請方。歐2026-01-09
媒體人:沒包夾給薩林杰打 他肯定進 深圳關鍵時刻沒團隊只有個人
直播吧1月7日訊 CBA常規(guī)賽,廣東110-105戰(zhàn)勝深圳。媒體人@別跑剛背豬發(fā)文談到了本場比賽,內(nèi)容如下:我說了宏遠不會輸?shù)?,就是差最后一下細?jié)??匆曨l那個暫停,無論結(jié)果怎樣,其實都要安排一下防守。2026-01-09
關鍵之王!湖人近三個賽季關鍵球戰(zhàn)績60勝25負 勝率71% 聯(lián)盟最佳
直播吧1月7日訊 今日,湖人111-103客場擊敗鵜鶘,迎來三連勝。本場比賽湖人再次在關鍵時刻取勝關鍵時刻官方定義:比賽最后5分鐘時分差5分之內(nèi)),本賽季至今在關鍵時刻比賽中取得了13勝0負。而湖人過2026-01-09
中新網(wǎng)南京1月9日電 (記者 朱曉穎)8日傍晚,新建上海至南京至合肥高速鐵路(簡稱“滬寧合高鐵”)控制性工程——滬寧合高鐵南京特大橋跨滁河斜拉橋合龍,橋梁跨越數(shù)百米水域?qū)崿F(xiàn)“精準牽手”。這標志著該斜拉2026-01-09
直播吧1月7日訊 CBA常規(guī)賽,深圳105-110不敵廣東。此役深圳后衛(wèi)賀希寧出場36分鐘17投8中,三分10中4、罰球4中4拿到24分5籃板3助攻2搶斷,正負值-5。2026-01-09
