心肺復(fù)蘇模型

新聞分類

ECCV 2022 | 從虛擬信息學(xué)習(xí)可泛化的三維人體姿勢預(yù)計(jì)模型

ECCV 2022 | 從虛擬信息學(xué)習(xí)可泛化的三維人體姿勢預(yù)計(jì)模型

發(fā)布日期:2022-10-24 作者:康為 點(diǎn)擊:

導(dǎo) 讀

本文是對(duì)刊登于計(jì)算機(jī)視覺行業(yè)高級(jí)聚會(huì) ECCV 2022的論文 VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data 的理解。該論文由北京大學(xué)王亦洲課題組與微軟亞洲研發(fā)院等單位協(xié)作,通過對(duì)現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢預(yù)計(jì)方式進(jìn)行泛化功能研發(fā),對(duì)于性地提出以抽象幾何表示為旁邊表示的方式,能夠通過形成充足的虛擬信息訓(xùn)練三維人體姿勢預(yù)計(jì)模型。試驗(yàn)證實(shí),該方式明顯提高了未見過情景中的泛化功能,以及不須要成對(duì)的圖片和三維人體姿勢真值進(jìn)行訓(xùn)練。

論文鏈接:https://arxiv.org/abs/2207.09949

01

背景簡介

在一定三維人體姿勢預(yù)計(jì)任務(wù)中,不單須要預(yù)計(jì)人體各關(guān)節(jié)點(diǎn)相針對(duì)根節(jié)點(diǎn)(往往為人體骨盆節(jié)點(diǎn))的位子,還須要預(yù)計(jì)根節(jié)點(diǎn)在三維空間中的一定位子。這是1個(gè)擁有戰(zhàn)斗的問題,由于預(yù)計(jì)流程存在嚴(yán)重的歧義以及許多原因會(huì)牽連深度預(yù)計(jì)的結(jié)果,如圖1所示。


1.jpg


圖1. 小孔成像模型中的投影幾何。牽連深度預(yù)計(jì)的原因含蓋相機(jī)焦距、相機(jī)位姿、人的身高和姿勢等。

現(xiàn)有的方式大多直接學(xué)習(xí)從圖片到人體深度的映照聯(lián)系,雖然它們能在公然信息集上獲得較為好的成效,但因?yàn)樾畔⒓谙鄼C(jī)位姿、人體姿勢并且圖片背景上缺少多樣化,訓(xùn)練出的模型的泛化功能較弱。

為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱AGR)為旁邊表示的方式,將模型拆劃為兩部份進(jìn)行訓(xùn)練。此中,能夠通過形成批量充足的成對(duì) <AGR, Pose> 信息來進(jìn)行訓(xùn)練,進(jìn)而獲得泛化功能強(qiáng)的模型。

02

泛化功能研發(fā)

為了研發(fā)現(xiàn)有工作的泛化功能,本工作將基于深度學(xué)習(xí)的方式劃為三種,分別是(1)自頂向下基于探測框大小的方式(TBS),(2)自頂向下基于圖片特點(diǎn)的方式(TIF)并且(3)自底向上基于回歸的方式(BDR),并從中各選擇了1個(gè)擁有代表性的方式進(jìn)行泛化功能研發(fā)。

在試驗(yàn)中發(fā)掘,現(xiàn)有的方式對(duì)圖2中呈現(xiàn)的含蓋相機(jī)位姿、圖片背景并且人體姿勢這3個(gè)原因都不足魯棒,特別是當(dāng)訓(xùn)練信息與測驗(yàn)信息的拍攝視角不相近時(shí),偏差會(huì)明顯加大。


2.jpg


圖2. 牽連基于深度學(xué)習(xí)的方式的3個(gè)原因,含蓋 (a) 相機(jī)位姿,(b) 圖片背景并且 (c) 人體姿勢。

03

方式概覽

為了解決這一問題,本工作提出了以抽象幾何表示(Abstract Geometry Representation,簡稱 AGR)為旁邊表示的方式,VirtualPose,如圖3所示。AGR 是1個(gè)通常性的概念,拿來表示許多既能夠輔助修復(fù)一定三維人體姿勢,同時(shí)也能夠很魯棒地從圖片中被預(yù)計(jì)并且能夠依據(jù)三維人體姿勢形成出去的一類幾何表示。在本工作的實(shí)行中,AGR 含蓋了人體探測框圖并且二維人體姿勢熱圖 。

AGR 將網(wǎng)絡(luò)切分成兩部份,第一部份負(fù)擔(dān)對(duì)填寫圖片中的人進(jìn)行探測和二維姿勢預(yù)計(jì),第二部份則負(fù)擔(dān)依據(jù)人體探測框圖并且二維人體姿勢熱圖 預(yù)計(jì)出每個(gè)人的一定三維人體姿勢。這2個(gè)部份是單獨(dú)訓(xùn)練的,第一部份只牽扯2D 任務(wù),能夠借用批量的2D 信息集進(jìn)行訓(xùn)練,以確保模型的魯棒性。

在第二部份中,填寫的 AGR 中已然不含蓋填寫圖片中人物外貌和背景的數(shù)據(jù),而為了確保模型對(duì)相機(jī)位姿并且人體姿勢有很強(qiáng)的泛化功能,本工作提出了一類訓(xùn)練信息形成方略。在形成訓(xùn)練樣件時(shí),會(huì)從人體姿勢比較充足的信息集 MuCo-3DHP 中隨機(jī)挑選許多人體姿勢并擺放在地面上,再通過隨機(jī)設(shè)置相機(jī)的位姿便可形成對(duì)應(yīng)的人體探測框圖并且二維人體姿勢熱圖。

為了更好地預(yù)計(jì)一定三維人體姿勢,本工作還引入了人體根節(jié)點(diǎn)預(yù)計(jì)網(wǎng)絡(luò)(Root Estimation Network,簡稱 REN)并且人體姿勢預(yù)計(jì)網(wǎng)絡(luò)(Pose Estimation Network,簡稱 PEN)分別負(fù)擔(dān)對(duì)人體根節(jié)點(diǎn)進(jìn)行定位并且預(yù)計(jì)其它關(guān)節(jié)點(diǎn)的位子,如圖3所示。


3.jpg


圖3. 本工作提出的以抽象幾何表示(AGR)為旁邊表示的三維人體姿勢預(yù)計(jì)方式VirtualPose的過程圖。

04

試驗(yàn)論斷

本工作在2個(gè)基準(zhǔn)信息集上評(píng)價(jià)了本文的方式,VirtualPose 均到達(dá)了最好程度以及擁有強(qiáng)力的跨信息集泛化本領(lǐng)。表1展現(xiàn)了在 CMU-Panoptic 上的體現(xiàn),評(píng)估指標(biāo)是預(yù)判姿勢與真正姿勢的平均關(guān)節(jié)偏差值,單位為毫米。


4.jpg


表1. 本工作的方式與現(xiàn)有工作在CMU-Panoptic信息集上的定量偏差結(jié)果(越少越好)。

表2展現(xiàn)了 MuPoTS-3D 信息集上不同方式的結(jié)果,這類方式都只在 MuCo-3DHP 信息集并且 COCO 信息集上訓(xùn)練。本文的方式比其余方式獲取了更好的 PCK 確切率,標(biāo)明 VirtualPose 擁有較強(qiáng)的泛化功能,證明了以 AGR 為旁邊表示并形成批量充足的 <AGR, Pose>信息進(jìn)行訓(xùn)練的有效性。


5.jpg


表2. 本工作的方式與現(xiàn)有工作在MuPoTS-3D信息集上的定量結(jié)果(越大越好)。

圖4為本文的模型在 COCO 和 MuPoTS-3D 信息集上預(yù)計(jì)的三維姿勢,能夠看見本工作的方式能確切地預(yù)計(jì)出每個(gè)人的三維姿勢并且一定位子,對(duì)圖片背景并且人的姿勢都非常魯棒。而在圖中的人被遮擋如圖4(b),或人體身高與訓(xùn)練信息不一致如圖4(c) 的狀況下,模型也較易顯現(xiàn)錯(cuò)誤。


6.jpg


圖4. 本工作的方式在COCO并且MuPoTS-3D信息集上的可視化結(jié)果。此中 (b) (c) 展現(xiàn)了落敗的例子。

05

總 結(jié)

本工作進(jìn)行了對(duì)現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢方式的泛化功能研發(fā),期望此研發(fā)能啟迪以后的工作多研究怎樣提高人體姿勢預(yù)計(jì)方式的泛化功能。其次,本工作提出了以抽象幾何表示為旁邊表示的方式,通過形成批量充足的成對(duì) <AGR, Pose> 信息來訓(xùn)練三維人體姿勢預(yù)計(jì)模型。本方式具有超越現(xiàn)有方式的功能,特別是訓(xùn)練信息和測驗(yàn)信息的情景差異較大的時(shí)候,這進(jìn)一步呈現(xiàn)了本方式在自然情景中的泛化功能并且實(shí)用性。

考慮文獻(xiàn)

[1] Tu, Hanyue, Chunyu Wang, and Wenjun Zeng. "Voxelpose: Towards multi-camera 3d human pose estimation in wild environment." European Conference on Computer Vision. Springer, Cham, 2020.

[2] Ma, Xiaoxuan, et al. "Context modeling in 3d human pose estimation: A unified perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[3] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image." Proceedings of the IEEE/CVF international conference on computer vision. 2019.

[4] Lin, Jiahao, and Gim Hee Lee. "Hdnet: Human depth estimation for multi-person camera-space localization." European Conference on Computer Vision. Springer, Cham, 2020.

[5] Zhen, Jianan, et al. "Smap: Single-shot multi-person absolute 3d pose estimation." European Conference on Computer Vision. Springer, Cham, 2020.


7.jpg


圖文 | 蘇嘉俊

Computer Vision and Digital Art (CVDA)



本文網(wǎng)址:http://www.sem136.com/news/1795.html

相關(guān)標(biāo)簽:

最近瀏覽:

相關(guān)產(chǎn)品:

相關(guān)新聞:

在線客服
分享