ECCV 2022 | 從虛擬信息學(xué)習(xí)可泛化的三維人體姿勢(shì)預(yù)計(jì)模型

發(fā)布日期：2022-10-24 作者：康為點(diǎn)擊：

導(dǎo) 讀

本文是對(duì)刊登于計(jì)算機(jī)視覺(jué)行業(yè)高級(jí)聚會(huì) ECCV 2022的論文 VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data 的理解。該論文由北京大學(xué)王亦洲課題組與微軟亞洲研發(fā)院等單位協(xié)作，通過(guò)對(duì)現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢(shì)預(yù)計(jì)方式進(jìn)行泛化功能研發(fā)，對(duì)于性地提出以抽象幾何表示為旁邊表示的方式，能夠通過(guò)形成充足的虛擬信息訓(xùn)練三維人體姿勢(shì)預(yù)計(jì)模型。試驗(yàn)證實(shí)，該方式明顯提高了未見(jiàn)過(guò)情景中的泛化功能，以及不須要成對(duì)的圖片和三維人體姿勢(shì)真值進(jìn)行訓(xùn)練。

論文鏈接：https://arxiv.org/abs/2207.09949

背景簡(jiǎn)介

在一定三維人體姿勢(shì)預(yù)計(jì)任務(wù)中，不單須要預(yù)計(jì)人體各關(guān)節(jié)點(diǎn)相針對(duì)根節(jié)點(diǎn)（往往為人體骨盆節(jié)點(diǎn)）的位子，還須要預(yù)計(jì)根節(jié)點(diǎn)在三維空間中的一定位子。這是1個(gè)擁有戰(zhàn)斗的問(wèn)題，由于預(yù)計(jì)流程存在嚴(yán)重的歧義以及許多原因會(huì)牽連深度預(yù)計(jì)的結(jié)果，如圖1所示。

圖1. 小孔成像模型中的投影幾何。牽連深度預(yù)計(jì)的原因含蓋相機(jī)焦距、相機(jī)位姿、人的身高和姿勢(shì)等。

現(xiàn)有的方式大多直接學(xué)習(xí)從圖片到人體深度的映照聯(lián)系，雖然它們能在公然信息集上獲得較為好的成效，但因?yàn)樾畔⒓谙鄼C(jī)位姿、人體姿勢(shì)并且圖片背景上缺少多樣化，訓(xùn)練出的模型的泛化功能較弱。

為了解決這一問(wèn)題，本工作提出了以抽象幾何表示（Abstract Geometry Representation，簡(jiǎn)稱(chēng)AGR）為旁邊表示的方式，將模型拆劃為兩部份進(jìn)行訓(xùn)練。此中，能夠通過(guò)形成批量充足的成對(duì) <AGR, Pose> 信息來(lái)進(jìn)行訓(xùn)練，進(jìn)而獲得泛化功能強(qiáng)的模型。

泛化功能研發(fā)

為了研發(fā)現(xiàn)有工作的泛化功能，本工作將基于深度學(xué)習(xí)的方式劃為三種，分別是（1）自頂向下基于探測(cè)框大小的方式（TBS），（2）自頂向下基于圖片特點(diǎn)的方式（TIF）并且（3）自底向上基于回歸的方式（BDR），并從中各選擇了1個(gè)擁有代表性的方式進(jìn)行泛化功能研發(fā)。

在試驗(yàn)中發(fā)掘，現(xiàn)有的方式對(duì)圖2中呈現(xiàn)的含蓋相機(jī)位姿、圖片背景并且人體姿勢(shì)這3個(gè)原因都不足魯棒，特別是當(dāng)訓(xùn)練信息與測(cè)驗(yàn)信息的拍攝視角不相近時(shí)，偏差會(huì)明顯加大。

圖2. 牽連基于深度學(xué)習(xí)的方式的3個(gè)原因，含蓋 (a) 相機(jī)位姿，(b) 圖片背景并且 (c) 人體姿勢(shì)。

方式概覽

為了解決這一問(wèn)題，本工作提出了以抽象幾何表示（Abstract Geometry Representation，簡(jiǎn)稱(chēng) AGR）為旁邊表示的方式，VirtualPose，如圖3所示。AGR 是1個(gè)通常性的概念，拿來(lái)表示許多既能夠輔助修復(fù)一定三維人體姿勢(shì)，同時(shí)也能夠很魯棒地從圖片中被預(yù)計(jì)并且能夠依據(jù)三維人體姿勢(shì)形成出去的一類(lèi)幾何表示。在本工作的實(shí)行中，AGR 含蓋了人體探測(cè)框圖并且二維人體姿勢(shì)熱圖。

AGR 將網(wǎng)絡(luò)切分成兩部份，第一部份負(fù)擔(dān)對(duì)填寫(xiě)圖片中的人進(jìn)行探測(cè)和二維姿勢(shì)預(yù)計(jì)，第二部份則負(fù)擔(dān)依據(jù)人體探測(cè)框圖并且二維人體姿勢(shì)熱圖預(yù)計(jì)出每個(gè)人的一定三維人體姿勢(shì)。這2個(gè)部份是單獨(dú)訓(xùn)練的，第一部份只牽扯2D 任務(wù)，能夠借用批量的2D 信息集進(jìn)行訓(xùn)練，以確保模型的魯棒性。

在第二部份中，填寫(xiě)的 AGR 中已然不含蓋填寫(xiě)圖片中人物外貌和背景的數(shù)據(jù)，而為了確保模型對(duì)相機(jī)位姿并且人體姿勢(shì)有很強(qiáng)的泛化功能，本工作提出了一類(lèi)訓(xùn)練信息形成方略。在形成訓(xùn)練樣件時(shí)，會(huì)從人體姿勢(shì)比較充足的信息集 MuCo-3DHP 中隨機(jī)挑選許多人體姿勢(shì)并擺放在地面上，再通過(guò)隨機(jī)設(shè)置相機(jī)的位姿便可形成對(duì)應(yīng)的人體探測(cè)框圖并且二維人體姿勢(shì)熱圖。

為了更好地預(yù)計(jì)一定三維人體姿勢(shì)，本工作還引入了人體根節(jié)點(diǎn)預(yù)計(jì)網(wǎng)絡(luò)（Root Estimation Network，簡(jiǎn)稱(chēng) REN）并且人體姿勢(shì)預(yù)計(jì)網(wǎng)絡(luò)（Pose Estimation Network，簡(jiǎn)稱(chēng) PEN）分別負(fù)擔(dān)對(duì)人體根節(jié)點(diǎn)進(jìn)行定位并且預(yù)計(jì)其它關(guān)節(jié)點(diǎn)的位子，如圖3所示。

圖3. 本工作提出的以抽象幾何表示（AGR）為旁邊表示的三維人體姿勢(shì)預(yù)計(jì)方式VirtualPose的過(guò)程圖。

試驗(yàn)論斷

本工作在2個(gè)基準(zhǔn)信息集上評(píng)價(jià)了本文的方式，VirtualPose 均到達(dá)了最好程度以及擁有強(qiáng)力的跨信息集泛化本領(lǐng)。表1展現(xiàn)了在 CMU-Panoptic 上的體現(xiàn)，評(píng)估指標(biāo)是預(yù)判姿勢(shì)與真正姿勢(shì)的平均關(guān)節(jié)偏差值，單位為毫米。

表1. 本工作的方式與現(xiàn)有工作在CMU-Panoptic信息集上的定量偏差結(jié)果（越少越好）。

表2展現(xiàn)了 MuPoTS-3D 信息集上不同方式的結(jié)果，這類(lèi)方式都只在 MuCo-3DHP 信息集并且 COCO 信息集上訓(xùn)練。本文的方式比其余方式獲取了更好的 PCK 確切率，標(biāo)明 VirtualPose 擁有較強(qiáng)的泛化功能，證明了以 AGR 為旁邊表示并形成批量充足的 <AGR, Pose>信息進(jìn)行訓(xùn)練的有效性。

表2. 本工作的方式與現(xiàn)有工作在MuPoTS-3D信息集上的定量結(jié)果（越大越好）。

圖4為本文的模型在 COCO 和 MuPoTS-3D 信息集上預(yù)計(jì)的三維姿勢(shì)，能夠看見(jiàn)本工作的方式能確切地預(yù)計(jì)出每個(gè)人的三維姿勢(shì)并且一定位子，對(duì)圖片背景并且人的姿勢(shì)都非常魯棒。而在圖中的人被遮擋如圖4(b)，或人體身高與訓(xùn)練信息不一致如圖4(c) 的狀況下，模型也較易顯現(xiàn)錯(cuò)誤。

圖4. 本工作的方式在COCO并且MuPoTS-3D信息集上的可視化結(jié)果。此中 (b) (c) 展現(xiàn)了落敗的例子。

總結(jié)

本工作進(jìn)行了對(duì)現(xiàn)有基于深度學(xué)習(xí)的一定三維人體姿勢(shì)方式的泛化功能研發(fā)，期望此研發(fā)能啟迪以后的工作多研究怎樣提高人體姿勢(shì)預(yù)計(jì)方式的泛化功能。其次，本工作提出了以抽象幾何表示為旁邊表示的方式，通過(guò)形成批量充足的成對(duì) <AGR, Pose> 信息來(lái)訓(xùn)練三維人體姿勢(shì)預(yù)計(jì)模型。本方式具有超越現(xiàn)有方式的功能，特別是訓(xùn)練信息和測(cè)驗(yàn)信息的情景差異較大的時(shí)候，這進(jìn)一步呈現(xiàn)了本方式在自然情景中的泛化功能并且實(shí)用性。

考慮文獻(xiàn)

[1] Tu, Hanyue, Chunyu Wang, and Wenjun Zeng. "Voxelpose: Towards multi-camera 3d human pose estimation in wild environment." European Conference on Computer Vision. Springer, Cham, 2020.

[2] Ma, Xiaoxuan, et al. "Context modeling in 3d human pose estimation: A unified perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[3] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image." Proceedings of the IEEE/CVF international conference on computer vision. 2019.

[4] Lin, Jiahao, and Gim Hee Lee. "Hdnet: Human depth estimation for multi-person camera-space localization." European Conference on Computer Vision. Springer, Cham, 2020.

[5] Zhen, Jianan, et al. "Smap: Single-shot multi-person absolute 3d pose estimation." European Conference on Computer Vision. Springer, Cham, 2020.

圖文 | 蘇嘉俊

Computer Vision and Digital Art (CVDA)

本文網(wǎng)址：http://sem136.com/news/1795.html

相關(guān)標(biāo)簽：

上一篇：注重根基廣泛稽核以賽促建提高臨床老師崗位完成力
下一篇：平安好醫(yī)師：領(lǐng)域回歸“醫(yī)療”實(shí)質(zhì)，HMO形式先行者集中受益

新聞分類(lèi)