大多數(shù)人對于預(yù)測三維人體姿態(tài)可能不太關(guān)注,但機(jī)器人、計算機(jī)圖形學(xué)和有關(guān)物體運(yùn)動的力學(xué)分支等其它關(guān)注運(yùn)動學(xué)的領(lǐng)域,將能從這點(diǎn)系統(tǒng)中受益。
姿勢預(yù)測是人工智能(AI)以前就已經(jīng)應(yīng)用的一項(xiàng)任務(wù),最近,谷歌在一定程度上開始應(yīng)用,但之前的一些工作遇到了障礙:它以非自然的方向拉伸數(shù)字關(guān)節(jié)和骨骼,尤其是當(dāng)關(guān)節(jié)旋轉(zhuǎn)時。
幸運(yùn)的是,F(xiàn)acebook人工智能研究部門、谷歌大腦以及蘇黎世聯(lián)邦理工學(xué)院的最新研究都承諾將解決這個問題。本周,在Arxiv.org上發(fā)表的一篇論文“模擬人類運(yùn)動的模型”中,研究人員描述了一個人工智能系統(tǒng),它通過將關(guān)節(jié)旋轉(zhuǎn)作為一種復(fù)雜的數(shù)字系統(tǒng),并通過懲罰關(guān)節(jié)位置錯誤來改進(jìn)姿態(tài)的生成。
圖:AI系統(tǒng)生成的人體姿態(tài)
作為論文的合著者解釋,復(fù)發(fā)性神經(jīng)網(wǎng)絡(luò)——一種人工智能算法具有學(xué)習(xí)能力的長期依賴,歷來都被用來執(zhí)行短期和長期預(yù)測,而卷積神經(jīng)網(wǎng)絡(luò)算法非常善于分析視覺表象,已經(jīng)成功地應(yīng)用于長期代運(yùn)動(從一個位置到另一個位置的運(yùn)動)。但由于人體姿勢的固有隨機(jī)性,完美的模型仍然難以獲得。
“人類的運(yùn)動是一個具有高度不確定性的隨機(jī)過程,”研究人員寫道,“對于給定的過去,未來可能會有多個框架序列,不確定性會隨著時間的推移而增加。”
大多數(shù)模型都運(yùn)用了過渡運(yùn)算來預(yù)測下一個姿勢,它們從攝取的記錄幀中輸出記錄的目標(biāo)幀,這在很大程度上是有效的。但它不會讓他們暴露自己的錯誤,因此會阻止他們從這些錯誤中恢復(fù)。
圖:AI模型生成的姿態(tài)
相比之下,研究人員提出的系統(tǒng)使用了一個卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以查看過去的幀,隨著時間的推移,逐漸暴露在自己的預(yù)測中,并學(xué)習(xí)如何進(jìn)行長期預(yù)測。同時,損失函數(shù)——將一個或多個變量的值映射到實(shí)數(shù)上的函數(shù),作為輸入關(guān)節(jié)旋轉(zhuǎn)并計算每個關(guān)節(jié)的位置。這兩位作者說,這既提高了模型的穩(wěn)定性,又減少了誤差。
為了驗(yàn)證模型的短期姿態(tài)預(yù)測能力,研究人員搜集了360萬份人體姿態(tài)數(shù)據(jù),這是一個開源的三維人體姿態(tài)數(shù)據(jù)集,其中360萬份人體姿態(tài)來自于7位演員執(zhí)行15個動作時的姿態(tài),以及相應(yīng)的圖像,并對包含運(yùn)動樣本的不同數(shù)據(jù)集進(jìn)行了長期生成測試。
在短期預(yù)測任務(wù)中,合著者報告了人類3.6米基線的改善。在長期姿態(tài)生成的情況下,目標(biāo)是生成給定平均速度和地面軌跡的姿態(tài)序列,他們將模型描述為與最近的工作相比具有“定性”,同時允許更好地控制時間和空間約束。他們把四元數(shù)神經(jīng)網(wǎng)絡(luò)擴(kuò)展到其他與運(yùn)動相關(guān)的任務(wù),如視頻中的動作識別或姿態(tài)估計,并使用“直接在四元數(shù)領(lǐng)域執(zhí)行計算”的神經(jīng)網(wǎng)絡(luò)。
【來源:千家網(wǎng)】