免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 快訊

谷歌用機器學習實現(xiàn)穩(wěn)定實時的手部追蹤、手勢識別

2019/08/21 08:20      映維網(wǎng) [No.H100]


  (映維網(wǎng) 2019年08月20日)感知手部形狀和手部運動的能力可以改善各個技術領域和平臺的用戶體驗。例如,它可以形成手語理解和手勢控制的基礎,并且可以在增強現(xiàn)實情景中實現(xiàn)物理世界的數(shù)字內容與信息疊加。盡管這對人類而言十分自然,但由于經常出現(xiàn)遮擋情況(如手指/手掌遮擋和手抖)和缺乏高對比圖案,穩(wěn)定的實時手部感知是一項極具挑戰(zhàn)性的計算機視覺任務。

  谷歌近期發(fā)布了一種用于手部感知的全新方法。實際上,谷歌已于六月的CVPR 2019大會進行過預覽,而這項技術是在MediaPipe中實現(xiàn)(一個開源的跨平臺框架,主要用于構建處理不同模態(tài)感知數(shù)據(jù)的管道,如視頻和音頻)。這種方法通過機器學習從單幀推斷出手部的21個3D關鍵點,從而提供高保真度的手部和手指追蹤。目前最先進的方法主要依靠強大的桌面環(huán)境進行推導,但谷歌的方法可以為手機端帶來實時性能,甚至可以擴展到多手用例。谷歌表示:“通過為更廣泛的研究和開發(fā)社區(qū)提供這種手部感知功能,我們希望這可以帶來更具創(chuàng)造性用例出現(xiàn),并刺激新的應用程序和新的研究途徑。”

  1. 一種用于手部追蹤和手勢識別的機器學習管道

  谷歌的手部追蹤解決方案利用了由多個模型組成的機器學習管道:

  手掌檢測器模型(名為BlazePalm):對整個圖像進行操作,并返回定向手部邊界框。

  手部界標模型:在由手掌檢測器定義的裁剪圖像區(qū)域操作,并返回高保真度的3D手部關鍵點。

  手勢識別器:將先前計算的關鍵點配置分類為一組離散手勢。

  這個架構類似于谷歌最近發(fā)布的面部網(wǎng)格機器學習管道,以及其他已用于姿態(tài)估計的架構。將準確裁剪的手掌圖像提供給手部界標模型可以大大減少對數(shù)據(jù)增強(如旋轉,平移和縮放)的需要,并允許網(wǎng)絡將大部分容量專門用于坐標預測精度。

  2. BlazePalm:實時手部/手掌檢測

  為了檢測初始手部位置,谷歌采用了名為BlazePalm的單攝檢測器模型,并以類似于BlazeFace的方式針對移動實時用例進行了優(yōu)化。檢測手部是一項非常復雜的任務:模型必須支持各種手部尺寸,具有相對于圖像幀的大范圍跨度(約20×),并且能夠檢測被遮擋的雙手和自我遮擋的雙手。面部具有高對比圖案(如在眼睛和嘴部區(qū)域),手部則缺少這一點,所以難以單單根據(jù)視覺特征進行可靠地檢測。所以,通過提供諸如手臂,身體或人物特征等額外的情景信息有助于實現(xiàn)精確的的手部定位。

  谷歌的解決方案采用不同的策略來解決上述挑戰(zhàn)。首先,谷歌不是訓練手部檢測器,而是訓練手掌檢測器,因為估計諸如手掌和拳頭等剛性對象的邊界框比具有手指關節(jié)的手部要簡單得多。另外,由于手掌是較小的對象,非最大抑制算法甚至很好地支持雙手自遮擋情況(如握手)。再者,手掌可以使用方形邊界框(機器學習用“錨”進行描述)來進行模擬,并忽略其他縱橫比,所以能夠將錨的數(shù)量減少3倍-5倍。其次,編碼器 – 解碼器特征提取器可用于大型場景情景感知,同時可用于小型對象(類似于RetinaNet方法)。最后,谷歌將訓練期間的Focal Loss降至最低,從而能夠支持由于大尺度方差導致的大量錨點。

  通過上述技術,谷歌在手掌檢測中實現(xiàn)了95.7%的平均精度。利用常規(guī)Cross Entropy Loss并且沒有解碼器的情況下只能實現(xiàn)86.22%的基線。

  3. 手部界標模型

  在對整個圖像進行手掌檢測之后,手部界標模型將通過回歸(即直接坐標預測)在檢測到的手部區(qū)域內執(zhí)行21個3D手關節(jié)坐標的精確關鍵點定位。這個模型學習一致的固有手姿勢表現(xiàn),并且能夠穩(wěn)定支持部分可見的手部和自我遮擋情形。

  為了獲得ground truth數(shù)據(jù),谷歌手動注釋了具有21個3D坐標的大約30000張真實世界圖像,如下所示(如果存在于每個相應的坐標,谷歌將從圖像深度圖中獲取Z值)。為了更好地覆蓋可能的手勢,并對手部幾何形狀的性質提供額外的監(jiān)督,谷歌同時在各種背景下渲染高質量的合成手部模型,并將其映射到相應的3D坐標。

  然而,純粹的合成數(shù)據(jù)難以擴展至in-the-wild領域。為了克服這個問題,谷歌采用了混合訓練模式。下圖是一個High-Level模型訓練圖例。

  下表總結了回歸準確性,具體取決于訓練數(shù)據(jù)的性質。利用合成數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)可顯著提升性能表現(xiàn)。

  Dataset Mean regression error

  normalized by palm size

  field1 field2

  Only real-world 16.1 %

  Only rendered synthetic 25.7 %

  Mixed real-world + synthetic 13.4 %

  4. 手勢識別

  緊接著預測的手部骨骼,谷歌應用了一個簡單的算法來推導手勢。首先,預計每個手指的狀態(tài),如彎曲或筆直,而這由關節(jié)的累積角度決定。然后,谷歌將手指狀態(tài)集映射到一組預定義的手勢。這種簡單而有效的技術使得研究人員能夠以合理的質量估計基本的靜態(tài)手勢�,F(xiàn)有的管道支持計算來自多種文化的手勢,如美國,歐洲和中國,包括“豎起大拇指”,握拳,“OK”,“金屬禮”和“蜘蛛俠”。

  5. MediaPipe示例

  利用MediaPipe,這個感知管道可以構建為模塊化組件的有向圖:Calculators。Mediapipe附帶一組可擴展的Calculators,可應對各種設備和平臺的模型推理,媒體內容處理算法和數(shù)據(jù)轉換等任務。諸如裁剪,渲染和神經網(wǎng)絡計算等單獨的Calculator可專由GPU執(zhí)行。例如,谷歌為大多數(shù)現(xiàn)代手機應用TFLite GPU推理。

  谷歌用于手部追蹤的MediaPipe圖如下所示。這個MediaPipe圖由兩個子圖組成:一個用于手部檢測,一個用于手部關鍵點計算。MediaPipe提供的一個關鍵優(yōu)化是,手掌檢測器僅在必要時(相當不頻繁)運行,從而節(jié)省了大量的計算時間。谷歌是根據(jù)當前幀計算的手部關鍵點推斷后續(xù)視頻幀中的手部位置,從而消除了在每個幀運行手掌檢測器的需要。為了實現(xiàn)魯棒性,手部追蹤器模型輸出一個額外的標量,所述的標量捕獲手部在輸入裁剪中存在并合理對齊的置信度。只有當置信度低于某個閾值時,手部檢測模型才會重新應用于整個幀。

  高效的機器學習解決方案可以實時運行,并且可以支持各種不同的平臺和形狀參數(shù)。所以,谷歌將通過MediaPipe框架開源上述手部追蹤和手勢識別管道,并附帶相關的端到端使用場景和源代碼。這可以為研究人員和開發(fā)者提供完整的堆棧,并根據(jù)谷歌的模型對新想法進行實驗和原型設計。

  6. 未來計劃

  谷歌計劃通過更強大和更穩(wěn)定的追蹤來擴展這項技術,擴大能夠可靠檢測的手勢量,并支持動態(tài)手勢及時展開等等。這家公司表示:“我們相信,開源這項技術可以推動研究社區(qū)和開發(fā)者社區(qū)實現(xiàn)新的創(chuàng)意和應用,而我們非常期待看到你的作品成果。”

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞