還記得今年2月份(MWC2019)上微軟發布新品HoloLens2時展示的虛擬彈鋼琴的功能嗎,該項技術實現了單手關節25個立體坐標精準識別,在技術圈轟動一時。

8月20日谷歌也發布全新的手勢識別技術,該技術集成于開源跨平臺框架MediaPipe(可為多種類型的感知數據構建處理流程),特點是采用機器學習技術,支持高準確性手勢和五指追蹤,可根據一幀圖像推斷出單手的21個立體節點。與目前市面上較先進的手勢識別技術相比,不需要依賴臺式機來計算,而是在手機上就能進行實時追蹤,并且還能同時追蹤多只手,可識別遮擋。

據稱,該手勢識別技術可形成對基礎手語的理解,以及對手勢操控的支持,還可用于AR。而為了訓練識別手勢的機器學習算法,谷歌采用了一個由3個模型組成的框架,包括:手掌識別模型BlazePalm(用于識別手的整體框架和方向)、Landmark模型(識別立體手部節點)、手勢識別模型(將識別到的節點分類成一系列手勢)。其中BlazePalm可為Landmark模型提供準確建材的手掌圖像,這大大降低了對旋轉、轉化和縮放等數據增強方式的依賴,讓算法將更多計算能力用在提高預測準確性上。
BlazePalm:這是一個可識別單幀圖像的模型,主要用于識別手掌初始位置,與用于識別面部的BlazeFace模型相似,都對移動端的實時識別進行了優化。BlazePalm可識別多種不同手掌大小,具備較大的縮放范圍(~20倍),還能識別手部遮擋,并且能通過對手臂、軀干或個人特征等的識別來準確定位手部,彌補手部對于高對比度紋理特征的缺失。在經過訓練后,BlazePalm對于手掌識別的準確率可達95.7%。

Landmark模型:這一模型根據回歸的方式,在BlazePalm識別到的手掌范圍內可識別到21個立體節點坐標,它的識別效果足夠好,甚至可以識別部分可見或自我遮擋的手部。為了訓練Landmark模型,谷歌還在真實數據中混合額外的人工合成手掌模型數據。在經過訓練后,算法的平均回歸誤差可降低到13.4%。
手勢識別模型:該算法模型可根據關節的的角度識別每根手指的狀態,如:彎曲或伸直。接著,它會將每根手指的狀態映射到的預定義的手勢上,并通過這種方法來預測基礎的靜態手勢。據悉,谷歌現有的預定義手勢包括美國、歐洲和中國三個國家的不同數數手勢,以及豎大拇指、握拳、OK、“蜘蛛俠”等手勢。
目前,谷歌的這款全新手勢識別算法將通過MediaPipe框架進行開源,并希望通過這種方法讓研究人員和開發者創作出有創意的應用場景和研究途徑。而接下來,谷歌將繼續提高這項手勢識別技術,增加可識別的手勢,并將增加對動態手勢的識別。