簡體 English 中英

人體姿勢估計/匹配在智能手機上

[英]Human pose estimation/matching on smartphone

原文 2017-10-13 10:59:05 0 2 image-processing/ tensorflow/ computer-vision/ deep-learning/ openpose

我在一個人必須模仿預定姿勢的項目上工作。 從模仿該預定義姿勢的人制作圖片。 然后，從該圖像中提取人的人體姿勢並與預定姿勢進行比較。 最后，評分機制決定兩個姿勢的匹配程度，或者它們是否匹配。

我想為智能手機開發，所以理想情況下，所有內容都嵌入智能手機本身。 這意味着，該實現能夠在CPU或智能手機GPU上運行（例如Moto G5 plus，板載Adreno 506 GPU - 支持OpenGL-）。 嵌入式工作不是必須的，我認為也可以將估算/匹配算法外包給包含不錯GPU的中央服務器。 這種特殊的選擇，嵌入式或外包，是一個涉及大量參數的問題（性能/計算能力，服務器成本，准確性，移動電池使用，延遲服務器通信，多平台，可擴展性，移動數據使用 - 無重要 - ，...）

我知道有一些用於人體姿勢估計的框架，比如Openpose和deepcut。 但由於他們都使用深度學習，他們需要下降GPU。 如今，大多數新智能手機都裝有GPU，但是它們能夠運行這些框架嗎？ 對於這種情況的細微差別，（多人）關鍵點檢測不需要是實時的，因為只有1個圖像（沒有實時視頻）並且可以接受2到5秒的延遲時間。

由於我還處於研究階段，我不知道應該走哪條路。 甚至可以將這些框架移植到智能手機平台嗎？ 就像Openpose一樣，它使用Caffe和OpenCV。 假設我想將Openpose移植到Android; 我知道有一個CNNdroid庫可以將用Caffe制作的CNN模型轉換成CNNdroid格式。 進一步的OpenCV也不應該是一個大問題，因為有Android版本可用。 所以，理論上似乎有可能，但實際上是什么......

我的問題是：是否有人在智能手機上有人體姿勢檢測/匹配經驗？ 智能手機上現有的GPU是否可行？ 我知道這是一個廣泛的問題，但一些方向/建議/經驗可能真的有幫助

更新：我正在考慮將Openpose（使用Caffe作為ML框架）移植到TensorFlow的選項。 TensorFlow支持Android和iOS

2 個解決方案

您可能有興趣研究Krafka等人使用的技術。 他們的眼動追蹤適用於所有人的項目，他們壓縮一個更大的網絡，用於估計凝視坐標到可以在智能手機上運行的較小網絡。 這是使用Geoff Hinton開發的一個概念，他稱之為Dark Knowledge 。 注視檢測是姿勢估計的一個特例，因此原則上看起來這些技術會有所幫助。 但是，我不知道它們是否足以達到您的目的（我認為這在很大程度上取決於您的准確性限制）。

對於智能手機應用程序，Openpose太重了。 您需要重新設計軟件架構以適應電話系統。 關於作為性能瓶頸的cnn，使用類似移動網絡的結構和Dark Knowledge（如Mozglubov所提到的）教授更薄的網絡是兩種有前途的方法。 在任何地方，都有很多工程師在工作。 祝好運！