在醫療技術的浩瀚海洋中,一種不需貼片標記就能捕捉人體動作的新興技術正悄然改變著傳統醫療模式。它如同"無形之手",通過智能算法追蹤人體關節,為醫生提供精準的動作分析數據。這項名為"無標記人體姿態估計"的技術,正以其便捷性、低成本和廣泛適用性,逐步推動醫療診斷從醫院走向家庭。它能幫助評估嬰兒運動發育,輔助神經肌肉康復,分析步態和姿勢異常。當傳統的標記式動作捕捉系統因復雜設備和專業人員需求而受限時,這一技術為遠程醫療打開了新的可能性窗口。
![]()
動作捕捉新紀元
人體動作包含著海量的身體和大腦狀態信息,這也是為何運動科學成為一門專門的研究領域。從日常生活到醫療應用,人們出于各種目的分析自己或他人的動作:鄰居間的非言語交流,運動教練優化運動員表現,物理治療師評估患者康復進展。
傳統的動作捕捉系統,被稱為"標記式動作捕捉",需要在人體關節處放置反光標記物,用特殊光源照射,通過多臺紅外攝像機捕捉這些標記點的位置。這種系統精度極高,誤差可低至毫米級,但設備昂貴復雜。以Vicon和Optitrack為代表的商業系統價格高昂,動輒幾十萬甚至上百萬元,讓許多醫療機構望而卻步。
與此相對,無標記人體姿態估計技術不需要在人體上放置任何標記物,僅通過普通攝像頭拍攝的視頻就能識別人體關節位置。這種技術利用計算機視覺和深度學習算法,從圖像中提取關鍵點,重建人體骨骼模型。
人體姿態估計有兩種主要變體:2D估計和3D估計。2D估計關注在圖像平面上定位身體關節,而3D估計則在三維空間中重建人體姿勢。近年來,基于深度學習的2D估計模型取得了長足進步。以OpenPose為例,這個由卡內基梅隆大學研究團隊開發的系統,能夠實時識別多人的身體關節,成為醫療應用中最受歡迎的工具之一。其他如HRNet、EfficientPose等模型各有特色,適用于不同應用場景。
從技術路線看,人體姿態估計又分為自上而下和自下而上兩種方法。自上而下的方法先在圖像中定位人體,再估計每個人的關節位置;自下而上的方法則先識別所有關節點,再確定哪些關節屬于同一個人。前者對遮擋情況處理較差但誤報少,后者則在人體部分遮擋時表現更佳。
3D人體姿態估計則更為復雜。在多攝像頭系統中,可以通過三角測量原理重建3D位置,但這需要精確的攝像頭校準和點位匹配。VoxelPose、PlanSweepPose等近期模型通過深度學習方法改進了傳統三角測量,提高了重建精度和魯棒性。
無標記姿態估計技術相比傳統標記式系統有幾個顯著優勢:不需要在人體上放置標記物,減少了患者不適感和醫生準備時間;硬件成本低廉,普通攝像頭甚至智能手機就能采集數據;適用于非合作用戶,如嬰兒或行動不便的患者。其主要限制在于精度相對較低,但對于許多臨床應用來說已經足夠。
從單視角和多視角看,單視角系統更簡單易用,但存在遮擋問題和3D重建困難;多視角系統則能提供更全面的信息,但需要多臺攝像頭和同步系統。隨著技術發展,單視角系統正在通過先驗知識和深度學習技術提高3D重建能力。
從輸入數據類型看,系統又分為僅使用RGB圖像的和使用RGB-D(深度)數據的。RGB系統適應性更強,但深度推斷難度大;RGB-D系統則能直接獲取深度信息,簡化了3D重建過程。微軟Kinect、Intel RealSense等深度相機為醫療應用提供了便捷的數據采集方案。
嬰幼兒發展守護者
嬰幼兒運動發育是一個獲得完整活動能力和獨立性的過程。健康嬰兒的動作序列通常是有規律且可預測的。早期發現嬰兒運動發育異常對于神經系統疾病的診斷至關重要,能夠及早開始治療,降低感覺障礙、協調問題和姿勢問題的可能性。
傳統的嬰兒運動評估方法主要依賴臨床醫生的主觀判斷,費時且依賴專業經驗。而無標記人體姿態估計技術為這一領域帶來了革命性變化,它能夠自動化、客觀化地記錄和分析嬰兒動作,提供定量指標輔助診斷。
![]()
在應用這項技術面臨的主要挑戰是嬰幼兒的解剖比例與成人顯著不同。由于大多數姿態估計模型是在成人數據集上訓練的,直接應用于嬰兒往往表現不佳。因此,研究人員需要開發專門針對嬰幼兒的模型或適應技術。
2017年,Hesse等人首次嘗試將深度圖像和隨機樹特征結合,用于新生兒姿態估計。他們采用了一個簡化的實驗設置:將Kinect相機放置在嬰兒床上方,垂直向下拍攝。2018年,Khan等人則使用可變形部件模型(DPM)從RGB圖像中分割嬰兒身體部位,并用結構化SVM分類器為每個部分分配標簽。
隨著深度學習技術的進步,更先進的方法被引入這一領域。2020年,McCay等人使用OpenPose構建嬰兒骨骼模型,提取姿態特征,然后訓練深度學習模型預測嬰兒是否存在發育異常。這種方法達到了與經驗豐富的臨床醫生相當的表現水平。同年,Chambers等人提出使用樸素高斯貝葉斯驚奇度(NGBS)計算嬰兒動作與正常發育嬰兒群體的偏差,輸出異常風險指標。
![]()
針對嬰幼兒的專用深度學習姿態估計模型也在不斷發展。2019年,Moccia等人設計了一個由檢測和回歸卷積神經網絡組成的深度學習框架,用于粗略和精確的關節定位。2021年,Carbonari等人基于Mask R-CNN開發了端到端可學習的卷積神經網絡架構,專門用于新生兒重癥監護室(NICUs)的肢體姿態估計。
低延遲視頻通信和智能手機的普及也推動了遠程嬰兒動作評估的發展。2021年,Adde等人進行了一項突破性研究,讓家長使用智能手機和專用應用程序在家中拍攝嬰兒視頻。系統使用僅7個關節點(頭部、胸部、骨盆、手腕和腳踝)的簡化骨骼模型,由卷積神經網絡追蹤。這是首個在家用智能手機錄制視頻上測試的自動系統,大大擴展了技術的覆蓋范圍。
盡管技術進步顯著,但臨床應用仍面臨挑戰,主要是結果可解釋性不足。當機器預測與醫生判斷不一致時,醫生很難理解機器決策的依據。Sakkos等人在2021年提出了一個框架,不僅預測風險評分,還可視化與高風險相關的關鍵動作,提高了系統的透明度和可接受度。
隨著技術不斷成熟,無標記人體姿態估計有望成為嬰幼兒神經發育評估的常規工具,幫助更多嬰兒及早發現發育異常并獲得適當干預。通過在普通家庭環境中收集和分析動作數據,該技術將使高質量的醫療評估不再局限于醫院和專業診所,實現真正的醫療普惠化。
康復之路新助手
人們在遭遇腦卒中、脊髓損傷或其他神經肌肉疾病后,往往需要長期康復治療來恢復運動功能。傳統康復過程中,醫生通常憑借經驗和主觀判斷來評估患者進展,缺乏精確的定量分析工具。而無標記人體姿態估計技術正為這一領域帶來革命性變化。
早在2019年,研究者Sarsfield就對當時的無標記人體姿態估計系統進行了評估,結果并不樂觀。他發現當時的系統在準確評估康復運動方面存在明顯不足,特別是在處理自遮擋問題時表現欠佳。不過,近年來這一技術領域進步迅速,新一代模型已經能夠應對這些挑戰。
在臨床康復環境中,無標記姿態估計系統需要具備兩個核心功能:實時捕捉人體動作和定量評估運動表現。2020年,Tao團隊開發了一種基于OpenPose的系統,用于跟蹤患者在專家指導下執行的康復動作。這套系統不僅能監測患者動作,還能為機器人輔助康復設備提供軌跡規劃參考,幫助機器人模擬專業理療師的動作來輔助患者。
![]()
同年,Wu研究小組利用Microsoft Kinect設備的RGB和深度通道,創建了一個更全面的康復監測系統。他們使用名為"部位親和場"(Part Affinity Fields)的技術從RGB圖像中提取2D姿態,再利用RGB與深度通道的映射關系估計3D關節位置。這種組合方法能夠提供更準確的空間信息,特別適合評估復雜的三維康復動作。
2022年,Xu團隊推出了一個基于多視角視頻的3D姿態估計框架,分為兩個關鍵步驟:先使用堆疊沙漏網絡(Stacked Hourglass Network)配合粗到細熱圖收縮策略在每個圖像上定位關節,然后通過時空感知網絡融合多視角和多時刻的2D結果生成3D姿態估計。這種方法雖然計算復雜度高,但準確性顯著提升,適合在專業康復機構使用。
隨著遠程醫療需求增長,輕量級姿態估計模型也得到快速發展。2020年,Li研究小組以HRNet為基礎,借鑒MobileNetv1的模塊設計和空洞卷積技術,開發了名為"極其高效空間金字塔"(EESD)的網絡。這個網絡進一步融合了注意力機制,能夠在中端智能手機上流暢運行,為居家康復提供了可能。
同樣面向遠程康復的還有Rick團隊在2019年推出的NeuroPose網絡應用。該應用以PoseNet模型為核心,通過tensorflow.js框架部署,能夠使用WebGL等通用庫訪問本地GPU資源,在不同硬件條件下自動調整參數以確保可用性。這種基于瀏覽器的實現方式避免了安裝專用軟件的麻煩,提高了用戶接受度。
云計算和邊緣計算也為康復姿態估計提供了兩種不同的技術路線。Prima團隊在2019年的作品中,將OpenPose提供的2D姿態通過啟發式方法和先驗信息進行3D提升,并計算骨架模型的關節角度。他們采用物聯網范式,讓應用在智能手機上運行簡單交互,而將計算密集型任務交給云服務處理。與此相反,2021年的DeepRehab系統則采用邊緣計算方案,使用具有ResNet101特征提取骨干的全卷積架構,在專用Edge TPU設備上運行,患者只需通過智能手機應用與系統交互。
這些技術進步正在改變康復治療的面貌。患者不必總是前往專業康復中心,而可以在家中接受遠程監督和指導。系統能夠自動記錄患者康復進展,提供客觀數據支持治療調整。在機器人輔助康復領域,無標記姿態估計技術為確保安全和有效性提供了基礎,使機器人能夠根據患者實時姿態調整輔助力度和方向。
步態分析新視角
人類步行方式包含著豐富的健康信息。專業的步態分析可以發現多種疾病的早期征兆,評估康復進展,甚至協助醫生判斷治療效果。傳統步態分析需要在專業實驗室進行,使用復雜的標記式動作捕捉系統和力平臺,費時費力且成本高昂。無標記人體姿態估計技術正在改變這一局面,讓步態分析變得更加簡單易行。
步態分析通常關注人體在矢狀面和冠狀面的運動,即從側面和正面觀察的運動特征。這要求至少使用兩臺攝像機才能獲得完整的3D信息:一臺放在受試者前方,一臺放在側面。不過,許多研究表明,在特定應用場景中,單攝像機設置也能提供足夠有用的信息。
![]()
在單視角應用方面,DeepLabCut工具表現突出。2019年,Cronin等人將其應用于水下跑步分析;2020年,Moro等人用它評估腦卒中患者的步行狀態;2021年,Drazan等人則研究了反向跳躍動作。這些研究一致表明,盡管與標記式系統相比誤差略大,但無標記技術已足以用于步態分析的多種場景。2022年,Viswakumar團隊使用OpenPose成功估計膝關節角度,進一步證實了這一結論。
單攝像頭設置的主要問題是自遮擋:走路時一只腿可能遮擋另一只腿。為解決這個問題,2020年,Serrancol?團隊和2021年的Stenum團隊嘗試使用兩臺攝像機分別放在矢狀面兩側,每臺只監測最近的肢體而忽略其他部分。不過,這種方法在準確性和穩定性方面表現不佳,經常需要用戶干預糾正錯誤。
時間信息也是步態分析的重要維度。2021年,Shin團隊將2D單視角姿態估計與投影映射結合,Azhand團隊則將其與3D肌肉骨骼模型結合,以提取步態參數測量值。兩項研究都發現,與GAITRite壓力步道系統相比,這些方法顯示出很強的相關性。這表明即使是簡單的2D姿態估計,配合適當的后處理,也能提供有價值的臨床指標。
2019年,Sokolova和Konushin提出了一個端到端模型,從OpenPose提供的2D姿態出發,在關節周圍裁剪區域并計算光流,然后訓練卷積神經網絡直接輸出步態描述符。這種方法跳過了傳統的3D重建步驟,直接從2D信息中提取臨床相關特征,大大簡化了分析流程。
帕金森病是步態分析的重要應用領域之一。2018年,Martinez團隊使用OpenPose檢查步行節奏并自動計算異常評分,用于監測疾病進展。2021年,Shin等人處理正面單視角視頻,提供時空結果指標(步長、步行速度和轉彎時間)。2022年,Connie團隊使用雙攝像頭設置(正面和側面)和AlphaPose模型,從2D軌跡中提取八個時空特征,然后用隨機森林分類器區分疾病嚴重程度。相似地,Sato等人在2019年提出了一種無監督方法,通過應用OpenPose量化步態特征并從步態視頻中提取節奏。
除了臨床應用,步態分析還需要解決逆動力學問題,即根據身體3D運動和慣性特性(如各肢體質量)計算力和力矩。這通常需要額外信息,如來自力板的地面反作用力。Brubaker團隊在2007年和2009年使用關節體模型從運動數據中推斷關節力矩和接觸動力學,通過引入額外的根力加速優化過程。Johnson和Ballard于2014年研究了逆動力學回歸的稀疏編碼,而Zell等人則在2015年介紹了人類步態分析的二維統計模型,并在2020年將其擴展為3D模型和基于神經網絡的推理。
![]()
盡管多數方法僅關注步行動作,一些工作如Vondrak等人(2008)和Duff等人(2011)考慮了更廣泛的動作類型。物理驅動先驗也適合支持統計方法,Wei等人(2011)使用最大后驗概率方法合成各種物理上現實的動作和動作交互。許多人體姿態估計方法還依賴人體測量學約束(Akhter和Black,2015;Wang等人,2014)來穩定計算。
隨著技術不斷成熟和硬件成本持續下降,無標記步態分析有望從專業實驗室走向普通家庭和社區醫療中心,使更多人受益于這一診斷工具。特別是對于需要長期監測的慢性疾病患者,家庭步態分析系統可以提供連續的數據流,幫助醫生及時發現病情變化并調整治療方案。
參考資料
Avogaro, A., Cunico, F., Rosenhahn, B., &; Setti, F. (2023). Markerless Human Pose Estimation for Biomedical Applications: A Survey. arXiv:2308.00519v1.
Cao, Z., Simon, T., Wei, S.E., &; Sheikh, Y. (2017). Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. CVPR.
Cherry-Allen, K., Gwin, J., Kautz, S., &; Arac, A. (2023). Markerless motion capture for rehabilitation: A review. Journal of NeuroEngineering and Rehabilitation.
Groos, D., Adde, L., Ihlen, E.A.F., &; Sten, R. (2022). Automated Prediction of Cerebral Palsy Using Deep Learning. Scientific Reports.
Tu, H., Wang, C., &; Zeng, W. (2020). VoxelPose: Towards Multi-Person 3D Pose Estimation in Wild Videos. ECCV.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.