在生物學、醫學診斷、金融建模乃至社會科學等領域,預測是指導決策的關鍵。然而,傳統的預測方法,例如最常用的最小二乘法(least-squares method),其核心目標是最小化平均誤差——也就是讓預測值盡可能地接近實際值。這種方法在很多情況下表現良好,但往往忽略了一個更關鍵的質量指標:預測結果與實際結果的“一致性”(Agreement)。
![]()
最近,由里海大學統計學家 Taeho Kim 領導的一個國際數學團隊,開發出了一種名為最大一致性線性預測器(Maximum Agreement Linear Predictor, MALP)的新預測方法。MALP 的目標不再是僅僅追求最小的平均誤差,而是要最大限度地提高預測值和真實值之間的一致性。
為什么一致性比誤差更重要?
最小二乘法可能會生成一個平均誤差很小的模型,但其預測結果在細節上可能與實際值存在系統性的偏差。想象一下,在一張展示預測值與實際值的散點圖上,如果數據點緊密地沿著一條45 度角斜線排列,那就意味著模型不僅是準確的(預測值接近真實值),而且是精確的(預測值和真實值之間的偏差一致),實現了高度的一致性。
然而,傳統的皮爾遜相關系數(Pearson's correlation coefficient)雖然可以衡量線性關系的強度,但它并不能確保這種 45 度角的對齊。它可能會對斜率為 50 度甚至 75 度的關系給出高分。
MALP 算法正是為了解決這個問題而生。它不是最小化平均誤差,而是通過優化一個名為一致性相關系數(Concordance Correlation Coefficient, CCC)的指標來工作。CCC 專門衡量數據點與 45 度角對齊線的契合程度,將預測的精確性(數據點的聚集程度)和準確性(數據點與參考線的接近程度)結合起來進行評估。
真實世界中的測試結果
研究團隊通過計算機模擬和真實世界的數據集對 MALP 進行了測試,包括眼科掃描數據和體脂測量數據。
- 眼科掃描數據:在一個比較兩種不同眼科光學相干斷層掃描(OCT)設備的實驗中,醫生需要將舊設備的讀數轉換為新設備的讀數,以確保跨設備和長時間測量的一致性
- 結果顯示,MALP 產生的預測值與舊設備的實際測量結果更接近,實現了更高的一致性。而最小二乘法則在減少平均誤差方面略勝一籌。
- 體脂測量數據:在預測人體脂肪含量(通常需要昂貴的水下測量)時,研究人員使用簡單易得的體重和腹圍等數據進行估計。
- 結果再次證實:MALP 提供的預測值與實際體脂百分比的一致性更高,而最小二乘法在平均誤差上稍低。
總結與展望
這項研究提醒我們,在選擇預測模型時,必須根據項目的具體目標來決定:
- 如果最小化平均誤差是首要目標,那么傳統的最小二乘法依然是有效的工具。
- 如果預測值與真實值的高度一致性(即預測值與真實值 1:1 對齊)是關鍵,那么 MALP 算法是更優的選擇。
MALP 作為一個強大的新工具,將大大增強統計學家和數據科學家在處理需要高保真一致性的數據時的預測能力,為提升跨學科應用的準確性和可靠性奠定了新的數學基礎。研究團隊的下一步目標是將 MALP 從目前的線性預測范疇擴展到更一般的非線性預測領域,從而移除其線性限制,讓“最大一致性預測器”能夠適用于更廣泛的復雜系統。
參考資料:DOI:10.48550/arXiv.2304.04221
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.