網易首頁 > 網易號 > 正文申請入駐

微軟把3億用戶數據喂給AI，隱私條款藏了7年沒人發現

2026-04-07 17:10:03　來源: 算力游俠

北京舉報

分享至

2024年1月，一位Reddit用戶在翻閱微軟服務條款時，發現了一段2017年就存在的文字。這段文字允許微軟收集用戶的文檔、語音輸入、手寫筆跡，用于"改進產品"。七年里，3億Office 365用戶每天產生的數據，就這樣成了訓練素材。

藏在第11節的"同意"

微軟服務條款的第11節標題是"用戶生成內容"。大多數人點擊"同意"時，不會想到這四個字背后是什么。條款寫明：微軟可以"使用、修改、改編、再許可"用戶上傳的內容。關鍵詞是"再許可"——意味著微軟可以把你的數據轉給第三方。

德國數據保護機構BSI在2023年的審計中發現，Office 365的遙測數據默認開啟，包含文檔元數據、編輯時間軸、協作者關系圖譜。這些信息足夠重建一個組織的決策流程。BSI報告原文：「企業用戶往往 unaware 其商業機密已被系統性采集。」

微軟的回應很標準：用戶可以選擇關閉。但關閉入口 buried 在三級菜單下，且每次更新后默認重置。2022年，荷蘭教育部測試發現，即使IT管理員在租戶級別禁用遙測，個別用戶設備仍會向微軟服務器發送診斷數據。

條款的狡猾之處在于"改進產品"這個模糊表述。它沒有限定改進范圍，也沒有排除用于AI訓練。直到2023年ChatGPT引爆生成式AI競賽，人們才突然意識到：那些"改進"可能意味著你的郵件被用來訓練下一個大模型。

從"功能優化"到"模型飼料"

微軟的AI戰略轉折點在2019年。當年，微軟向OpenAI投資10億美元，獲得GPT模型獨家授權。此后，Office 365的遙測協議開始頻繁更新，但"用戶生成內容"條款始終未動。它不需要動——已經足夠寬泛。

2023年3月，微軟推出Copilot，嵌入Word、Excel、Outlook。發布會上演示的功能令人印象深刻：根據郵件歷史自動生成回復，基于文檔庫撰寫報告。這些能力的背后，是模型對用戶數據的深度理解。

問題是：這種理解從何時開始？

斯坦福大學AI實驗室的研究員Michele Banko在2023年的一篇論文中分析，GPT-4在某些專業領域的回答風格，與特定企業的內部文檔高度相似。她無法確認訓練數據來源，但指出：「模型表現出的'領域直覺'，通常需要大量該領域的真實文本才能形成。」

微軟從未公布Copilot的訓練數據構成。但在2024年1月的更新中，它悄悄修改了服務條款，新增"AI訓練"作為數據使用的明確目的之一。這個修改本身說明：此前的條款確實沒有充分覆蓋。

7年的模糊地帶，3億用戶的數據，一次條款更新就試圖翻篇。

企業的"數據主權"幻覺

大型組織對微軟的信任，很大程度上建立在"企業級安全"的營銷上。Office 365 E5許可證包含高級合規功能，數據駐留選項，甚至專屬加密密鑰。這些功能創造了一種幻覺：數據是企業的，微軟只是托管。

服務條款第11節的存在，讓這種幻覺顯得可笑。無論企業購買多高級的許可證，用戶生成內容的授權條款始終適用。2023年，法國興業銀行內部評估后，禁止員工在Office 365中處理客戶敏感信息。他們的CISO在內部備忘錄中寫道：「我們無法向監管機構證明數據未被用于模型訓練，條款不允許我們做出這種保證。」

更隱蔽的風險是聚合效應。單個文檔可能無關緊要，但數百萬企業的財務報表、合同模板、法務意見匯聚起來，足以訓練出一個精通商業寫作的AI。這個AI隨后被微軟以訂閱形式賣回給企業——包括那些貢獻了數據的企業。

歐盟《AI法案》的最終文本試圖回應這個問題：要求通用AI模型披露訓練數據中的版權材料來源。但它沒有涉及企業用戶數據，也沒有追溯效力。2024年前"改進產品"條款下采集的數據，已經永遠進入了模型的參數空間。

用戶的"退出"有多難

微軟提供了數據控制選項，但設計邏輯充滿摩擦。以遙測關閉為例：管理員需要在Microsoft 365管理中心導航至"設置-組織設置-服務"，找到"Microsoft 365診斷數據"，選擇"可選診斷數據"或"必需診斷數據"。即使選擇"必需"，某些數據仍會發送。

對于AI訓練的具體退出，微軟直到2024年1月才推出"Azure OpenAI數據退出"計劃，且僅限特定區域、特定服務層級。普通Office 365用戶沒有直接選項。他們的替代方案是：停止使用微軟服務。

這個替代方案的成本被嚴重低估。一家中型企業的IT遷移成本通常在50萬至200萬美元之間，周期6-18個月。對于已經深度嵌入Microsoft 365工作流的企業，"退出"不是技術決策，是商業自殺。

條款設計的精妙之處正在于此：它不需要強制，只需要讓退出足夠昂貴。

2024年3月，德國聯邦卡特爾局對微軟啟動反壟斷調查，焦點之一是數據杠桿。局長Andreas Mundt在聲明中指出：「微軟在生產力軟件市場的支配地位，使其能夠施加不公平的數據條款。用戶缺乏真正的談判能力。」

行業慣例還是微軟特例

微軟不是唯一有類似條款的公司。Google Workspace的服務條款同樣包含廣泛的內容授權，Amazon Web Services的條款允許"運營和改進服務"。但微軟的特殊性在于其垂直整合程度：從操作系統到生產力軟件到云服務到AI模型，數據可以在全棧流動。

這種整合創造了獨特的數據價值。Windows 11的遙測、LinkedIn的職業網絡、GitHub的代碼庫、Office 365的文檔，加上Azure的計算資源，微軟擁有最完整的"數字工作畫像"。Copilot的競爭力，很大程度上來自這種跨產品的數據協同。

競爭對手的模仿正在加速。2024年，Salesforce的Einstein GPT、Google的Duet AI都更新了服務條款，明確納入AI訓練用途。行業正在形成新的默認規則：使用云服務即同意貢獻數據訓練AI。

不同之處在于透明度。Google在2024年4月推出了"數據貢獻"儀表板，向企業用戶展示其數據被用于AI訓練的概覽——盡管細節仍然模糊。微軟至今沒有類似工具。用戶只能信任條款修改后的承諾，而無法驗證歷史數據的使用情況。

監管滯后與條款進化

法律體系的反應速度遠慢于技術迭代。歐盟《通用數據保護條例》(GDPR) 2018年生效時，生成式AI尚未進入主流視野。其"目的限制"原則要求數據收集目的明確、具體，但"改進產品"的模糊表述恰好利用了解釋空間。

2024年，法國國家信息與自由委員會(CNIL)對微軟開出6000萬歐元罰單，理由是Cookie設置違規。但針對服務條款本身的調查仍在進行。CNIL主席Marie-Laure Denis在接受《世界報》采訪時承認：「現有法律框架難以應對AI訓練的數據合法性挑戰。我們需要新的工具。」

在美國，聯邦層面缺乏統一的數據隱私法。各州立法碎片化，且大多豁免"商業合理用途"。微軟的總部所在地華盛頓州，2023年通過的《消費者健康數據法》甚至明確排除了"去標識化"數據——而微軟條款中的"改進產品"恰恰依賴去標識化主張。

條款本身也在進化。2024年1月的修改不僅增加了"AI訓練"目的，還引入了"數據最小化"承諾，聲稱將"限制用于AI訓練的數據范圍"。但最小化的標準由微軟單方面定義，用戶沒有審計權。這種"自我監管"模式，與2008年金融危機前的銀行業何其相似。

一個未被回答的問題

2024年5月，微軟Build開發者大會上，CEO Satya Nadella展示了Copilot的"記憶"功能：AI可以跨會話記住用戶的偏好、項目背景、寫作風格。演示獲得全場起立鼓掌。

沒有人追問：這些"記憶"存儲在哪里？如果用戶刪除賬戶，記憶是否同步清除？如果記憶已經影響模型權重，刪除原始數據還有意義嗎？

服務條款沒有答案。它只承諾微軟會"采取合理措施"保護數據——而"合理"的定義權，永遠在微軟手中。

那位2017年點擊"同意"的用戶，和2024年使用Copilot的用戶，可能是同一個人。七年間，他的郵件、文檔、會議記錄，已經變成了模型參數空間中的某個向量。即使他現在關閉所有選項，那些向量也不會消失。它們只是不再更新。

我們習慣于把數據隱私想象成開關：開或關，同意或拒絕。但微軟的條款揭示了一種更古老的邏輯：同意是一次性的，影響是永久的。你簽下的不是使用協議，是數字時代的賣身契——而且條款寫明，它可以"再許可"。

當Copilot幫你寫完下一封郵件時，它使用的可能是你七年前寫過的某句話的變體。你會認出它嗎？你會介意嗎？更重要的是——你還有選擇嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.