![]()
2024年1月,一位Reddit用戶在翻閱微軟服務條款時,發現了一段2017年就存在的文字。這段文字允許微軟收集用戶的文檔、語音輸入、手寫筆跡,用于"改進產品"。七年里,3億Office 365用戶每天產生的數據,就這樣成了訓練素材。
藏在第11節的"同意"
微軟服務條款的第11節標題是"用戶生成內容"。大多數人點擊"同意"時,不會想到這四個字背后是什么。條款寫明:微軟可以"使用、修改、改編、再許可"用戶上傳的內容。關鍵詞是"再許可"——意味著微軟可以把你的數據轉給第三方。
德國數據保護機構BSI在2023年的審計中發現,Office 365的遙測數據默認開啟,包含文檔元數據、編輯時間軸、協作者關系圖譜。這些信息足夠重建一個組織的決策流程。BSI報告原文:「企業用戶往往 unaware 其商業機密已被系統性采集。」
微軟的回應很標準:用戶可以選擇關閉。但關閉入口 buried 在三級菜單下,且每次更新后默認重置。2022年,荷蘭教育部測試發現,即使IT管理員在租戶級別禁用遙測,個別用戶設備仍會向微軟服務器發送診斷數據。
條款的狡猾之處在于"改進產品"這個模糊表述。它沒有限定改進范圍,也沒有排除用于AI訓練。直到2023年ChatGPT引爆生成式AI競賽,人們才突然意識到:那些"改進"可能意味著你的郵件被用來訓練下一個大模型。
從"功能優化"到"模型飼料"
微軟的AI戰略轉折點在2019年。當年,微軟向OpenAI投資10億美元,獲得GPT模型獨家授權。此后,Office 365的遙測協議開始頻繁更新,但"用戶生成內容"條款始終未動。它不需要動——已經足夠寬泛。
2023年3月,微軟推出Copilot,嵌入Word、Excel、Outlook。發布會上演示的功能令人印象深刻:根據郵件歷史自動生成回復,基于文檔庫撰寫報告。這些能力的背后,是模型對用戶數據的深度理解。
問題是:這種理解從何時開始?
斯坦福大學AI實驗室的研究員Michele Banko在2023年的一篇論文中分析,GPT-4在某些專業領域的回答風格,與特定企業的內部文檔高度相似。她無法確認訓練數據來源,但指出:「模型表現出的'領域直覺',通常需要大量該領域的真實文本才能形成。」
微軟從未公布Copilot的訓練數據構成。但在2024年1月的更新中,它悄悄修改了服務條款,新增"AI訓練"作為數據使用的明確目的之一。這個修改本身說明:此前的條款確實沒有充分覆蓋。
7年的模糊地帶,3億用戶的數據,一次條款更新就試圖翻篇。
企業的"數據主權"幻覺
大型組織對微軟的信任,很大程度上建立在"企業級安全"的營銷上。Office 365 E5許可證包含高級合規功能,數據駐留選項,甚至專屬加密密鑰。這些功能創造了一種幻覺:數據是企業的,微軟只是托管。
服務條款第11節的存在,讓這種幻覺顯得可笑。無論企業購買多高級的許可證,用戶生成內容的授權條款始終適用。2023年,法國興業銀行內部評估后,禁止員工在Office 365中處理客戶敏感信息。他們的CISO在內部備忘錄中寫道:「我們無法向監管機構證明數據未被用于模型訓練,條款不允許我們做出這種保證。」
更隱蔽的風險是聚合效應。單個文檔可能無關緊要,但數百萬企業的財務報表、合同模板、法務意見匯聚起來,足以訓練出一個精通商業寫作的AI。這個AI隨后被微軟以訂閱形式賣回給企業——包括那些貢獻了數據的企業。
歐盟《AI法案》的最終文本試圖回應這個問題:要求通用AI模型披露訓練數據中的版權材料來源。但它沒有涉及企業用戶數據,也沒有追溯效力。2024年前"改進產品"條款下采集的數據,已經永遠進入了模型的參數空間。
用戶的"退出"有多難
微軟提供了數據控制選項,但設計邏輯充滿摩擦。以遙測關閉為例:管理員需要在Microsoft 365管理中心導航至"設置-組織設置-服務",找到"Microsoft 365診斷數據",選擇"可選診斷數據"或"必需診斷數據"。即使選擇"必需",某些數據仍會發送。
對于AI訓練的具體退出,微軟直到2024年1月才推出"Azure OpenAI數據退出"計劃,且僅限特定區域、特定服務層級。普通Office 365用戶沒有直接選項。他們的替代方案是:停止使用微軟服務。
這個替代方案的成本被嚴重低估。一家中型企業的IT遷移成本通常在50萬至200萬美元之間,周期6-18個月。對于已經深度嵌入Microsoft 365工作流的企業,"退出"不是技術決策,是商業自殺。
條款設計的精妙之處正在于此:它不需要強制,只需要讓退出足夠昂貴。
2024年3月,德國聯邦卡特爾局對微軟啟動反壟斷調查,焦點之一是數據杠桿。局長Andreas Mundt在聲明中指出:「微軟在生產力軟件市場的支配地位,使其能夠施加不公平的數據條款。用戶缺乏真正的談判能力。」
行業慣例還是微軟特例
微軟不是唯一有類似條款的公司。Google Workspace的服務條款同樣包含廣泛的內容授權,Amazon Web Services的條款允許"運營和改進服務"。但微軟的特殊性在于其垂直整合程度:從操作系統到生產力軟件到云服務到AI模型,數據可以在全棧流動。
這種整合創造了獨特的數據價值。Windows 11的遙測、LinkedIn的職業網絡、GitHub的代碼庫、Office 365的文檔,加上Azure的計算資源,微軟擁有最完整的"數字工作畫像"。Copilot的競爭力,很大程度上來自這種跨產品的數據協同。
競爭對手的模仿正在加速。2024年,Salesforce的Einstein GPT、Google的Duet AI都更新了服務條款,明確納入AI訓練用途。行業正在形成新的默認規則:使用云服務即同意貢獻數據訓練AI。
不同之處在于透明度。Google在2024年4月推出了"數據貢獻"儀表板,向企業用戶展示其數據被用于AI訓練的概覽——盡管細節仍然模糊。微軟至今沒有類似工具。用戶只能信任條款修改后的承諾,而無法驗證歷史數據的使用情況。
監管滯后與條款進化
法律體系的反應速度遠慢于技術迭代。歐盟《通用數據保護條例》(GDPR) 2018年生效時,生成式AI尚未進入主流視野。其"目的限制"原則要求數據收集目的明確、具體,但"改進產品"的模糊表述恰好利用了解釋空間。
2024年,法國國家信息與自由委員會(CNIL)對微軟開出6000萬歐元罰單,理由是Cookie設置違規。但針對服務條款本身的調查仍在進行。CNIL主席Marie-Laure Denis在接受《世界報》采訪時承認:「現有法律框架難以應對AI訓練的數據合法性挑戰。我們需要新的工具。」
在美國,聯邦層面缺乏統一的數據隱私法。各州立法碎片化,且大多豁免"商業合理用途"。微軟的總部所在地華盛頓州,2023年通過的《消費者健康數據法》甚至明確排除了"去標識化"數據——而微軟條款中的"改進產品"恰恰依賴去標識化主張。
條款本身也在進化。2024年1月的修改不僅增加了"AI訓練"目的,還引入了"數據最小化"承諾,聲稱將"限制用于AI訓練的數據范圍"。但最小化的標準由微軟單方面定義,用戶沒有審計權。這種"自我監管"模式,與2008年金融危機前的銀行業何其相似。
一個未被回答的問題
2024年5月,微軟Build開發者大會上,CEO Satya Nadella展示了Copilot的"記憶"功能:AI可以跨會話記住用戶的偏好、項目背景、寫作風格。演示獲得全場起立鼓掌。
沒有人追問:這些"記憶"存儲在哪里?如果用戶刪除賬戶,記憶是否同步清除?如果記憶已經影響模型權重,刪除原始數據還有意義嗎?
服務條款沒有答案。它只承諾微軟會"采取合理措施"保護數據——而"合理"的定義權,永遠在微軟手中。
那位2017年點擊"同意"的用戶,和2024年使用Copilot的用戶,可能是同一個人。七年間,他的郵件、文檔、會議記錄,已經變成了模型參數空間中的某個向量。即使他現在關閉所有選項,那些向量也不會消失。它們只是不再更新。
我們習慣于把數據隱私想象成開關:開或關,同意或拒絕。但微軟的條款揭示了一種更古老的邏輯:同意是一次性的,影響是永久的。你簽下的不是使用協議,是數字時代的賣身契——而且條款寫明,它可以"再許可"。
當Copilot幫你寫完下一封郵件時,它使用的可能是你七年前寫過的某句話的變體。你會認出它嗎?你會介意嗎?更重要的是——你還有選擇嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.