網易首頁 > 網易號 > 正文申請入駐

耶魯醫學院驗證AI做定性研究的可靠性到底有多高

2025-12-26 18:20:02　來源: 至頂AI實驗室

北京舉報

分享至

這項研究由耶魯醫學院的Nilesh Jain、Seyi Adeyinka和Aza Allsop，以及埃克塞特大學的Leor Roseman在2025年12月聯合完成，研究成果發表在計算機科學領域的預印本平臺上，論文編號為arXiv:2512.20352v1。對這個跨學科研究感興趣的讀者可以通過該編號查閱完整的技術細節。

在學術研究的世界里，有一類工作特別像偵探破案。研究人員需要從大量的訪談記錄、觀察筆記中尋找線索，發現隱藏在文字背后的深層模式和主題。這種工作被稱為"定性研究中的主題分析"，就像從犯罪現場的蛛絲馬跡中拼湊出完整故事一樣。

傳統上，這種"破案"工作需要多個經驗豐富的"偵探"（研究人員）獨立分析同一批"證據"（數據），然后比較他們的發現是否一致。這個過程不僅耗時費力，還經常出現不同偵探得出不同結論的尷尬情況。就像三個偵探看同一個案件，可能會有三種不同的破案思路。

隨著人工智能技術的發展，研究人員開始思考一個問題：能否讓AI來充當這些"數據偵探"呢？但問題是，如何確保這些AI偵探的分析真的可靠？它們會不會像那種總是胡亂猜測的新手偵探一樣不靠譜？

耶魯醫學院的研究團隊決定對這個問題進行一次徹底的驗證。他們設計了一個巧妙的實驗：讓三個不同的AI"偵探"——Gemini 2.5 Pro、GPT-4o和Claude 3.5 Sonnet——分別對同一份心理治療訪談記錄進行多次獨立分析，然后用兩套不同的"測謊儀"來檢驗它們的可靠性。

這個驗證過程就像讓三個偵探團隊分別破案，每個團隊要獨立辦案6次，然后用兩種方法來檢查他們的結論是否一致。第一種方法叫"科恩卡帕系數"，專門用來測量不同偵探之間的意見一致性；第二種方法叫"語義相似度"，用來檢查即使用詞不同，但表達的意思是否相近。

一、AI偵探的多重驗證機制：讓可靠性無處遁形

要理解這項研究的巧妙之處，我們可以把它比作一個非常嚴格的偵探訓練營。在傳統的研究中，通常只讓AI分析一次數據，就像讓偵探只看一遍案卷就得出結論。但這種方法有個明顯的問題：你無法知道這個結論是否可靠，就像無法確定偵探是蒙對的還是真的有本事。

研究團隊采用了一種叫做"集成驗證"的方法。簡單來說，就是讓每個AI偵探用6個不同的"隨機種子"（類似于6種不同的分析角度）對同一份材料進行獨立分析。這就像讓一個偵探從6個不同的角度重新審視同一個案件：有時從受害者角度切入，有時從嫌疑人角度分析，有時關注物證，有時重點看人證。

這種設計的精妙之處在于，如果AI真的具備可靠的分析能力，那么無論從哪個角度切入，它都應該能找到相似的核心線索和結論。就像一個真正優秀的偵探，不管從什么角度分析案件，都能抓住關鍵證據。

為了確保這種多角度分析的有效性，研究團隊還設置了"溫度參數"，控制AI分析的隨機性程度。這就像調節偵探的思維活躍度：溫度設置得低（0.0-0.5）時，AI會比較保守和確定性，就像嚴謹的老偵探；溫度設置得高（1.0-2.0）時，AI會更有創造性和探索性，像那種善于突破常規思路的年輕偵探。

這項研究最創新的地方在于使用了兩套完全不同的可靠性檢測系統。第一套是傳統的"科恩卡帕系數"，這是學術界公認的金標準，就像偵探界用來衡量不同偵探意見一致性的權威標準。當卡帕系數超過0.80時，就被認為達到了"近乎完美"的一致性水平。

第二套檢測系統更加先進，叫做"余弦相似度"。這套系統不只看AI是否用了相同的詞匯，而是深入理解語言的含義。就像一個高級的測謊專家，不僅聽你說什么，還能理解你想表達什么。即使兩個AI用完全不同的詞匯描述同一個主題，這套系統也能識別出它們實際上在說同一件事。

研究團隊還開發了一個"結構無關的共識提取算法"，這個聽起來復雜的名字其實描述的是一個很實用的功能。就像一個能夠閱讀不同格式案卷的萬能檔案管理員，無論AI以什么樣的格式輸出分析結果，這個算法都能從中提取出核心主題，然后統計這些主題在多次分析中出現的頻率。

二、三大AI偵探的較量：誰是最可靠的數據分析師

在這場AI可靠性的終極測試中，研究團隊選擇了三個當今最頂尖的AI模型作為參賽選手。這就像邀請了三位不同風格的頂級偵探來參加同一個破案挑戰。

第一位選手是谷歌的Gemini 2.5 Pro，它在這次測試中表現得像一位經驗豐富、辦案風格穩重的資深偵探。經過6輪獨立分析后，Gemini的可靠性指標達到了令人印象深刻的水平：科恩卡帕系數高達0.907，語義相似度達到95.3%。這意味著什么呢？簡單來說，就是Gemini在不同的分析中幾乎總是能得出高度一致的結論，就像一個總是能準確還原案件真相的偵探。

更令人驚訝的是，Gemini在6次分析中的表現差異最小，卡帕系數的變化范圍只有0.232，這表明它的分析結果非常穩定。就像一個情緒穩定、思路清晰的偵探，無論什么時候讓他分析同一個案件，他都能給出幾乎相同的專業判斷。

第二位選手GPT-4o的表現也相當出色，科恩卡帕系數達到0.853，語義相似度為92.6%。雖然略低于Gemini，但這個成績仍然屬于"近乎完美"的可靠性級別。GPT-4o就像一位分析能力強、但偶爾會有些創新想法的中年偵探，大部分時候都能得出準確的結論，偶爾會從新角度發現一些其他偵探沒注意到的細節。

第三位選手Claude 3.5 Sonnet的科恩卡帕系數為0.842，語義相似度為92.1%。有趣的是，Claude在不同分析中的表現差異最大，卡帕系數變化范圍達到0.396，這表明它在某些分析中可能會產生較為獨特的見解。就像一個思維活躍、富有創意的年輕偵探，有時能發現意想不到的線索，但偶爾也會偏離主流結論。

值得注意的是，所有三個AI都達到了科學研究中被認為"近乎完美"的可靠性標準（卡帕系數大于0.80）。這個結果在學術界具有重要意義，因為傳統的人工編碼研究很少能達到如此高的一致性水平。通常，即使是訓練有素的人類研究員，在獨立分析同一份材料時，能達到0.60-0.80的一致性就已經很不錯了。

研究團隊還發現了一個有趣的現象：語義相似度與科恩卡帕系數之間存在高度相關性（相關系數r=0.97）。這證明了用語義理解來衡量AI分析可靠性是一個有效的方法。換句話說，當AI在統計意義上表現一致時，它們在語義理解上也是一致的，反之亦然。

三、共識主題的發現：從數據中挖掘真正的洞察

在驗證了AI的可靠性之后，研究團隊進一步分析了這些AI偵探究竟發現了什么有價值的線索。他們使用的測試材料是一份關于藝術治療與氯胺酮輔助心理治療結合的訪談記錄，這份材料包含28,377個字符，記錄了一位治療師對這種創新療法的深度見解。

通過共識提取算法，研究團隊發現不同的AI識別出了不同數量的"共識主題"。這就像三個偵探團隊在同一個案件中找到了不同數量的關鍵線索，但這些線索都指向相同的核心真相。

Gemini這位"穩重偵探"識別出了6個共識主題，其中2個達到了高度一致性（在6次分析中出現5-6次，一致性為83-100%），4個達到了中度一致性（出現3-4次，一致性為50-66%）。這些主題包括"克服創作障礙"和"表達困難的挑戰"等核心發現。

特別值得關注的是"克服創作障礙"這個主題。在83.3%的分析中，Gemini都發現了這樣一個模式：來訪者通過氯胺酮治療和藝術創作的結合，能夠突破完美主義和抑郁情緒的束縛，重新連接到一種游戲性和平和的創作過程。這就像偵探在多個證人證詞中都發現了同一個關鍵信息，說明這個發現具有很高的可信度。

GPT-4o識別出了5個共識主題，其中包括"內在家庭系統（IFS）整合"這個在5次分析中都出現的高一致性主題。這位"中年偵探"特別善于發現治療師如何將藝術作為主要工具，幫助來訪者識別、外化并建立與內在"部分"的關系。

Claude識別出了4個共識主題，其中"藝術與迷幻治療整合"這個主題在所有6次分析中都出現，達到了100%的一致性。這表明這位"年輕偵探"雖然在某些分析中可能有獨特見解，但在核心問題的把握上非常準確。

更有意思的是，研究團隊還進行了跨模型驗證。他們發現，即使不同的AI用不同的詞匯表達，但很多主題在本質上是相同的。比如，"內在家庭系統整合"這個主題在Gemini的分析中出現概率為50%，在GPT-4o中為83%，在Claude中為66%，雖然表述略有不同，但通過語義相似度分析，發現它們的相似度達到了0.88。這就像三個偵探用不同的專業術語描述同一個犯罪手法，雖然用詞不同，但指向的是同一個事實。

四、框架設計的技術突破：讓AI分析變得既靈活又可靠

這項研究最令人印象深刻的技術創新之一是它的"結構無關"設計。傳統的AI分析工具就像只能讀特定格式案卷的老式檔案系統，必須按照預設的模板才能工作。但這個新框架就像一個能夠處理任何格式文檔的智能助手，無論研究人員想要什么樣的輸出格式，它都能適應。

這種靈活性的實現依賴于一個叫做"動態模式檢測"的技術。簡單來說，這個系統能夠自動識別AI輸出中的主題結構，無論這些主題是以什么形式組織的。就像一個經驗豐富的圖書管理員，能夠從任何格式的報告中提取出核心信息并進行分類整理。

研究團隊還解決了一個困擾AI應用的實際問題：AI經常以不規范的格式返回結果。比如，有時AI會把JSON數據包裝在代碼塊中，有時會在后面添加解釋性文字，有時格式會有微小的錯誤。這就像一個總是不按標準格式寫報告的偵探，雖然內容有價值，但格式混亂。

為了解決這個問題，研究團隊開發了一個多階段解析系統。這個系統就像一個既懂技術又有耐心的秘書，能夠理解各種非標準格式，自動清理和規范化AI的輸出。通過正則表達式過濾、JSON驗證、指數退避重試等技術，這個系統在三個不同的AI模型上都達到了98%以上的成功解析率。

另一個重要創新是"種子參數管理"系統。在AI領域，"種子"就像是決定隨機數序列的起始點，不同的種子會導致不同的分析路徑。研究團隊設計了一個動態種子管理界面，讓研究人員可以靈活地增減種子數量（從1個到6個），每個種子對應一次獨立的分析。

這種設計的巧妙之處在于，它既保證了分析的可重復性（相同的種子總是產生相同的結果），又引入了必要的變異性（不同的種子產生不同的分析路徑）。就像讓一個偵探用6種不同但可預測的方法來分析案件，每種方法都是可重現的，但又能從不同角度揭示問題。

溫度參數的可調節性也是一個重要特性。研究人員可以根據研究目標調整AI的"創造性水平"：當需要嚴格、一致的分析時，可以將溫度設置得較低；當希望探索性地發現新主題時，可以適當提高溫度。這就像給偵探調節思維模式的旋鈕，讓他們在嚴謹分析和創新思考之間找到最適合當前任務的平衡點。

五、實際應用案例：心理治療訪談的深度解析

為了驗證框架的實際效果，研究團隊選擇了一個具有挑戰性的測試案例：一份關于藝術治療與氯胺酮輔助心理治療結合的深度訪談。這份訪談材料具有典型定性研究數據的復雜特征：多個主題維度交織、情感和臨床內容并存、隱含的治療知識需要挖掘，以及需要細致的語境解讀。

訪談中涉及的內容非常豐富，包括治療師的方法論、來訪者的體驗、理論框架的應用，以及對該領域未來發展的展望。這就像一個包含多條線索、涉及多個人物、跨越不同時間段的復雜案件，需要偵探具備高度的專業技能和綜合分析能力。

在這個案例中，Gemini的分析顯示出了它在處理復雜情感內容方面的優勢。它識別出的"克服創作障礙"主題揭示了一個深刻的治療模式：來訪者通過氯胺酮治療能夠暫時放下內心的批評聲音，在這種相對自由的狀態下進行藝術創作，從而重新發現創造力的本源。這種洞察需要對心理治療過程有深入的理解，不是簡單的關鍵詞匹配就能發現的。

GPT-4o在分析中特別擅長識別理論框架的應用。它準確識別出治療師大量使用了"內在家庭系統"（IFS）理論，并且發現藝術創作在這個理論框架中扮演的獨特角色。治療師用藝術作為工具幫助來訪者外化和可視化他們的內在"部分"，這種方法論層面的發現對于理解治療師的專業實踐非常重要。

Claude則展現出了對治療關系動態的敏感性。它發現了治療師如何在提供藝術治療時保持"邀請性"而非"強制性"的態度，尊重來訪者的意愿和準備程度。這種細微的治療態度往往隱含在具體的表述中，需要較高的語言理解能力才能捕捉到。

更令人驚訝的是，通過跨模型對比分析，研究團隊發現了一些只有在多角度分析下才能顯現的深層模式。比如，"創造性解放"這個主題在GPT-4o和Claude的分析中都出現了，但在Gemini的共識主題中沒有達到閾值。進一步分析發現，這個主題的語義相似度在不同模型間達到了0.88，說明它確實是一個有效的主題，只是表述方式略有不同。

這種發現過程就像三個偵探從不同角度調查同一個案件，每個人都注意到了一些其他人可能忽略的細節，但當把所有發現綜合起來時，案件的全貌就變得更加清晰和完整。

六、可靠性指標的深度解讀：數字背后的真實含義

理解這項研究的價值，需要深入了解那些看起來抽象的數字指標實際上代表什么。科恩卡帕系數可能聽起來很技術化，但它其實衡量的是一個非常直觀的概念：如果我們排除掉純粹的巧合因素，不同的分析者在多大程度上真正達成了一致。

當研究團隊說Gemini的卡帕系數達到0.907時，這意味著什么呢？可以這樣理解：如果滿分是完全一致（1.0），完全隨機是零分（0.0），那么Gemini的表現相當于在一個滿分100分的考試中得了90.7分。在學術界，超過80分就被認為是"近乎完美"的水平，而傳統的人工編碼研究能達到60-70分就已經很不錯了。

更重要的是，這個高分不是偶然得到的。研究團隊進行了15次兩兩比較（6次分析中任意兩次的比較），每次比較都產生了很高的一致性分數。這就像一個學生不是只考了一次高分，而是連續15次考試都維持在90分以上的水平，這種穩定性本身就說明了能力的真實性。

語義相似度的95.3%意味著，即使Gemini在不同分析中使用了不同的詞匯和表述方式，但從語義理解的角度來看，這些表述幾乎是完全等價的。這就像一個翻譯在用不同的句式翻譯同一篇文章時，雖然用詞有差異，但傳達的意思幾乎完全相同。

卡帕系數的變化范圍也很重要。Gemini的0.232變化范圍意味著它在最差的一次比較和最好的一次比較之間，差距相對較小。這就像一個穩定發揮的運動員，雖然不是每次都能創造最佳成績，但成績波動很小，可以信賴。相比之下，Claude的0.396變化范圍雖然仍在可接受范圍內，但表明它偶爾會產生一些不那么一致的分析結果。

研究團隊還發現了一個有趣的現象：語義相似度和卡帕系數之間的高度相關性（r=0.97）。這個發現很重要，因為它證明了兩種不同的可靠性測量方法實際上在衡量同一個基本特質。這就像用兩種不同的體溫計測量同一個人的體溫，如果兩個讀數高度一致，就說明測量是準確的。

七、與傳統方法的全面比較：AI分析的真正優勢

要真正理解這項研究的價值，我們需要將它與傳統的定性研究方法進行全面比較。傳統的主題分析就像是手工制作的精品，需要大量的時間、專業技能和人力投入。通常情況下，一個典型的定性研究項目需要2-3名訓練有素的研究人員獨立編碼相同的數據，然后通過反復討論來解決分歧，整個過程可能需要幾周甚至幾個月的時間。

更重要的是，傳統方法的可靠性往往令人擔憂。即使是經驗豐富的研究人員，在獨立分析同一份材料時，能達到0.60-0.80的一致性就已經被認為是"基本可接受"到"良好"的水平。而這項研究中的AI分析都超過了0.84，達到了傳統方法很難企及的"近乎完美"水平。

成本效益的差異也很顯著。傳統的人工編碼，按照市場價格計算，分析20份文檔大約需要400-800美元的人力成本。而使用這個AI框架，相同的工作量只需要3-6美元的API調用費用。這不僅僅是成本的降低，更重要的是可及性的提升：現在那些預算有限的研究團隊也能進行高質量的定性分析。

時間效率的提升更加驚人。傳統方法可能需要幾周時間的工作，AI可以在幾個小時內完成。但這種速度提升并不意味著質量的犧牲，反而由于多輪分析和系統性驗證，可能比單次的人工分析更加可靠。

然而，研究團隊也坦誠地指出了AI方法的局限性。AI無法進行反思性思考，無法整合復雜的理論框架，也無法做出倫理判斷。這就像AI是一個技術精湛但缺乏人生閱歷的年輕助手，能夠快速準確地處理數據，但需要經驗豐富的研究人員來指導和解釋結果。

研究團隊提出的解決方案是"人機協作"模式。AI負責快速、系統地識別數據中的模式和主題，人類研究人員則負責解釋這些發現的含義、整合理論框架、考慮倫理因素。這種分工就像讓計算機負責快速計算，讓人類負責創造性思考，各自發揮最大優勢。

八、技術實現的創新突破：讓復雜變簡單

這項研究的技術實現展現了研究團隊在軟件設計方面的巧妙思考。他們選擇了完全客戶端的處理方式，這意味著所有的數據預處理、嵌入計算和共識提取都在用戶的瀏覽器中完成，原始數據永遠不會離開研究人員的設備，直到主動啟動分析。

這種設計就像一個完全在你家中工作的私人助手，所有敏感信息都不會泄露到外部。對于處理包含個人隱私或敏感信息的研究數據來說，這種隱私保護設計是至關重要的。

為了處理AI經常產生的格式不規范問題，研究團隊開發了一個多階段的"智能解析器"。這個解析器就像一個既有技術頭腦又很有耐心的助手，能夠理解AI的各種"方言"和格式習慣，然后將其轉換為標準格式。

具體來說，這個解析器首先會嘗試去除AI輸出中常見的代碼塊標記，然后嘗試解析JSON數據。如果失敗，它會嘗試從文本中提取有用的部分，如果還是失敗，它會等待一段時間后重試，總共嘗試3次。這種"有韌性"的設計確保了即使AI偶爾產生格式問題，整個分析流程也能繼續進行。

嵌入計算是另一個技術亮點。研究團隊使用了Transformers.js庫在瀏覽器中直接運行語言模型，生成384維的語義向量。這就像給每個主題描述分配一個獨特的"語義指紋"，即使兩個描述用詞完全不同，只要意思相近，它們的指紋就會很相似。

為了防止大量的嵌入計算導致瀏覽器卡頓，研究團隊實施了多項優化措施：限制每次分析的主題數量、對大量主題使用采樣技術、通過setTimeout機制定期釋放CPU控制權給用戶界面。這些優化確保了即使在處理復雜數據時，用戶界面也能保持響應。

九、研究局限性與未來發展方向

盡管這項研究取得了令人矚目的成果，研究團隊也坦誠地指出了當前工作的局限性。最主要的限制是單一數據集驗證。雖然他們選擇的心理治療訪談具有一定的復雜性和代表性，但要建立AI定性分析的普遍有效性，還需要在更多類型的數據上進行驗證。

這就像一個新的醫療診斷方法，雖然在某種疾病上表現很好，但要被廣泛接受，還需要在不同類型的疾病、不同的患者群體中進行驗證。研究團隊建議未來的工作應該涵蓋臨床訪談、教育焦點小組、組織研究等不同領域，以及不同語言和文化背景的數據。

文化和語言偏見是另一個需要關注的問題。當前的AI模型主要在英語和西方文化語境的數據上訓練，可能在處理其他文化背景的材料時存在理解偏差。這就像一個只熟悉本地文化的偵探，在處理外國案件時可能會誤解一些重要的文化細節。

提示工程的依賴性也是一個挑戰。AI分析的質量很大程度上取決于研究人員如何設計分析指令。雖然研究團隊的框架支持靈活的提示定制，但這要求研究人員具備一定的AI交互技能。這就像使用一個功能強大但需要專業知識才能充分發揮作用的工具。

研究團隊提出了幾個重要的未來發展方向。首先是大規模驗證研究，系統地評估框架在不同領域、不同類型數據上的表現，建立可靠性基準和邊界條件。其次是人機對比研究，直接比較AI分析結果與專業人類編碼員的結果，量化AI方法的優勢和不足。

另一個有趣的發展方向是自適應運行配置。研究團隊正在考慮實施"主題飽和度"檢測，自動判斷何時已經獲得了足夠的分析輪次。就像讓AI自己判斷什么時候已經"破案"，不需要繼續收集更多證據了。

跨模型集成也是一個令人期待的方向。研究顯示不同AI模型在某些方面各有優勢，未來可能通過同時使用多個模型并整合它們的發現，獲得比單一模型更可靠和全面的分析結果。

十、對學術研究的深遠影響

這項研究的意義遠遠超出了技術驗證本身，它可能從根本上改變定性研究的實踐方式。傳統上，高質量的定性研究是一種相對昂貴和時間密集的研究方法，往往只有資源充足的研究機構才能定期開展。這種AI輔助的方法可能會大大降低定性研究的門檻，讓更多的研究者能夠進行高質量的定性分析。

這種變化的社會意義是深遠的。在醫療、教育、社會服務等領域，很多重要的問題都需要通過定性研究來理解。比如，了解患者對新治療方法的真實體驗，探索學生學習困難的深層原因，分析社區服務項目的實際效果等。如果這些研究變得更容易、更快速、更經濟，我們就能夠更及時地發現問題、改進服務。

對于研究方法學來說，這項工作也提出了一些重要的理論問題。傳統的可靠性概念主要建立在人類編碼者之間的一致性基礎上，但當AI能夠達到比人類更高的內部一致性時，我們需要重新思考什么是"真正的"可靠性。是否AI的高一致性就意味著更好的分析質量？還是說人類的某些"不一致"實際上反映了對復雜現象的更深層理解？

研究團隊的雙重驗證方法——結合統計一致性和語義相似性——為這個問題提供了一個有趣的解決方案。通過同時關注形式上的一致性和意義上的等價性，他們建立了一個更全面的可靠性評估框架。

這項研究還可能影響學術出版和同行評議的標準。如果AI輔助的定性分析變得普遍，期刊編輯和審稿人可能需要新的標準來評估這類研究的質量。研究報告中是否應該包含AI分析的參數設置？如何報告多輪分析的結果？這些都是需要學術共同體討論和建立共識的問題。

說到底，這項研究代表了人工智能在人文社科研究中應用的一個重要里程碑。它不是要用機器替代人類的洞察力和創造力，而是要為研究人員提供一個更強大、更可靠的分析工具，讓他們能夠將更多精力投入到解釋發現、構建理論、指導實踐等真正需要人類智慧的工作中。

當我們回顧這項研究時，可能會發現它標志著定性研究進入了一個新的時代——一個人機協作、效率與洞察并重的時代。在這個時代里，技術不是研究的主角，而是幫助我們更好地理解人類經驗和社會現象的強有力工具。對于任何關心如何通過科學方法改善人類生活的人來說，這都是一個值得關注的發展。

Q&A

Q1：這個AI定性分析框架的可靠性到底有多高？

A：研究顯示三個AI模型都達到了"近乎完美"的可靠性水平。Gemini 2.5 Pro的科恩卡帕系數達到0.907，語義相似度95.3%；GPT-4o為0.853和92.6%；Claude為0.842和92.1%。這些指標都超過了學術界認定的"優秀"標準（0.80以上），甚至比傳統人工編碼的可靠性還要高。

Q2：使用這個AI分析框架會不會很貴？

A：成本非常低。研究團隊對比發現，傳統人工編碼分析20份文檔需要400-800美元，而使用AI框架只需要3-6美元的API調用費。時間上也大大縮短，原本需要幾周的工作現在幾小時就能完成，這讓預算有限的研究團隊也能進行高質量的定性分析。

Q3：AI分析會完全取代人工定性研究嗎？

A：不會完全取代。AI無法進行反思性思考、整合復雜理論框架或做倫理判斷。研究團隊提出的是"人機協作"模式：AI負責快速識別數據模式和主題，人類研究人員負責解釋含義、整合理論、考慮倫理因素。這樣既發揮了AI的效率優勢，又保留了人類的創造性洞察。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.