![]()
通過研究癌癥患者細胞中的基因表達,臨床生物學家能夠了解癌癥的起源并預測不同治療方法的成功率。但細胞結構復雜,包含多個層次,生物學家進行測量的方式會影響他們能獲得的數據類型。例如,測量細胞中的蛋白質可能會產生與測量基因表達或細胞形態學不同的癌癥影響信息。
信息在細胞中的來源位置至關重要。但為了捕獲細胞狀態的完整信息,科學家往往必須使用不同技術進行多次測量,并逐一分析。機器學習方法可以加速這一過程,但現有方法將每種測量模式的所有信息混合在一起,使得難以確定哪些數據來自細胞的哪個部分。
為解決這一問題,麻省理工學院與哈佛大學布羅德研究所以及蘇黎世聯邦理工學院/保羅謝勒研究所的研究人員開發了一個基于人工智能的框架,該框架能夠學習哪些關于細胞狀態的信息在不同測量模式之間共享,哪些信息是特定測量類型獨有的。
通過精確定位哪些信息來自哪些細胞部位,這種方法提供了細胞狀態的更全面視圖,使生物學家更容易看到細胞相互作用的完整圖景。這可以幫助科學家理解疾病機制,跟蹤癌癥、阿爾茨海默病等神經退行性疾病以及糖尿病等代謝疾病的進展。
論文第一作者、前麻省理工學院電氣工程與計算機科學系研究生、現任奧地利維也納AITHYRA集團負責人張心怡表示:"當我們研究細胞時,一種測量方法往往是不夠的,因此科學家開發新技術來測量細胞的不同方面。雖然我們有很多觀察細胞的方法,但歸根結底我們只有一個潛在的細胞狀態。通過以更智能的方式整合所有這些測量模式的信息,我們可以更全面地了解細胞的狀態。"
該研究的合作者還包括蘇黎世聯邦理工學院健康科學與技術系教授、保羅謝勒研究所多尺度生物成像實驗室負責人希瓦香卡,以及論文通訊作者、麻省理工學院電氣工程與計算機科學系和數據、系統與社會研究所教授烏勒。該研究成果發表在《自然計算科學》期刊上。
處理多重測量
科學家可以使用許多工具來捕獲細胞狀態信息。例如,他們可以測量RNA來觀察細胞是否在生長,或者測量染色質形態來了解細胞是否在應對外部物理或化學信號。
希瓦香卡說:"當科學家進行多模態分析時,他們使用多種測量模式收集信息并將其整合,以更好地理解細胞的潛在狀態。有些信息只被一種模式捕獲,而其他信息則在多種模式間共享。要完全理解細胞內部發生的情況,重要的是要知道信息來自哪里。"
通常情況下,科學家解決這個問題的唯一方法是進行多個單獨實驗并比較結果。這種緩慢而繁瑣的過程限制了他們能收集的信息量。
在這項新研究中,研究人員構建了一個機器學習框架,專門理解哪些信息在不同模式之間重疊,哪些信息是特定模式獨有但未被其他模式捕獲的。
張心怡說:"作為用戶,你只需輸入細胞數據,它就會自動告訴你哪些數據是共享的,哪些數據是模式特定的。"
為了構建這個框架,研究人員重新思考了機器學習模型捕獲和解釋多模態細胞測量的典型設計方式。
通常這些被稱為自編碼器的方法,為每種測量模式設置一個模型,每個模型為該模式捕獲的數據編碼單獨的表示。這種表示是輸入數據的壓縮版本,丟棄任何不相關的細節。
麻省理工學院的方法有一個共享表示空間,其中編碼多種模式間重疊的數據,以及單獨的空間,其中編碼每種模式的獨特數據。
本質上,可以將其視為細胞數據的維恩圖。
研究人員還使用了特殊的兩步訓練程序,幫助他們的模型處理決定哪些數據在多種數據模式間共享所涉及的復雜性。訓練后,當輸入從未見過的細胞數據時,模型可以識別哪些數據是共享的,哪些是獨特的。
區分數據
在合成數據集的測試中,該框架正確捕獲了已知的共享和模式特定信息。當他們將方法應用于真實世界的單細胞數據集時,它全面且自動地區分了兩種測量模式(如轉錄組學和染色質可及性)共同捕獲的基因活性,同時也正確識別了僅來自其中一種模式的信息。
此外,研究人員使用他們的方法識別了哪種測量模式捕獲了表明癌癥患者DNA損傷的特定蛋白標記。了解這些信息的來源將幫助臨床科學家確定應該使用哪種技術來測量該標記。
烏勒說:"細胞中有太多模式,我們不可能全部測量,所以我們需要預測工具。但問題是:我們應該測量哪些模式,應該預測哪些模式?我們的方法可以回答這個問題。"
未來,研究人員希望使模型能夠提供關于細胞狀態的更多可解釋信息。他們還希望進行額外實驗,確保模型正確分離細胞信息,并將模型應用于更廣泛的臨床問題。
烏勒說:"僅僅整合所有這些模式的信息是不夠的。如果我們仔細比較不同模式以理解細胞的不同組分如何相互調節,我們可以學到很多關于細胞狀態的知識。"
這項研究部分由布羅德研究所埃里克和溫迪·施密特中心、瑞士國家科學基金會、美國國立衛生研究院、美國海軍研究辦公室、阿斯利康、麻省理工學院-IBM沃森AI實驗室、麻省理工學院機器學習與健康診所以及西蒙斯研究員獎資助。
Q&A
Q1:這個AI框架能解決細胞生物學研究中什么問題?
A:該框架主要解決多模態細胞測量數據整合的問題。現有方法將不同測量模式的信息混合在一起,難以確定哪些數據來自細胞的哪個部分。新框架能自動識別哪些信息在不同測量模式間共享,哪些是特定模式獨有的,為生物學家提供細胞狀態的更全面視圖。
Q2:這種方法如何幫助癌癥等疾病的研究?
A:通過精確定位信息來源,該方法能幫助臨床科學家確定應該使用哪種技術測量特定的疾病標記物,比如表明DNA損傷的蛋白標記。這有助于科學家理解疾病機制,跟蹤癌癥、阿爾茨海默病等神經退行性疾病以及糖尿病等代謝疾病的進展。
Q3:相比傳統方法,這個AI框架有什么優勢?
A:傳統方法需要進行多個單獨實驗并逐一比較結果,過程緩慢繁瑣。新框架使用特殊的兩步訓練程序和共享表示空間設計,用戶只需輸入細胞數據,就能自動區分共享數據和模式特定數據,大大提高了研究效率并能處理從未見過的細胞數據。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.