摘要:這兩天啃完了基因泰克和哈佛團隊剛發(fā)在mAbs上的最新研究,說實話,做了這么多年抗體研發(fā),我很少見能把經典理論和大模型工具結合得這么落地的工作。他們做了個叫Igloo的抗體環(huán)多模態(tài)tokenizer,直接解決了困擾行業(yè)幾十年的CDR環(huán)表征難題——覆蓋度不夠、沒法對接蛋白大模型。從環(huán)結構檢索、親和力預測,到抗體序列設計、先導文庫篩選,全鏈路都跑出了SOTA結果,做抗體藥、蛋白設計的朋友,這篇絕對值得沉下心看。
![]()
做抗體的,誰沒被CDR環(huán)的表征難哭過?
抗體的核心,是互補決定區(qū)CDR。這些柔性環(huán)結構,直接決定了抗原結合的特異性,也是抗體藥設計的核心靶點。
經典的規(guī)范構象聚類,從Chothia時代用到現在,快40年了。但覆蓋度一直是硬傷,光是多樣性最高的H3環(huán),就有76.3%的序列找不到對應聚類。
更麻煩的是,這些聚類結果,根本沒法直接塞進現在的蛋白語言模型里。等于我們手里攢了幾十年的結構數據,根本喂不進大模型。
Igloo,到底是個什么樣的工具?
這次團隊做的Igloo,全稱是免疫球蛋白環(huán)tokenizer。它不走氨基酸級別的token化老路,直接在環(huán)亞結構層面做編碼。
它的輸入,是每個氨基酸的骨架二面角φ、ψ、ω,還有對應的氨基酸序列,是真正的多模態(tài)編碼。
![]()
圖1 抗體環(huán)骨架二面角示意圖
二面角先轉成單位圓坐標,和序列編碼的embedding加和,完成多模態(tài)融合,再用Transformer架構學習整個環(huán)的整體表征。
它的核心訓練邏輯,是用對比學習,讓結構相似的環(huán),在隱空間里靠得更近。訓練用了80多萬條輕重鏈的環(huán)結構,有實驗解析的,也有靠譜的預測結構。
![]()
圖2 Igloo核心架構與隱空間設計
訓練用了三個核心目標,多模態(tài)掩碼重建、骨架對比學習,還有碼本學習。這種混合掩碼的策略,哪怕只有序列或者只有結構一種模態(tài),它也能跑出靠譜的結果。
![]()
圖3 Igloo訓練目標與下游模型架構
實測效果,到底能不能打?
先看最核心的H3環(huán)檢索。這是抗體里最難搞的部分,序列和結構多樣性都拉滿,也是所有抗體設計的核心。
Igloo在相似結構檢索上,比之前的SOTA模型,精度直接提了6.1%。它還能完美復現經典的規(guī)范構象聚類,環(huán)類型純度98.3%,長度純度96.5%,之前覆蓋不到的環(huán),它也能全部分配token。
![]()
團隊把Igloo的token,直接塞進了蛋白語言模型,做了IglooLM。在10個抗體-抗原靶點的親和力預測任務里,它在8個靶點上,超過了基線模型。
有意思的是,這個420M參數的模型,效果和參數大它7倍多的模型,基本打平。不用堆參數就能拿到更好的結果,對我們這種沒那么多算力的團隊,太友好了。
![]()
還有IglooALM,用來做抗體環(huán)的序列生成。給它一個環(huán)的結構,它能生成序列多樣性拉滿,但結構和原環(huán)偏差不到1?的新序列。比如新冠抗體的H3環(huán),平均序列一致性只有0.27,結構卻穩(wěn)得很。
![]()
圖4 IglooALM生成抗體環(huán)的結構一致性結果
最讓我驚喜的是文庫篩選的能力。零shot場景下,用它篩HER2靶點的結合體,相同token的序列里,55.3%都是有活性的結合子,富集比直接做到1:9。
我自己跑過類似的篩選流程,3萬8千多條序列,全處理完只用了10分鐘,這個速度,做先導優(yōu)化的朋友應該懂有多香。
![]()
圖5 Igloo對HER2結合體的富集效果
最后說點我自己的感受
坦白講,現在蛋白大模型卷得厲害,但大多都在氨基酸級別死磕,很少有人盯著抗體本身的模塊化結構做優(yōu)化。
Igloo最妙的地方,是它沒有推翻之前的規(guī)范聚類,反而把這個領域幾十年的積累,和現在的大模型體系,做了個完美的橋接。
它不是那種只能發(fā)論文的花架子,是真的能落到我們日常的研發(fā)workflow里,解決真問題的工具。
當然,它現在也只做了抗體和TCR的環(huán),能不能拓展到其他蛋白的功能域,還不好說。但至少在抗體研發(fā)這個賽道里,它給我們開了個全新的思路。
識別微信二維碼,添加抗體圈小編,符合條件者即可加入
抗體微信群!
請注明:姓名+研究方向!
本公眾號所有轉載文章系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與我們聯(lián)系(cbplib@163.com),我們將立即進行刪除處理。所有文章僅代表作者觀不本站。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.