作為生命活動(dòng)的核心元素,RNA具有復(fù)雜的三維結(jié)構(gòu)與動(dòng)態(tài)性特征,直接調(diào)控著基因表達(dá)、病毒復(fù)制等關(guān)鍵生物過(guò)程,然而RNA結(jié)構(gòu)研究長(zhǎng)期存在技術(shù)瓶頸成為科學(xué)界的一大難題。
3月14日,復(fù)旦大學(xué)與四川大學(xué)華西醫(yī)院團(tuán)隊(duì)的合作研究成果以“Cryo-EM reveals mechanismsof natural RNA multivalency”為題發(fā)表在《科學(xué)》(Science)雜志上,作為復(fù)旦AI4S(AI for Science)的又一碩果,該研究創(chuàng)新性地將深度學(xué)習(xí)技術(shù)與冷凍電鏡技術(shù)相結(jié)合,為RNA生物學(xué)研究開(kāi)辟了全新的技術(shù)路徑,不僅顯著提升RNA結(jié)構(gòu)解析的效率,更為新藥研發(fā)提供了重要技術(shù)支撐和理論指導(dǎo)。
突破RNA結(jié)構(gòu)研究的“盲盒”困境
傳統(tǒng)的RNA結(jié)構(gòu)解析方法面臨實(shí)驗(yàn)成本高昂、預(yù)測(cè)精度不足等難題。冷凍電鏡雖然能夠解析高分辨率結(jié)構(gòu),但要篩選出能夠形成穩(wěn)定構(gòu)象的RNA序列,仍然需要耗費(fèi)大量資源。此外,現(xiàn)有算法還依賴于Rfam數(shù)據(jù)庫(kù)等二級(jí)結(jié)構(gòu)信息。
“RNA有很多家族,此前在解析RNA結(jié)構(gòu)時(shí),科研人員往往不確定應(yīng)該選擇哪些序列進(jìn)行解析?!睆?fù)旦大學(xué)智能復(fù)雜體系實(shí)驗(yàn)室研究員、文章共同通訊作者孫思琦解釋道,“這就像開(kāi)‘盲盒’,我們只能猜測(cè)哪些家族的序列可能具有穩(wěn)定的結(jié)構(gòu)?!?/p>
面對(duì)這一困境,團(tuán)隊(duì)決定引入人工智能技術(shù)。孫思琦本科畢業(yè)于復(fù)旦大學(xué)數(shù)學(xué)科學(xué)學(xué)院,博士期間在美國(guó)攻讀計(jì)算機(jī)專業(yè),研究方向?yàn)橛?jì)算生物學(xué),畢業(yè)后在美國(guó)微軟研究院開(kāi)展大語(yǔ)言模型相關(guān)的研究?;貒?guó)后,他和團(tuán)隊(duì)開(kāi)始嘗試用AI大模型解決生物問(wèn)題,RNA結(jié)構(gòu)研究是他們持續(xù)關(guān)注的方向之一。復(fù)旦大學(xué)智能復(fù)雜體系實(shí)驗(yàn)室博士生吳浩、許晟為本文共同第一作者。
孫思琦團(tuán)隊(duì)與合作團(tuán)隊(duì)共同突破三大技術(shù):提出高速高靈敏度的蛋白質(zhì)同源物檢測(cè)方法,實(shí)現(xiàn)遠(yuǎn)程同源物的快速識(shí)別;開(kāi)發(fā)高精度端到端RNA三維結(jié)構(gòu)預(yù)測(cè)方法,建立全鏈條結(jié)構(gòu)解析框架;設(shè)計(jì)基于非自回歸神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)譜快速解析算法,攻克質(zhì)譜數(shù)據(jù)高效解碼難題。通過(guò)融合大語(yǔ)言模型與對(duì)比學(xué)習(xí)技術(shù),該系列成果在蛋白質(zhì)檢測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)測(cè)序等方向同步提升AI算法的速度與精度。相關(guān)研究成果于近期發(fā)表于《自然》(Nature)子刊,為本工作奠定了基礎(chǔ)。
在這項(xiàng)最新研究中,復(fù)旦大學(xué)與華西醫(yī)院團(tuán)隊(duì)緊密合作。復(fù)旦大學(xué)團(tuán)隊(duì)負(fù)責(zé)AI算法的開(kāi)發(fā),而四川大學(xué)華西醫(yī)院則負(fù)責(zé)使用冷凍電鏡對(duì)RNA結(jié)構(gòu)進(jìn)行解析。
“通過(guò)將AI與實(shí)驗(yàn)相結(jié)合,我們可以精確預(yù)測(cè)出哪些RNA序列具有穩(wěn)定的結(jié)構(gòu)?!睂O思琦表示?;贏I的分析結(jié)果,實(shí)驗(yàn)人員在解析這些結(jié)構(gòu)時(shí),只需關(guān)注那些被推薦的序列,科研效率得到了大幅提升。
自主研發(fā)RNA序列大模型
此前,在RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,傳統(tǒng)AI方法往往局限于已知結(jié)構(gòu)的簡(jiǎn)單解析。聯(lián)合團(tuán)隊(duì)創(chuàng)新性地將深度學(xué)習(xí)與冷凍電鏡結(jié)合,研發(fā)出CRAFTS智能篩選系統(tǒng),實(shí)現(xiàn)對(duì)多聚體RNA復(fù)雜構(gòu)象的高效預(yù)測(cè),為解析動(dòng)態(tài)RNA結(jié)構(gòu)提供了“AI導(dǎo)航儀”。
團(tuán)隊(duì)研發(fā)的CRAFTS模型(Contrastive RNA learning For sTructure Screening),利用深度學(xué)習(xí)技術(shù),能夠從海量RNA序列中挖掘潛在的折疊規(guī)律,為冷凍電鏡實(shí)驗(yàn)提供精準(zhǔn)的篩選工具,從而顯著提高效率并降低實(shí)驗(yàn)成本。
圖2:CRAFTS的性能評(píng)估,分析RNA家族結(jié)構(gòu)特征。A. 對(duì)比學(xué)習(xí)用于確定輸入對(duì)是否屬于同一RNA家族。 B. 微調(diào)模型以從每個(gè)RNA家族的序列中提取結(jié)構(gòu)特征。 C基準(zhǔn)數(shù)據(jù)性能表現(xiàn):平均ROC曲線及標(biāo)準(zhǔn)差(基于5折交叉驗(yàn)證)。D. 對(duì)5S rRNA、I類內(nèi)含子、CP II類內(nèi)含子等家族分析。通過(guò)實(shí)驗(yàn)結(jié)構(gòu)測(cè)定驗(yàn)證的序列以橙色標(biāo)注。
在技術(shù)架構(gòu)和創(chuàng)新應(yīng)用上,CRAFTS模型展現(xiàn)了顯著的突破性進(jìn)展。基于RNAcentral、NCBI等權(quán)威數(shù)據(jù)庫(kù)的10億多條非冗余RNA序列,模型通過(guò)自監(jiān)督學(xué)習(xí)提取RNA序列的語(yǔ)義特征,生成深度表征。
基于該模型,團(tuán)隊(duì)構(gòu)建了超過(guò)900萬(wàn)對(duì)RNA序列,最大化同一RNA家族內(nèi)序列的相似性,最小化不同RNA家族序列之間的相似性,從而精準(zhǔn)提取家族特異的結(jié)構(gòu)特征。
團(tuán)隊(duì)利用Rfam數(shù)據(jù)庫(kù)中4038個(gè)RNA家族的數(shù)據(jù)進(jìn)行訓(xùn)練,整合了未解析的RNA種子序列作為偽負(fù)類,顯著擴(kuò)展了訓(xùn)練數(shù)據(jù)的范圍。這種數(shù)據(jù)增強(qiáng)策略大幅提升了模型的泛化能力,尤其是在數(shù)據(jù)稀缺的場(chǎng)景下,模型表現(xiàn)尤為突出。在僅有364個(gè)正樣本的訓(xùn)練集中,CRAFTS通過(guò)5折交叉驗(yàn)證展現(xiàn)了高魯棒性,測(cè)試結(jié)果的標(biāo)準(zhǔn)差低于0.03。
圖3:冷凍電鏡結(jié)構(gòu)。A. ARRPOF 二聚體雙構(gòu)象冷凍電鏡結(jié)構(gòu)。B. OLE 二聚體冷凍電鏡結(jié)構(gòu)。C. ROOL 六聚體和八聚體冷凍電鏡結(jié)構(gòu)。D. GOLLD 十二聚體冷凍電鏡結(jié)構(gòu)。
實(shí)際應(yīng)用中,CRAFTS模型不僅在經(jīng)典RNA家族(如5S rRNA、I型內(nèi)含子和II型內(nèi)含子)中表現(xiàn)優(yōu)異,還成功應(yīng)用于ARRPOF、OLE、ROOL和GOLLD等新RNA家族的結(jié)構(gòu)篩選。
CRAFTS模型與冷凍電鏡技術(shù)的深度協(xié)同,成功突破了RNA結(jié)構(gòu)篩選中的“盲盒”困境,為RNA結(jié)構(gòu)生物學(xué)研究提供了全新的工具。這一研究成果不僅提升了RNA三級(jí)結(jié)構(gòu)解析的效率,還為探索RNA多態(tài)性在生命活動(dòng)中的潛在功能開(kāi)辟了新的可能性。
“RNA的結(jié)構(gòu)預(yù)測(cè),其實(shí)還遠(yuǎn)遠(yuǎn)沒(méi)有被完全解決。”孫思琦表示,通過(guò)進(jìn)一步優(yōu)化模型,可以提升其在不同RNA家族中的預(yù)測(cè)能力?!澳壳癛NA相關(guān)的高質(zhì)量數(shù)據(jù)非常有限,AI賦能的科研方法將在未來(lái)發(fā)揮更大的優(yōu)勢(shì)?!?/p>
基于RNA結(jié)構(gòu)分析和篩選,科研人員能夠更有效地判斷哪些分子可以與RNA結(jié)合,從而加速RNA小分子藥物的研發(fā)。這一突破不僅顯著提升了RNA結(jié)構(gòu)解析的精度和效率,更為新藥研發(fā)提供了重要的技術(shù)支撐和理論指導(dǎo)。
① 凡本站注明“稿件來(lái)源:中國(guó)教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個(gè)人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時(shí)必須注明“稿件來(lái)源:中國(guó)教育在線”,違者本站將依法追究責(zé)任。
② 本站注明稿件來(lái)源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如轉(zhuǎn)載稿涉及版權(quán)等問(wèn)題,請(qǐng)作者在兩周內(nèi)速來(lái)電或來(lái)函聯(lián)系。