近日,谷歌旗下DeepMind團(tuán)隊一周之內(nèi)搞了兩件“大事情”。而華盛頓大學(xué)戴維·貝克團(tuán)隊的羅塞塔折疊(RosettaFold)也搭載阿爾法折疊(AlphaFold2)的便車風(fēng)光了一把。
這兩款智能程序相繼開源昭示著,智能程序正在開啟結(jié)構(gòu)生物學(xué)的新未來。
大事情
幾天前,DeepMind團(tuán)隊在《自然》發(fā)表文章,公布了第十四屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽(CASP14)中奪冠的AlphaFold2的源代碼。
同一天,華盛頓大學(xué)蛋白質(zhì)設(shè)計研究所戴維·貝克團(tuán)隊在《科學(xué)》刊文,推出一款名為 RosettaFold 的人工智能程序。該程序基于深度學(xué)習(xí),能根據(jù)有限的信息快速、準(zhǔn)確地預(yù)測出目標(biāo)蛋白質(zhì)的結(jié)構(gòu),“達(dá)到與 AlphaFold2 不相上下的準(zhǔn)確度”。
2020年5月至7月,在CASP14上,AlphaFold2以排名第一的準(zhǔn)確性轟動一時。一時間,AlphaFold 2“顛覆”“革命性突破”“諾獎級成果”等美譽(yù)加身。
很多結(jié)構(gòu)生物學(xué)家還未完全從AlphaFold2開源和RosettaFold誕生帶來的震撼中回過神來。7月22日,DeepMind團(tuán)隊和歐洲生物信息學(xué)研究所(EMBL-EBI)聯(lián)合在《自然》發(fā)表論文,公開AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(AlphaFold DB)。初始的AlphaFold DB涵蓋了屬于人類以及其他20個重要物種的大多數(shù)具有較大價值的蛋白質(zhì), 包含超過35萬個不同的蛋白結(jié)構(gòu),最終將增加到約1.3億個三維結(jié)構(gòu)。
“這會讓結(jié)構(gòu)生物學(xué)乃至整個生命科學(xué)上個大臺階。”清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心執(zhí)行主任王宏偉對《中國科學(xué)報》說,“原來大家要用很多實驗手段去解析單鏈蛋白質(zhì)的結(jié)構(gòu),現(xiàn)在由于高水平結(jié)構(gòu)預(yù)測軟件的出現(xiàn),對單鏈蛋白質(zhì)實驗解析的需求可能沒以前那么高了。但另一方面,對多個蛋白質(zhì)或核酸分子形成的復(fù)合體進(jìn)行結(jié)構(gòu)解析的迫切性會更強(qiáng),所以對冷凍電鏡的技術(shù)需求量會更大。”
王宏偉認(rèn)為,這兩款軟件的開源預(yù)示著結(jié)構(gòu)生物學(xué)進(jìn)入新時代,“未來結(jié)構(gòu)生物學(xué)的研究對象和研究方式上都會發(fā)生較大變化,這實際上是給整個結(jié)構(gòu)生物學(xué)領(lǐng)域的升級帶來了新的機(jī)會”。
“我們已經(jīng)買新電腦了。”北京大學(xué)生命科學(xué)學(xué)院教授孔道春告訴《中國科學(xué)報》。
這兩款軟件開源后,孔道春團(tuán)隊就迅速配備了顯卡更好的電腦。
“我已經(jīng)讓學(xué)生用起來了。”孔道春說,“利用傳統(tǒng)實驗方法解析蛋白結(jié)構(gòu)需要跨越諸多障礙,不僅耗時、費力,還不一定能解析出來。與核磁共振、X射線晶體或冷凍電鏡等類似,這些軟件是新的、革命性的工具,將極大推動人們對蛋白質(zhì)/酶的結(jié)構(gòu)和生化作用機(jī)理的理解,將對生命科學(xué)、醫(yī)藥研究起到極大推動作用,甚至?xí)蟠蠹铀偃祟愇拿鞯倪M(jìn)程。”
“本尊”和“復(fù)現(xiàn)者”
“這兩款軟件的基本原理都是利用神經(jīng)網(wǎng)絡(luò),依托現(xiàn)有的大數(shù)據(jù)進(jìn)行訓(xùn)練,當(dāng)然也包括很多專業(yè)的算法,把這幾方面整合到一起,應(yīng)該說是現(xiàn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測精確度最高的兩款軟件。”王宏偉說。
“兩個軟件各有所長,各有自己的特點。”中國科學(xué)院大學(xué)人工智能學(xué)院教授、中國科學(xué)院自動化研究所模式識別國家重點實驗室研究員楊戈對《中國科學(xué)報》說,“可以從三個方面對它們進(jìn)行比較。”
一是準(zhǔn)確度。兩者相較而言,AlphaFold2的準(zhǔn)確度更高。AlphaFold2預(yù)測蛋白質(zhì)結(jié)構(gòu)的精度已經(jīng)達(dá)到埃(長度單位,1埃相當(dāng)0.1納米)級,這是它的最大優(yōu)勢。
二是預(yù)測蛋白的復(fù)雜程度。這點RosettaFold略勝一籌。AlphaFold2只能預(yù)測單個蛋白質(zhì),即一個氨基酸鏈的蛋白,而RosettaFold可以預(yù)測蛋白質(zhì)復(fù)合體,即兩個乃至數(shù)個有相互作用的蛋白質(zhì)。
三是對計算資源的要求方面,AlphaFold2的要求較高。“AlphaFold2在模型訓(xùn)練階段對計算資源的要求一般計算中心才能滿足,普通的實驗室不大可能使用。”而RosettaFold的要求通常單個實驗室就能滿足,“具備稍好一些的計算機(jī)系統(tǒng)就可以‘跑’起來”。
清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心研究員龔海鵬介紹說,AlphaFold的第一版和RosettaFold之前的版本,包括其他團(tuán)隊的思路都差不多,比如,先預(yù)測氨基酸殘基之間的距離,通過一些圖像識別算法識別,然后再去折疊蛋白。
“那時候雖然大家的調(diào)參能力不同,但相互之間沒有本質(zhì)的區(qū)別。”龔海鵬說,“但AlphaFold2采用了全新的架構(gòu),從去年參加CASP14開始就嶄露頭角。”
2020年12月,AlphaFold2的主要研發(fā)者John Jumper作了一次報告,簡單介紹了一下他們的思路,但很多細(xì)節(jié)并沒有披露出來。
“因為AlphaFold2的準(zhǔn)確率非常高,當(dāng)時幾乎所有研究組都想知道他們是怎么做的,有很多人想去復(fù)現(xiàn)它。RosettaFold是過去幾個月里復(fù)現(xiàn)得比較快的,也是復(fù)現(xiàn)得最好的,他們根據(jù)AlphaFold2釋放出來的一些信息,相當(dāng)于做了一個簡化版本。”龔海鵬說,“很多研究組都進(jìn)行過測試,我覺得在預(yù)測精度和準(zhǔn)確程度上,RosettaFold離AlphaFold2還有一定的距離,其效果并沒有宣稱的那樣好。”
這兩款軟件開源完全版后,龔海鵬團(tuán)隊對比發(fā)現(xiàn),兩者主體思想雖然差不多,但還是能看出有較大的區(qū)別。“有很多細(xì)節(jié),AlphaFold2的設(shè)計更合理,因此它的效果也更好。”而現(xiàn)在一些自媒體和宣傳材料稱兩者功能相當(dāng),甚至RosettaFold的某些方面表現(xiàn)更好,配置要求更低,“這可能會有些誤導(dǎo)”。
“AlphaFold2對顯卡的要求并不是特別高,預(yù)測的時候,如果不是特別長的蛋白鏈,比如,預(yù)測幾百個殘基、上千個殘基, 1080Ti這樣的顯卡就能‘跑’了。但要預(yù)測2000多個殘基的蛋白鏈,就需要市面上最好的A100顯卡。”龔海鵬說,“在預(yù)測方面,RosettaFold并沒有太大優(yōu)勢,它在訓(xùn)練上要求的資源少一些。從雙方發(fā)表的文章來看,AlphaFold2在訓(xùn)練的時候,資源占用大概是RosettaFold的十幾倍,但模型訓(xùn)練好后,真正預(yù)測的時候兩者對資源的要求并沒有太大區(qū)別。”
堅持“搞事情”
軟件技術(shù)的進(jìn)步使蛋白質(zhì)結(jié)構(gòu)變得“唾手可得”,這將對結(jié)構(gòu)生物學(xué)的研究范式產(chǎn)生重大影響。
“預(yù)計會有一批實驗室轉(zhuǎn)換研究方向,不再做結(jié)構(gòu)預(yù)測的方法研究,轉(zhuǎn)而研究下游的一些問題,比如怎么用這個工具去做一些事情。但我們還會沿著這條路走下去。”龔海鵬說,“一是因為AlphaFold2的思路不是唯一的解法。二是受其他因素影響,國內(nèi)的研究團(tuán)隊不能隨時和谷歌合作,很難用上谷歌最新的模型,所以我們需要有一個自己的版本。”
“對這個領(lǐng)域來說, AlphaFold2可以說改變了不少人的理念。以前生物學(xué)家可能覺得人工智能只是一個好的工具,但現(xiàn)在,說它將對這個領(lǐng)域帶來革命性的影響一點都不過。”楊戈說。
2019年,在美國學(xué)習(xí)生活了20多年的楊戈回國,到中科院自動化所從事計算生物學(xué)方面的研究。回國后他發(fā)現(xiàn),國內(nèi)的生物技術(shù)研究、原創(chuàng)性制藥行業(yè)遠(yuǎn)遠(yuǎn)沒有發(fā)展起來,甚至有些學(xué)生認(rèn)為生物學(xué)是個避之不及的“天坑專業(yè)”。
“如果不能很好地抓住發(fā)展機(jī)會,計算生物學(xué)可能就會成為我們的‘卡脖子’問題,其背后的新藥開發(fā)研制都會被‘卡脖子’。”楊戈說。
龔海鵬認(rèn)為,DeepMind團(tuán)隊的人才、硬件、軟件方面的能力都很強(qiáng),它能解決的訓(xùn)練問題一般的實驗室或小團(tuán)隊很難去復(fù)現(xiàn)。我們拿它直接去訓(xùn)練,多半訓(xùn)練不出來,所以我們只能參考它的方法,開發(fā)出一些訓(xùn)練代價較小的等價方法。
“達(dá)到同一個目的,不會只有一條路。”龔海鵬說,“我們還會一直做下去,包括我了解的幾個課題組都是這樣,大家會從不同的角度汲取它的優(yōu)點,融入自己的方法中繼續(xù)發(fā)展。”
標(biāo)簽: 結(jié)構(gòu) 生物 未來 研究