【新智元導(dǎo)讀】谷歌DeepMind又有重磅研究了!AlphaFold 3一經(jīng)推出,就登上Nature頭版。從此,人類沖破「蛋白質(zhì)宇宙」,所有生物分子結(jié)構(gòu)都可以預(yù)測(cè)了!這次使用的,還是AI革命最核心的組合架構(gòu)——Transformer+Diffusion。
時(shí)隔3年,AlphaFold 3橫空出世,再次掀起AI學(xué)術(shù)圈巨震!
編輯:編輯部 【新智元導(dǎo)讀】谷歌DeepMind又有重磅研究了!AlphaFold 3一經(jīng)推出,就登上Nature頭版。從此,人類沖破「蛋白質(zhì)宇宙」,所有生物分子結(jié)構(gòu)都可以預(yù)測(cè)了!這次使用的,還是AI革命最核心的組合架構(gòu)——Transfor© 由 新智元 提供
初代AlphaFold誕生之后,一直停留在預(yù)測(cè)「蛋白質(zhì)」的宇宙中。
今天,升級(jí)后的AlphaFold 3能夠以前所未有的「原子精度」,預(yù)測(cè)出所有生物分子的結(jié)構(gòu)和相互作用。
最重要的是,與傳統(tǒng)方法相比,AF3預(yù)測(cè)相互作用的準(zhǔn)確率暴漲50%。
對(duì)一些重要的相互作用類型,其預(yù)測(cè)精度甚至可以提升100%。
最新研究已在Nature發(fā)表,并登上今天的頭版。
文章地址:https://www.nature.com/articles/d41586-024-01383-z
論文地址:https://www.nature.com/articles/s41586-024-07487-w
谷歌DeepMind聯(lián)合創(chuàng)始人、CEO Demis Hassabis表示,AlphaFold 3的發(fā)布是一個(gè)重要的里程碑,在AI理解和建模生物學(xué)的道路上,AI又邁出了重要一步!
AlphaFold 3可以生成蛋白質(zhì)、核酸(DNA/RNA)和更小分子的3D結(jié)構(gòu),并揭示它們?nèi)绾谓M合在一起。
它還可以模擬細(xì)胞之間化學(xué)變化,以控制細(xì)胞的正常運(yùn)轉(zhuǎn),預(yù)防疾病發(fā)生。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
7R6R - DNA結(jié)合蛋白:AlphaFold 3對(duì)一個(gè)分子復(fù)合體的預(yù)測(cè)展現(xiàn)了蛋白質(zhì)(藍(lán)色)與DNA雙螺旋(粉色)的結(jié)合,其預(yù)測(cè)結(jié)果與通過繁復(fù)實(shí)驗(yàn)得到的真實(shí)分子結(jié)構(gòu)(灰色)高度吻合
與Sora一樣,它是一個(gè)生成式神經(jīng)網(wǎng)絡(luò)模型。
很明顯,谷歌DeepMind團(tuán)隊(duì)已經(jīng)用上了這波AI革命最核心的組合架構(gòu)——Transformer+Diffusion!
得益于新一代技術(shù)架構(gòu),AlphaFold 3成為了「單一AI模型」。
它能以全面的方式計(jì)算整個(gè)分子復(fù)合體,并生成最精準(zhǔn)的結(jié)構(gòu)。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
8AW3 - RNA修飾蛋白:AlphaFold 3對(duì)一個(gè)包含蛋白質(zhì)(藍(lán)色)、一條RNA(紫色)和兩個(gè)離子(黃色)的分子復(fù)合體的預(yù)測(cè)與真實(shí)結(jié)構(gòu)(灰色)非常吻合
同在今天,谷歌DeepMind還推出了免費(fèi)研究平臺(tái)「AlphaFold Server」,供全球科學(xué)家非商業(yè)化研究。
不論每個(gè)人的技術(shù)專長(zhǎng)如何,只需點(diǎn)擊幾下,就可以利用AlphaFold 3在10分鐘內(nèi)預(yù)測(cè)分子,并測(cè)試假設(shè)。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
值得一提的是,AlphaFold 3已在自家實(shí)驗(yàn)室Isomorphic Labs,實(shí)現(xiàn)了高度準(zhǔn)確預(yù)測(cè)配體-受體相互作用,并幫助他們構(gòu)想藥物發(fā)現(xiàn)的過程。
如下是,AlphaFold 3預(yù)測(cè)不存在的Tim-3免疫蛋白結(jié)構(gòu),結(jié)果幾乎一致!
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
在DeepMind首席執(zhí)行官Demis Hassabis看來,這將是價(jià)值千億美元的產(chǎn)業(yè)。
未來的某一天,AlphaFold或許將摘下藥物發(fā)現(xiàn)的「圣杯」。
截至目前,全球已經(jīng)有180+萬的科學(xué)家使用AlphaFold加速研究,包括開發(fā)生物可再生材料,或推進(jìn)基因研究。
這一刻,對(duì)于所有人來說,AlphaFold 3簡(jiǎn)直就是海嘯級(jí)的存在。
AlphaFold 2的致命性短板,AlphaFold 3補(bǔ)上了!
2021年發(fā)布的AlphaFold 2,對(duì)生物學(xué)產(chǎn)生的影響已經(jīng)是革命性的。它以堪比傳統(tǒng)實(shí)驗(yàn)方法的驚人準(zhǔn)確度,根據(jù)氨基酸序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
免費(fèi)訪問的AlphaFold數(shù)據(jù)庫,收錄了幾乎所有已知蛋白的預(yù)測(cè)結(jié)構(gòu),AlphaFold 2的代碼也已開源。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
然而,在DeepMind 研究團(tuán)隊(duì)領(lǐng)頭人John Jumper看來,AlphaFold 2卻并未達(dá)到顛覆性影響。
原因何在?
這是因?yàn)椋珹lphaFold 2在預(yù)測(cè)蛋白質(zhì)生態(tài)系統(tǒng)時(shí),仍存在許多局限。
而它無法準(zhǔn)確預(yù)測(cè)的這些領(lǐng)域,卻對(duì)科學(xué)家極為重要。
比如對(duì)蛋白質(zhì)的修飾——添加磷酸鹽分子后,就可以使細(xì)胞對(duì)外部信號(hào)(如感染)作出反應(yīng),并引發(fā)一連串行為。另外,與DNA、RNA及其他化學(xué)物質(zhì)的相互作用,對(duì)許多蛋白質(zhì)的功能也至關(guān)重要。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
遺憾的是,這些領(lǐng)域,對(duì)AlphaFold 2還是一塊黑域。
而在Jumper看來,最理想的工具,應(yīng)該同時(shí)具備預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)及其配件結(jié)構(gòu)的能力。比如谷歌DeepMind希望,能夠解析整個(gè)PDB蛋白質(zhì)數(shù)據(jù)庫。
令人驚喜的是,AlphaFold 3出現(xiàn)了!
對(duì)于預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)及其相互作用伙伴,AlphaFold 3的有效性都遠(yuǎn)超現(xiàn)有的工具。
比如,希望發(fā)現(xiàn)新藥物的科學(xué)家,都會(huì)借助docking軟件來確認(rèn)蛋白質(zhì)結(jié)構(gòu),物理模擬蛋白質(zhì)與化學(xué)物質(zhì)的結(jié)合效果。
而AlphaFold 3的實(shí)驗(yàn)效果就要好于docking,以及另一個(gè)AI工具RoseTTAFold All-Atom。
倫敦Francis Crick研究所的生物化學(xué)家Frank Uhlmann在使用過AlphaFold 3,就表示效果喜人!
他的團(tuán)隊(duì)利用AlphaFold 3,預(yù)測(cè)了參與基因組復(fù)制的DNA相互作用蛋白的結(jié)構(gòu),這是細(xì)胞分裂的關(guān)鍵步驟。
2017年加入谷歌DeepMind的John Jumper領(lǐng)導(dǎo)了開發(fā)AlphaFold 3的團(tuán)隊(duì)
在之后的實(shí)驗(yàn)中,他們使用了變異蛋白來改變相互作用,結(jié)果顯示:預(yù)測(cè)結(jié)果非常準(zhǔn)確。
華盛頓大學(xué)西雅圖分校的計(jì)算生物物理學(xué)家David Baker評(píng)價(jià)說:「AlphaFold 3的結(jié)構(gòu)預(yù)測(cè)表現(xiàn)非常出色?!?/p>
Baker團(tuán)隊(duì)就是RoseTTAFold All-Atom的開發(fā)者,但他還是承認(rèn)AlphaFold 3的表現(xiàn)更好。
所有生物分子結(jié)構(gòu)和相互作用,從此可以被預(yù)測(cè)
在每個(gè)植物、動(dòng)物和人類的細(xì)胞中,存在著數(shù)十億個(gè)微小的分子機(jī)器,它們由蛋白質(zhì)、DNA以及其他分子構(gòu)成。然而沒有一個(gè)部分可以單獨(dú)發(fā)揮作用。
如何真正開始理解生命的過程?唯有通過研究這些分子如何在數(shù)百萬組合中相互作用。
由此,AlphaFold 3的誕生便顯得意義重大!
因?yàn)橛辛怂?,從此人類能夠以前所未有的精度,預(yù)測(cè)所有生物分子的結(jié)構(gòu)和相互作用。
對(duì)于蛋白質(zhì)與其他分子相互作用的預(yù)測(cè),AlphaFold 3相比現(xiàn)有方法至少有50%的提升,對(duì)一些重要的相互作用類型,預(yù)測(cè)精度甚至可以提升100%。
我們對(duì)生物世界和藥物發(fā)現(xiàn)的認(rèn)識(shí),可能從此會(huì)被AlphaFold 3徹底改變。
這次,谷歌DeepMind也留了一手。他們并未在論文中公布AlphaFold3的代碼和底層信息,但模型的大部分功能仍然可以通過AlphaFold Server平臺(tái)免費(fèi)使用。
AlphaFold 3模型的構(gòu)建,是以前代AlphaFold 2為基礎(chǔ)的。
AlphaFold 2多次榮登Nature和Science封面
自AlphaFold 2問世以來,全世界數(shù)百萬研究者已經(jīng)在瘧疾疫苗、癌癥治療和酶設(shè)計(jì)等諸多領(lǐng)域取得了突破。而發(fā)布于2018年的AlphaFold,論文引用量直接超過了20000次,還被授予2023年生命科學(xué)突破獎(jiǎng)。
而AlphaFold 3的誕生,則讓生物分子領(lǐng)域的研究拓展到了蛋白質(zhì)之外。
生物可再生材料、更耐用作物的培養(yǎng)、藥物設(shè)計(jì)和基因組學(xué)研究等等,可能將很快迎來顛覆性變革。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
7PNM - 一種普通感冒病毒的突起蛋白(冠狀病毒OC43):隨著病毒蛋白(藍(lán)色部分)與抗體(綠色)和單糖(黃色)相互作用AlphaFold 3對(duì)7PNM的預(yù)測(cè)結(jié)果,與真實(shí)結(jié)構(gòu)(灰色)高度吻合。如果進(jìn)一步了解這類免疫系統(tǒng)過程,我們就能更好地理解COVID-19在內(nèi)的冠狀病毒,改進(jìn)治療方法
輸入一系列分子的信息,AlphaFold 3就能生成它們的3D結(jié)構(gòu),展示這些分子如何緊密配合。
厲害的是,它不僅能模擬蛋白質(zhì)、DNA和RNA這樣的大型生物分子,還能處理小分子如配體——許多藥物都屬于這一類。
配體與DNA結(jié)合的示例
甚至,AlphaFold 3還能模擬這些分子的化學(xué)修飾,這些修飾是細(xì)胞健康運(yùn)作的關(guān)鍵,如果失調(diào)就可能引發(fā)疾病。
AI革命性架構(gòu)——擴(kuò)散模型
正如之前所述,AlphaFold 3之所以如此強(qiáng)大,正是因?yàn)樗男乱淮軜?gòu)和訓(xùn)練方式,能夠覆蓋所有生命分子。
也就是,顛覆整個(gè)AI世界的「擴(kuò)散模型」,已經(jīng)用在了AlphaFold 3的訓(xùn)練中。
模型的核心,就是改進(jìn)后的Evoformer模塊,這是一種深度學(xué)習(xí)架構(gòu),也正是是AlphaFold 2卓越性能的基石。
處理輸入數(shù)據(jù)后,AlphaFold 3就可以利用「擴(kuò)散網(wǎng)絡(luò)」來構(gòu)建預(yù)測(cè)結(jié)果,跟AI圖像生成中使用的網(wǎng)絡(luò)類似。
擴(kuò)散過程從一個(gè)原子云開始,經(jīng)過多個(gè)步驟,最終收斂于最精確的分子結(jié)構(gòu)。
對(duì)于分子相互作用的預(yù)測(cè),AlphaFold 3的精度已經(jīng)超越了所有現(xiàn)有技術(shù)!
作為一個(gè)全面計(jì)算整個(gè)分子復(fù)合體的單一模型,它獨(dú)特地能整合科學(xué)洞見。
藥物設(shè)計(jì),被徹底顛覆
AlphaFold 3的這種強(qiáng)大功能,直接讓我們的藥物設(shè)計(jì)走向了新的天地!
這是因?yàn)?,配體和抗體這些常用于藥物的分子,現(xiàn)在都可以通過AlphaFold 3來預(yù)測(cè)了。
如下三個(gè)例子中,展示了AF3如何將許多蛋白質(zhì)與各自的配體折疊在一起,并闡釋了其作用的機(jī)制。
首先展示的是,具有獨(dú)特折疊結(jié)構(gòu)的蛋白質(zhì)。
下面是,AlphaFold 3正確預(yù)測(cè)了一種新型抑制劑的變構(gòu)結(jié)合模式(PDB ID 7QIE)。
AF3還正確預(yù)測(cè)了PORCN與LGK974和WNT3A肽的復(fù)合物,為臨床階段分子的抑制功能提供了結(jié)構(gòu)依據(jù)(PDB ID 7URD)。
在預(yù)測(cè)藥物相互作用上,AlphaFold 3取得了空前的準(zhǔn)確度,無論是蛋白質(zhì)與配體的結(jié)合,還是抗體與其目標(biāo)蛋白的結(jié)合。
在PoseBusters基準(zhǔn)測(cè)試中,無需任何結(jié)構(gòu)信息輸入,AlphaFold 3的準(zhǔn)確性就比傳統(tǒng)SOTA提高了50%。
由此,它也成為生物分子結(jié)構(gòu)預(yù)測(cè)領(lǐng)域中,首個(gè)超越物理基礎(chǔ)工具的AI系統(tǒng)!
如今我們能夠預(yù)測(cè)抗體和蛋白質(zhì)的結(jié)合,那就可以理解人類免疫反應(yīng)的關(guān)鍵,以及新抗體的設(shè)計(jì)。
從此,我們藥物設(shè)計(jì)的成功率會(huì)大大提高,還能夠探索新的疾病靶點(diǎn),從前針對(duì)現(xiàn)有靶點(diǎn)難以達(dá)到的創(chuàng)新方法,現(xiàn)在也能在AlphaFold 3的幫助下開發(fā)出來。
AlphaFold Server:與全世界共享的免費(fèi)工具
此外,谷歌DeepMind團(tuán)隊(duì)也會(huì)負(fù)責(zé)任地與世界共享AlphaFold 3的力量。
谷歌DeepMind會(huì)推出全球最準(zhǔn)確的工具AlphaFold Server,用于預(yù)測(cè)蛋白質(zhì)如何在細(xì)胞內(nèi)與其他分子相互作用。
這是一個(gè)免費(fèi)平臺(tái),允許全球科學(xué)家進(jìn)行非商業(yè)性研究使用,包含免費(fèi)的2億蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
只要幾次點(diǎn)擊,生物學(xué)家就可以利用AlphaFold 3模擬由蛋白質(zhì)、DNA、RNA及各種配體、離子和化學(xué)修飾組成的結(jié)構(gòu)了!
從此,科學(xué)家在實(shí)驗(yàn)中的研究假設(shè),就可以由AlphaFold Server驗(yàn)證了。
這個(gè)平臺(tái),可謂意義重大。
實(shí)驗(yàn)性的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),原本需要花費(fèi)讀個(gè)博士學(xué)位的時(shí)間,以及數(shù)十萬美元的費(fèi)用。而按照當(dāng)前實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)的發(fā)展速度,這本需要數(shù)億researcher-year的工作。
有了AlphaFold 3,從此生物世界可以以高清晰度呈現(xiàn)。
科學(xué)家能夠全面觀察細(xì)胞系統(tǒng)的復(fù)雜性,包括結(jié)構(gòu)、相互作用和修飾,藥物作用、激素生成和DNA修復(fù)如何影響生物功能,從此都將被揭示。
AlphaFold 3一夜預(yù)測(cè)地球所有生物分子,谷歌DeepMind顛覆生物學(xué)登Nature頭版!© 由 新智元 提供
7BBV - 酶:AlphaFold 3對(duì)一個(gè)包含酶蛋白(藍(lán)色)、離子(黃色球體)和簡(jiǎn)單糖(黃色)的分子復(fù)合體的預(yù)測(cè),以及其真實(shí)結(jié)構(gòu)(灰色)。這種酶源自一種對(duì)多種植物有害的土傳真菌(Verticillium dahliae)。深入了解這種酶與植物細(xì)胞的相互作用有助于研究人員培育出更健康、更抗逆的作物
訪問受限,畢竟還要商業(yè)利益
不過,AlphaFold 3的使用上也會(huì)受到很多限制。
與RoseTTAFold和AlphaFold 2不同,研究者們無法運(yùn)行自己的AlphaFold 3版本,也無法公開AlphaFold3的底層代碼,或模型訓(xùn)練后獲得的其他信息。
他們能做的,就是使用「AlphaFold 3服務(wù)器」,輸入自己選擇的蛋白質(zhì)序列和一些輔助分子。
而且,對(duì)AlphaFold 3服務(wù)器的訪問也是受限的。目前每天研究者只能進(jìn)行10次預(yù)測(cè),且無法獲取與潛在藥物結(jié)合的蛋白質(zhì)結(jié)構(gòu)。
但科學(xué)家Uhlmann仍然對(duì)此表示滿意,在他看來,這個(gè)服務(wù)器比AlphaFold 2版本更簡(jiǎn)潔——
只要上傳數(shù)據(jù),10分鐘后就能得到結(jié)構(gòu)。對(duì)大多數(shù)科學(xué)家而言,這個(gè)服務(wù)器將大大簡(jiǎn)化他們的工作。
之所以做此限制,是因?yàn)楣雀鐳eepMind也是要盈利的。比如,它的子公司Isomorphic Labs已經(jīng)開始用AlphaFold 3來開發(fā)藥物了。
DeepMind的AI科學(xué)負(fù)責(zé)人及該研究的合著者Pushmeet Kohli表示,他們希望AlphaFold 3既能對(duì)科學(xué)家產(chǎn)生影響,又能在保護(hù)Isomorphic在制藥方面的商業(yè)利益上找到平衡。
也因此,加州大學(xué)舊金山分校的藥物化學(xué)家Brian Shoichet認(rèn)為AlphaFold 3不會(huì)像AlphaFold 2那樣產(chǎn)生廣泛影響,因?yàn)樗拗屏伺c潛在藥物的蛋白質(zhì)互動(dòng)建模。
而MIT的進(jìn)化生物學(xué)家Sergey Ovchinnikov則雄心勃勃地表示,根據(jù)Nature提供的詳盡信息,在年底之前,估計(jì)就會(huì)有團(tuán)隊(duì)開發(fā)出開源解決方案了。
全新的架構(gòu)
根據(jù)論文的介紹,AF3的整體架構(gòu)(圖1d)在很大程度上繼承了AlphaFold 2的設(shè)計(jì)。
首先通過一個(gè)龐大的主干來處理化學(xué)復(fù)合物的成對(duì)表征,隨后通過一個(gè)結(jié)構(gòu)模塊將這些表示轉(zhuǎn)換為具體的原子位置。
不過,AF3在每個(gè)關(guān)鍵組件上都進(jìn)行了重大調(diào)整。
與AlphaFold 2中的原始Evoformer相比,處理塊的數(shù)量減少到4個(gè),MSA表征的處理采用了成本較低的成對(duì)加權(quán)平均法,并且后續(xù)步驟僅使用成對(duì)表征。
新的「Pairformer」(圖2a)取代了AlphaFold 2的「Evoformer」,成為主要的處理模塊——只處理成對(duì)和單一表征,不再保留MSA表征,所有信息都通過成對(duì)表征進(jìn)行傳遞。
最終,成對(duì)和單一表征連同輸入表示一起傳遞到新的擴(kuò)散模塊(圖2b),該模塊取代了AlphaFold 2的結(jié)構(gòu)塊。
擴(kuò)散模塊(Diffusion Module)直接處理原始原子坐標(biāo)和一種粗略的抽象Token表征,而不采用旋轉(zhuǎn)框架或任何等變處理。
在AlphaFold 2的研究中,團(tuán)隊(duì)發(fā)現(xiàn)簡(jiǎn)化結(jié)構(gòu)模塊的復(fù)雜性對(duì)預(yù)測(cè)精度的影響較小,而保留主鏈框架和側(cè)鏈扭轉(zhuǎn)表征則大大增加了對(duì)一般分子圖的處理復(fù)雜度。
為此,團(tuán)隊(duì)采用了一種標(biāo)準(zhǔn)的擴(kuò)散方法,訓(xùn)練擴(kuò)散模型處理「加噪」的原子坐標(biāo),并預(yù)測(cè)其真實(shí)坐標(biāo)。這就要求網(wǎng)絡(luò)在不同的長(zhǎng)度尺度上學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu),小噪聲去噪重點(diǎn)在于理解局部立體化學(xué),而大噪聲去噪則關(guān)注系統(tǒng)的大尺度結(jié)構(gòu)。
在推理階段,會(huì)隨機(jī)采樣噪聲,并通過反復(fù)去噪得到最終結(jié)構(gòu)。
值得注意的是,這種生成式訓(xùn)練方法會(huì)產(chǎn)生多種可能的結(jié)果。這意味著,即使網(wǎng)絡(luò)對(duì)某些位置的確定性不高,每個(gè)結(jié)果的局部結(jié)構(gòu)(如側(cè)鏈鍵的幾何結(jié)構(gòu))也都會(huì)非常清晰。
由此,既可以避免使用基于扭轉(zhuǎn)的殘基參數(shù)化和對(duì)結(jié)構(gòu)的違規(guī)損失,同時(shí)處理配體的全部復(fù)雜性。
與一些近期的研究一致,團(tuán)隊(duì)發(fā)現(xiàn)架構(gòu)中不需要對(duì)分子的全局旋轉(zhuǎn)和平移進(jìn)行不變性或等變性處理,因此省略了這些設(shè)計(jì),并簡(jiǎn)化了機(jī)器學(xué)習(xí)架構(gòu)。
不過,生成式擴(kuò)散方法很容易產(chǎn)生「幻覺」——即ACCELERATED ARTICLE PREVIEW模型可能在結(jié)構(gòu)不明顯的區(qū)域創(chuàng)造出看似合理的結(jié)構(gòu)。
為了抑制這種現(xiàn)象,團(tuán)隊(duì)采用了一種創(chuàng)新的交叉蒸餾(cross-distillation)方法。
通過在預(yù)訓(xùn)練數(shù)據(jù)集中加入AlphaFold-Multimer v2.3預(yù)測(cè)的結(jié)構(gòu),使AlphaFold 3學(xué)會(huì)了模仿「用長(zhǎng)的擴(kuò)展環(huán)路來表示無結(jié)構(gòu)區(qū)域」這種行為,進(jìn)而極大地減少了AF3的幻覺行為。
由于擴(kuò)散訓(xùn)練只涉及單步擴(kuò)散而非完整的結(jié)構(gòu)生成(圖2c),因此團(tuán)隊(duì)開發(fā)了一種擴(kuò)散「展開」過程,用于訓(xùn)練期間生成完整的結(jié)構(gòu)預(yù)測(cè)。
接著,利用這個(gè)預(yù)測(cè)結(jié)構(gòu)來調(diào)整對(duì)稱的真實(shí)鏈和配體的位置,并計(jì)算性能指標(biāo),以此訓(xùn)練置信度組件。
如圖2d所示,在初始訓(xùn)練階段,模型很快就能預(yù)測(cè)出局部結(jié)構(gòu)(所有內(nèi)鏈指標(biāo)迅速提升,在前20,000次訓(xùn)練步驟中就達(dá)到了最大性能的97%)。
然而,模型在學(xué)習(xí)整體結(jié)構(gòu)方面需要更長(zhǎng)的時(shí)間(界面指標(biāo)上升較慢,蛋白質(zhì)-蛋白質(zhì)界面LDDT在60,000步之后才達(dá)到97%的標(biāo)準(zhǔn))。
在AF3的開發(fā)過程中,團(tuán)隊(duì)發(fā)現(xiàn)某些模型功能很早就達(dá)到了頂峰并開始下降,這很可能是因?yàn)閷?duì)這些功能的訓(xùn)練樣本數(shù)量有限導(dǎo)致了過擬合,而其他功能則仍然訓(xùn)練不足。
為此,團(tuán)隊(duì)調(diào)整了相應(yīng)訓(xùn)練集的抽樣概率,并采用所有上述指標(biāo)及一些額外指標(biāo)的加權(quán)平均進(jìn)行早期停止,來選擇最佳模型檢查點(diǎn)。
在微調(diào)階段,團(tuán)隊(duì)通過使用更大的裁剪尺寸顯著提升了模型在所有指標(biāo)上的表現(xiàn),特別是在蛋白質(zhì)-蛋白質(zhì)界面上的表現(xiàn)。
網(wǎng)友:AF3將摘下生物學(xué)「圣杯」
AlphaFold 3誕生,意味著什么?
「我們即將在未來幾年內(nèi),對(duì)所有疾病了如指掌。我們正站在未來十年可能治愈所有疾病的邊緣」。
還有網(wǎng)友表示,AI即將徹底改變醫(yī)學(xué)。我們需要用它來提高可用性、改善療效,降低看病成本。
英偉達(dá)高級(jí)科學(xué)家Jim Fan稱贊道,「AlphaFold 3是生物AI取得最大突破的最新迭代版本。不同以往,AlphaFold 3使用了『Diffusion』來渲染分子結(jié)構(gòu)。它從一團(tuán)模糊的原子云開始,然后通過去噪逐漸將分子實(shí)體化」。
我們生活在這樣一個(gè)時(shí)代,Llama和Sora等模型的發(fā)展可以為生命科學(xué)研究提供啟發(fā)并加速進(jìn)程。我發(fā)現(xiàn)這種通用性水平實(shí)在是難以置信。同樣基于Transformer+Diffusion架構(gòu)的模型,不僅可以生成精美的像素圖像,還能想象出蛋白質(zhì)分子,只要將數(shù)據(jù)適當(dāng)轉(zhuǎn)換為浮點(diǎn)數(shù)序列即可。
我們目前還沒有實(shí)現(xiàn)單一的AGI模型,但我們已經(jīng)成功構(gòu)建了一系列通用的AI「配方」,可以跨領(lǐng)域遷移訓(xùn)練、數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)架構(gòu)。理論上這是不可能的,但它確實(shí)奏效了!
還有網(wǎng)友發(fā)現(xiàn),Nature論文中多次提到了「diffusion」。
從AF3身上,再次讓許多人見識(shí)到了「擴(kuò)散模型」的強(qiáng)大威力。
就連專業(yè)領(lǐng)域的醫(yī)學(xué)科學(xué)家,完全被AF3的能力震驚到了,一句話用了4個(gè)驚嘆體。
現(xiàn)在,這就是生物學(xué)的「圣杯」!AlphaFold 3不僅將徹底改變我們對(duì)生物系統(tǒng)的認(rèn)識(shí),還將以前所未有的水平上確定新的、特異的化學(xué)或生物藥物!我無法用言語來形容這是一個(gè)多么重大的進(jìn)步!真是嘆為觀止!
等不到GPT-5的網(wǎng)友,瞬間覺得GPT-5都不香了。
還有人暗示,如果谷歌能將代碼開源,或許我們?cè)缫训竭_(dá)了AGI。
參考資料:
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
https://www.quantamagazine.org/new-ai-tools-predict-how-lifes-building-blocks-assemble-20240508/