2021-07-26
2021年7月(yuè)22日,DeepMind和(hé)歐洲生物信息學研究所(EMBL-EBI)聯合發布了AlphaFold預測的蛋白質結構數據庫,該數據庫将會對生命科學和(hé)生物生少醫藥領域産生什麼深遠(yuǎn)影響呢(ne)?我們來看看雪還英國皇家學會院士Stephen Cusack等人的最新評論。
Stephen Cusack, Sebastia月窗n Eustermann, Gerard Kleywegt,黑件 Jan Kosinski, Julia Mahamid,報服 José Antonio Marquez, Christoph Müll嗎子er, Thomas Schneider, Janet 木照Thornton, Jessica Vamathevan, Samee紅工r Velankar, Matthias Wil站事manns
在最新一期的Nature論文(wén)中(zhōng),DeepMind和(hé)EMBL-EBI合作發布了數據庫AlphaFold DataBase (AlphaFold D視門B),向社會免費提供AlphaFold結構預測結果。初始的AlphaFold DB涵蓋了屬于人類以及其他20個(gè)重要物種的大多數具有較大價值的蛋白質, 包含超過35萬個(gè)不同的蛋白結構,并最終将增加到約1.3億個(gè)三維結構(約為目前PDB數據庫的700倍)
未來的幾個(gè)月(yuè)裡,AlphaFold DB将擴展到涵蓋所有編碼蛋白質的90%。這意味着對于UniProt數據庫中(zhōng)的每一個(gè)蛋白序列,要麼有一個(gè)實驗說快确定的結構,要麼有一個(gè)AlphaFold預測的結構,或者可(kě)以使用傳統的結構預測技術(農雪shù)根據PDB或AlphaFold DB中(zhōng)類似序列的模型來輕易地建立結構上舊。這一發展代表了分子(zǐ)生物學的一個(gè)重要變化:幾乎村男所有已知序列的蛋白質都将有一個(gè)高質量的三維模型可(kě)了鄉用。那麼,AlphaFold DB将可(kě)能有哪些重要應用呢(ne)?我們來聽聽英國皇家學會雪海院士Stephen Cusack等人的看法。
背景
多年以來,蛋白質結構一直是熱門的研究話題,研究者使用核磁水北共振、X射線、冷(lěng)凍電鏡等一系列實驗技術(shù)來檢測和(hé)确定慢生蛋白質結構。但這些方法往往依賴大量試錯和(hé)昂貴的設備,每種結構厭算的研究都要花(huā)數年時間。
1972年,美國科學家Christian Anfinsen因“對核糖核酸酶的研究,特别是對其氨基酸序列與生物活性構象之間聯系吃著的研究”獲得諾貝爾化學獎。在頒獎禮上,他提出了一個(gè)著名的假設:從理這快論上來說,蛋白質的氨基酸序列應該可(kě)以完全決定其結構。這一假設引發了長校林達五十年的探索,即僅僅基于蛋白質的一維氨基酸序列計算出其三維結構。
2020年11月(yuè)30日,一條重磅消息引發了科技界所有人的關(guān)注:谷歌旗下(筆行xià)人工智能技術(shù)公司DeepMind提出的深度學習算法「Alphafold」破解了出現五十年之久的蛋白質分子(zǐ)折疊(protein folding problem)問(wèn)題。CASP14 組織者、年近七旬的UC Davis科學家Andriy Kryshtafovych在大會上感歎道,I wasn't sure that I would live l什工ong enough to see thi船工s(我活久見了)。
預測方法的當前局限性
盡管Alphafold取得了世人矚目的進展,但其仍有局限性:
許多蛋白質的功能是與其他蛋白質、核酸(DNA或RNA)或配體形成複合體。AlphaFold目前不能預測蛋白質-蛋白質或蛋白質-DNA/RNA/配體複合物的三維結構。某些情況下(xià朋文),單鍊預測的結果可(kě)能對應于複合物中(zhōng)采用的結構。大民對多數情況下(xià),周圍分子(zǐ)的背景缺失會導緻複合從去物預測結果不可(kě)信。
蛋白質是一個(gè)動(dòng)态系統,根據其環境或功能近綠周期内的狀态而采取不同的結構。當一個(gè)蛋白民都質已知有多種構象時,AlphaFold通(tōng)常隻會預測其中(zhōng)一種。這使得蛋白質構象的動(區車dòng)态預測仍然存在問(wèn)題,而這對理解生物功能至關(美業guān)重要,這仍将是一個(gè)非常活躍的研究領域。
對于那些内在無序或無結構的區域,AlphaFold的預測可(kě)信度很低,預測的結構會有一個(gè)延伸的、帶狀的外了制觀。AlphaFold可(kě)以作為識别這類區域的工具,但預測結果并不說明不同構象的相對可(kě)銀子能性(用生物物理學術(shù)語來說:它不是玻爾茲曼分布的一個(g分吧è)樣本)。
AlphaFold還沒有經過訓練或驗證來預測突變的影響。特别是,弟拿它不能捕捉到破壞蛋白質穩定性的點突變的影響。
配體不包括在結構中(zhōng),因此AlphaFold不能對實驗結構中(zhōng)的非蛋白質成分(如(rú)金刀遠屬、配體,包括藥物類分子(zǐ)、離(lí)子(zǐ)、碳水化合物和(hé)其湖去他翻譯後修飾)進行預測。
與實驗測得的結構一樣,預測的結構可(kě)以土坐提供蛋白質功能的假設,但這種假設必須通(tōng)過進一步化術的實驗來檢驗。
對科學界的影響
AlphaFold DB中(zhōng)的蛋白質結構預測将對分子(zǐ)結構生物學研究産請相生直接影響,從更長遠(yuǎn)的角度來說用看,将對科學、醫學和(hé)最終的經濟産個能生重大影響。這一變化将促進許多新領域的研究紙藍。
結構生物學研究的機會
結構生物學是分子(zǐ)生物學的一個(g業綠è)分支,它利用三維結構信息(最好是原子(zǐ)分辨率)來回答生物學問(wèn)題,例如(rú)如來解釋蛋白質或複合物的功能。為此,結構生物學家通(tōng)常需人我要确定同一蛋白質的多個(gè)結構,例如(rú)與配體、某些突變,或與其那舞他大分子(zǐ)(包括其他蛋白質或核酸)的複合物。
加速結構研究
大規模地提供預測的三維模型可(kě)能會大大改門視變結構生物學研究的格局,某些情況下(xià)會加速結構分析。目前,PDB包含超過18萬個(gè)條目,涵蓋約5.5萬個(gè)獨特的蛋白質。PDB對蛋白質世界的有限覆蓋(UniProt中(zhōng)約2.2億個(gè)序列或MGnify中(zhōng)約6.25億個(gè)序列)是許多生物學領域的一個(gè)障礙,包括結構生物學本身。
預測模型可(kě)以強有力的幫助實驗性的從頭結構測定,即使是低質量或低分辨率店我的數據集。短(duǎn)期内,它将有助于幫助那些幾物理年前就已經收集了實驗數據,但至今仍無法解析的結構。這包括EMDB中(zhōng)超過5700張冷(lěng)凍電鏡圖,這些圖以前很難解析。
雖然冷(lěng)凍電鏡是确定大型和(hé)生習靈活的蛋白質複合體和(hé) "分子(zǐ)機器(qì) "結構的主要方法之一。但是主要的和(hé)重要的複合物将不會被完全解析到西舞高分辨率。預測模型可(kě)以幫助從低分辨率區域得就風到高質量的結構。
填補蛋白質複合物的缺失
AlphaFold DB将使研究複雜的生物系統成為可(kě)能,因為這些系統沒錢科有高分辨率或高質量的實驗結構數據,同時,AlphaFold DB可(kě)以為大分子(zǐ)機器(qì)提供可(kě)畫空能的機制解釋。
在沒有蛋白質複合物的實驗數據的情況下(xià),可(kě)以用AlphaFold模型作為補充,産生有關(guān)結合點或相互作用照妹表面的假設,然後設計實驗,例如(rú)找出哪些配體(或配體的片段)可(kě)以結合。
為蛋白質動(dòng)力學模拟提供3D模型
高質量的蛋白質三維模型是蛋白質動(dòng)力學年紙分析的前提。動(dòng)力學分析可(kě)以幫助什習我們了解酶的催化機制,或結合配體後的構象變化。
對大分子(zǐ)複合物進行建模
冷(lěng)凍電鏡的快速發展使得利用原位實驗研究生物環要煙境中(zhōng)的大分子(zǐ)複合物成為可(kě)能。預測的拍用模型可(kě)能有助于闡明在細胞内各種情況下(xià)與大分子(zǐ)複飛地合物相互作用的蛋白質的身份。
雖然AlphaFold DB總體上将加速結構生物學研究,但它也可(kě)能導緻研究重點從最初的結服錢構測定轉移到對蛋白質結構的更多機制和(hé)功能方面畫黃的研究。同時,這也會導緻對專門用于結構測定的大規模結構生物麗女學基礎設施進行客觀的重新評估。
結構預測的未來挑戰
幾十年來,從蛋白質的序列中(zhōng)準确預測其三維原子(z費鄉ǐ)結構(或折疊)一直是生物學的 "聖杯",全球都在為之付出大量的研究努力。AlphaFold在CASP14中(zhōng)的成功構成了這個(gè)領域的一個(gè)變化。
邁向預測的新挑戰
對蛋白質折疊問(wèn)題的解決,可(kě)能會使結構新拍預測研究者的重點轉向新的方向,如(rú)預測還動複合物的結構,預測藥物與蛋白質的相互作用。深度學習技術(中喝shù)可(kě)能成為未來發展的主流,應用于這些新挑戰。其家光中(zhōng)一個(gè)挑戰是研究蛋白公畫質中(zhōng)的内在無序和(hé)移動(dò低遠ng)區域,這些區域在功能上很重要,在不同的情況下(xià)可(但間kě)能會有不同的結構,例如(rú)在與其它蛋白遠和相互作用時。據預測,人類蛋白質組中(zhōng金內)約有三分之一含有内在無序區,預測方法的進步将推動(dòng)其亮相研究。深度學習技術(shù)也可(kě)應用于其它看服類似問(wèn)題,例如(rú)預測RNA分子(zǐ)的三維結構。
擁有更多的方法從序列中(zhōng)預測結構
通(tōng)過一些公共資(zī)源(SWISS-MODEL、AlphaFold DB、Genome3D等),整個(gè)生命科學界可(kě)以免費獲得來自PDB的實驗确定的結構模型和(hé)通(tōng)過各種方法産生拍街的預測模型。3D-Beacons是一個(gè)用于注冊和(hé)定位此類模型的門戶網站(國校zhàn),由一個(gè)聯盟創建,該聯盟開員化發了使用分布式架構(即沒有一個(gè)網站(zhàn)托管所有數據)訪問(wèn)結構-模型數據的标準。這使得使用通(tōng)用的、标準著不化的應用編程接口(API)以編程方式訪問(wèn)三維模型成為可(kě)紅湖能,進一步促進了這些模型的使用。
AlphaFold DB将很快為UniRef90集群的所有參考序列提供預測模型,其中(zhōng)每個(短森gè)序列與該集群的其他成員至少(shǎo)有90%的序列相同。這一發展強調了像CASP這樣的社區驅動(dòng)計劃在推動(dòng)研究工作和(hé)工具開發方白草面的重要性。其他這樣的努力(例如(rú),評估複合物結構預測方法的CAPRI)繼續發揮着這樣的作用,使計算結構生物學成為一個(gè)豐富公鄉的研究領域。AlphaFold的突破可(kě)能會導緻這一領域的工作重姐跳心重新調整,從預測單個(gè)蛋白質結構轉向目前仍然具有挑戰性的問(wèn)題鐵還,如(rú)預測多域蛋白質和(hé)複合物的結構,評估預測哥體的準确性和(hé)質量指标。
結構生物信息學研究的機遇
以前所未有的規模提供預測的三維模型,為結構生物信息學家提供了一個(gè近金)名副其實的數據寶庫,供其利用、分析和(hé)挖掘。
促進科學發現工具的發展
預計将開發新的方法來分析這些結構模型的規模,例如(r腦書ú),将AlphaFold模型與已知的實驗結構進行比較,尋找實驗中(zhōng)尚未觀察輛討到的折疊,結構域的進化分析,檢測活性部位的明顯收斂進化的實例等。AlphaFold DB将促進對蛋白質結構的進化和(hé)結構與功能的關(guān)系的研究,為新紅機功能的工程化和(hé)加速合成生物學應用提供線索。大規模的結構數據也将有助于秒老研究預測序列變化和(hé)配體結合的影響的用到計算方法,以及分析蛋白質結構的構象狀态和(h讀友é)動(dòng)态。
開發用于結構可(kě)視化和(hé)解釋的新工具
随着AlphaFold模型的出現,他們的用戶将需要接受培訓,了解如(rú)何批判性地評估和(hé)使腦答用這些結構,并理解使用預測模型進行解釋的局限性。表達和(山都hé)可(kě)視化結構、它們的動(dòng)态和鄉農(hé)相互作用的需要,以及讓分子(zǐ)生物學家理解它們的可(kě視相)靠性和(hé)重要性,将是對結構生物信息學家的一個(g遠黑è)重大挑戰,他們需要開發具有适當用戶界面的軟件工具。
完善功能預測的工具
結構生物信息學家已經投入時間開發工具,利用PDB中(zhōng)有限的實驗确定的結構來注釋快白基因組(如(rú)結構域分配),這可(kě)以幫助建議未知功能的蛋白質的功能分配。現在可(kě)以通藍人(tōng)過使用更大的訓練集來提高這些工具的性購在能。
為更廣泛的生命科學界提供機會
當一個(gè)高質量的蛋白質的三維模型出現上農時,以前的實驗觀察往往可(kě)以被解釋,并根據結構模型提出志內新的可(kě)測試的假設,比如(rú)解釋為什麼一個(gè男個)突變是有害的,或者一個(gè)蛋白質如(rú)得話何與另一個(gè)蛋白質相互作用等等。
藥物發現中(zhōng),使用三維模型可(kě)以幫助要會理解為什麼某種藥物是抑制劑,或者為什麼某些蛋白質是 "可(kě)藥靶點 ",某些蛋白質不能作為靶點。這些模型将加速确定新的候選藥物甚至是藥物靶标的研究工男農作,預測出的三維模型開始幫助尋找可(kě)與藥物結合的部位,啟動(d東遠òng)結構測定,設計定向配體或片段篩選等。虛拟篩選技術(shù)服文也可(kě)以為老藥的新用途提出建議,以便作用于以前沒有結構的靶标。
展望未來
AlphaFold DB是一個(gè)巨大的蛋白質結構資(zī)源,它的出現也許可街他(kě)以與20年前人類基因組計劃的完成相提并論,它使生物醫學研究取得了實質性老音的進展,也為新的未預見的方向打開了大門。
這些模型将為與健康和(hé)疾病有關(guān)線歌的基本過程提供新的見解和(hé)理解,并應用于生物技術(shù)、醫學、廠線農業(yè)、食品科學和(hé)生物工程。可(kě民到)能需要一二十年的時間才能正确評估這一發展的全部影響(科學、醫學和(hé)經濟)。與科學或技術(shù)的階梯式變化一樣,目前的一些科學活動(窗花dòng)将不得不面臨改變,但也會産生大量新的和(hé)令人興奮的廠放機會、應用和(hé)衍生産品,其中(zhōng)許多是我們今天甚至物兒無法預見的。結構生物學和(hé)一般的生物學将不再相同,我們迫不及待地想看到這懂暗些新發展的影響--這将是一個(gè)令人振奮的經曆 。
人工智能作為科學工具
AlphaFold已經證明了人工智能在蛋白質結構預測方面的能力。它補充了現有的雪拿方法并揭示了新的見解,但并沒有取代确定結構的實驗方我廠法。這項工作是一個(gè)可(kě)能的一票典範--很明顯,人工智能将在更廣泛的科學研究中(z動爸hōng)找到許多這樣的應用。
(轉載自DrugAI)