文章來源:智藥邦 2024年11月15日 08:02 上海
2024年11月4日,Nature發(fā)表文章Five protein-design questions that still challenge AI,討論了蛋白質(zhì)的AI設計仍然面臨的五個問題。
德國慕尼黑大學的Alena Khmelinskaia說:“希望設計定制蛋白質(zhì)就像訂餐一樣簡單。想象一下一臺自動售貨機,任何研究人員都可以用它來指定所需的蛋白質(zhì)的功能、大小、位置、partners和其他特征。理想情況下,你會得到一個完美的設計,能夠同時完成所有這些事情。”
蛋白質(zhì)設計,這一曾被視為遙不可及的夢想,如今正隨著計算技術與機器學習的飛速發(fā)展而逐步變?yōu)楝F(xiàn)實。傳統(tǒng)方法依賴于微生物的變異來產(chǎn)生所需蛋白質(zhì),過程繁瑣且效率低下。然而,機器學習算法的興起徹底顛覆了這一領域。
借助如RFdiffusion、Chroma等AI工具,研究人員能在電腦上輕松生成新的蛋白質(zhì)結(jié)構(gòu),并通過ProteinMPNN等算法找到匹配的氨基酸序列。更令人振奮的是,RoseTTAFold和AlphaFold等技術的出現(xiàn),使得預測新蛋白質(zhì)能否正確折疊成為可能。這一系列技術進步極大地縮短了從設計到驗證的周期,提高了蛋白質(zhì)設計的成功率。2024年諾貝爾化學獎的頒發(fā),更是對AlphaFold等蛋白質(zhì)結(jié)構(gòu)預測與設計程序的極高認可。這不僅證明了人工智能在蛋白質(zhì)設計領域的巨大潛力,也預示著這一技術將為人類帶來前所未有的福祉。然而,挑戰(zhàn)依然存在。這篇Nature的采訪揭示了蛋白質(zhì)設計所面臨的最大難題,以及專家們提出的解決方案。盡管前路尚有坎坷,但隨著技術的不斷進步和科研人員的不懈努力,我們有理由相信,蛋白質(zhì)設計的未來將更加光明,其帶來的益處也將更加深遠。
構(gòu)建可靠的結(jié)合物
蛋白質(zhì)設計領域早期面臨的核心挑戰(zhàn)之一,是如何精確預測蛋白質(zhì)間的相互作用,這對于制藥行業(yè)尤為重要。因為特定蛋白質(zhì)的“結(jié)合物”能夠作為藥物,精準地激活或抑制疾病通路。在這一背景下,2024年諾貝爾化學獎得主、西雅圖華盛頓大學的計算蛋白質(zhì)設計先驅(qū)David Baker及其團隊,通過開發(fā)RFdiffusion和AlphaProteo等生成式人工智能程序,極大地簡化了這一復雜任務。
Baker指出,這些生成式AI工具能夠像手一樣精確地為特定目標(如癌癥蛋白)設計出結(jié)合物。例如,在2023年,他的團隊就利用RFdiffusion技術成功制造出了一種傳感器蛋白,該蛋白在附著于特定肽類激素時會發(fā)光,這一成果展示了生成式AI在蛋白質(zhì)設計上的巨大潛力。
蛋白質(zhì)設計先驅(qū)David Baker蛋白質(zhì)-蛋白質(zhì)結(jié)合算法的成功,很大程度上得益于其“語言”的簡潔性:所有天然蛋白質(zhì)均由相同的20個氨基酸構(gòu)成。這種統(tǒng)一性為機器學習提供了豐富的數(shù)據(jù)和理想的學習案例,如Generate Biomedicines的計算機科學家John Ingraham所言,PDB(蛋白質(zhì)數(shù)據(jù)庫)中成千上萬的結(jié)構(gòu)和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù),為AI學習提供了堅實的基礎。然而,挑戰(zhàn)并未因此消失。對于與藥物和其他小分子結(jié)合的蛋白質(zhì),由于可用訓練數(shù)據(jù)相對較少,AI設計的結(jié)合蛋白可靠性往往較低。此外,許多制藥公司的小分子結(jié)構(gòu)及其與蛋白質(zhì)的相互作用數(shù)據(jù)都是嚴格保密的,這進一步限制了AI的學習范圍。谷歌DeepMind公司的計算生物學家Jue Wang指出,現(xiàn)有公共數(shù)據(jù)的注釋質(zhì)量參差不齊,且結(jié)構(gòu)多樣性有限,這可能導致訓練出的模型無法學習到通用的化學規(guī)則。 盡管如此,DeepMind還是通過發(fā)布AlphaFold3等更新版本,不斷提升AI預測蛋白質(zhì)與小分子結(jié)合影響的能力。據(jù)該公司表示,與現(xiàn)有預測方法相比,AlphaFold3在蛋白質(zhì)與其他分子類型的相互作用預測上至少提高了50%,對于某些重要相互作用類別的預測準確率更是翻倍。然而,Baker強調(diào),挑戰(zhàn)遠未解決。例如,即使一個結(jié)合蛋白能夠很好地與目標結(jié)合,也并不意味著它就能發(fā)揮預期的生物功能。有些結(jié)合蛋白可能激活靶點,而有些則可能阻斷靶點,而AlphaFold等程序并不總能區(qū)分這兩種情況。此外,生成式AI系統(tǒng)還容易“幻化”出自然界中不存在的蛋白質(zhì)結(jié)構(gòu),這反映了AI在追求最優(yōu)解時可能忽視生物物理學的實際限制。為了克服這些挑戰(zhàn),Ingraham認為,更好地理解生物物理學以及獲取更多關于蛋白質(zhì)如何與分子結(jié)合的高質(zhì)量數(shù)據(jù)至關重要。他的公司正在通過整合盡可能多的蛋白質(zhì)相互作用和功能數(shù)據(jù),以及模型生成的設計高通量數(shù)據(jù),來尋找通用的解決方案。這一努力旨在充分利用現(xiàn)有的蛋白質(zhì)信息,推動蛋白質(zhì)設計領域向更高層次發(fā)展。
新催化劑
科學家們正致力于利用計算工具設計具有全新功能的酶,如清除二氧化碳的催化劑或分解塑料的酶,以期解決環(huán)境問題。雖然從具有類似功能的天然酶出發(fā)看似合理,但蛋白質(zhì)結(jié)構(gòu)與功能之間的復雜關系卻構(gòu)成了重大挑戰(zhàn)。相似的形狀并不總意味著相似的功能,而看似無關的酶卻可能執(zhí)行相同任務。
天然酶雖為進化產(chǎn)物,但其結(jié)構(gòu)未必是設計新酶的理想起點。研究人員需深入分析酶在進化中的保守序列,以確定哪些部分對功能至關重要。然而,即使進化保守的序列也可能包含看似無用實則關鍵的氨基酸鏈,它們影響著蛋白質(zhì)與其他分子的結(jié)合或構(gòu)象變化。為應對這一挑戰(zhàn),研究人員正開發(fā)新方法以識別并利用這些關鍵部分。Baker及其團隊利用射頻擴散技術創(chuàng)造了水解酶,并通過機器學習分析酶的活性位點,進而構(gòu)建全新蛋白質(zhì)。盡管他們已成功設計出能以新方式水解底物的酶,但將活性位點轉(zhuǎn)移到新蛋白質(zhì)環(huán)境中仍面臨挑戰(zhàn)。蛋白質(zhì)的動態(tài)性使得這一任務更加復雜。蛋白質(zhì)并非靜態(tài)物體,而是處于不斷運動中。當動態(tài)變化出現(xiàn)時,現(xiàn)有的建模方法往往難以準確預測。因此,研究人員需進一步探索蛋白質(zhì)的動態(tài)特性,以更精確地設計具有全新功能的酶。盡管挑戰(zhàn)重重,但科學家們?nèi)詫τ嬎愎ぞ咴诘鞍踪|(zhì)設計領域的潛力寄予厚望。
構(gòu)象變化
蛋白質(zhì)構(gòu)象多變,受溫度、pH值、化學環(huán)境及分子結(jié)合等因素影響。然而,實驗通常只能捕捉到最穩(wěn)定構(gòu)象,難以揭示蛋白質(zhì)活躍態(tài)。計算所有可能構(gòu)象對超級計算機也是巨大挑戰(zhàn),因一個僅含100個氨基酸的蛋白質(zhì)就有3的100次方種可能構(gòu)象。Microsoft Research的機器學習科學家Kevin Yang說,要真正了解蛋白質(zhì)的工作原理,研究人員需要了解其潛在運動和構(gòu)象的全部范圍--這些替代形式不一定在PDB中。機器學習雖能助力縮小范圍,但受限于訓練數(shù)據(jù)不足。為解決此問題,研究人員正設計大型蛋白質(zhì)庫,通過變異揭示蛋白質(zhì)動態(tài)變化。同時,設計能在兩種構(gòu)象間切換的蛋白質(zhì),既助訓練AI模型,又可為構(gòu)建復雜分子機器提供構(gòu)件。
此外,有團隊開發(fā)算法如AF-Cluster,引入隨機性探索其他構(gòu)象,但適用性尚待驗證?傮w而言,蛋白質(zhì)構(gòu)象的多樣性和動態(tài)性為研究和設計帶來了巨大挑戰(zhàn),也激發(fā)了科研人員不斷探索新的解決方法。
復雜的創(chuàng)造
除了酶,研究人員還在探索設計其他功能多樣的蛋白質(zhì),如自組裝結(jié)構(gòu)、載體、產(chǎn)生物理力或糾正折疊錯誤等。計算設計已在醫(yī)療領域取得突破,如SKYCovione疫苗的成功,展示了計算蛋白質(zhì)設計的實際應用潛力。
現(xiàn)在,研究人員正利用機器學習開發(fā)更多功能,如空心納米粒子用于藥物傳輸。然而,對于更復雜結(jié)構(gòu)如細菌鞭毛,因缺乏足夠理解透徹的例子,機器學習仍面臨挑戰(zhàn)。因此,人類研究人員需要思考構(gòu)成分子機器的部件,并使用設計工具逐一創(chuàng)建。這些部件可能包括分子開關、車輪、車軸及邏輯門系統(tǒng)等。Kortemme的實驗室正在設計可納入合成信號轉(zhuǎn)導級聯(lián)的細胞信號分子,以拓展蛋白質(zhì)設計的應用范圍。Wang強調(diào),在蛋白質(zhì)的巧妙重組中,人類的聰明才智將發(fā)揮關鍵作用。研究人員正致力于制造蛋白質(zhì)的螺絲、螺栓、杠桿和滑輪等基礎構(gòu)件,并探索其創(chuàng)新應用。未來,如何巧妙利用這些構(gòu)件,將決定蛋白質(zhì)設計的無限可能。
從錯誤中學習
盡管蛋白質(zhì)設計在預測算法上取得進步,但仍然很難一次就生成準確結(jié)果。Steinegger指出,算法驗證與軟件發(fā)展存在時間不匹配,導致算法難以從錯誤中吸取教訓。此外,研究人員往往不公布負面結(jié)果,限制了有用信息的共享。為解決這些問題,Khmelinskaia強調(diào)合作的重要性,認為建立涵蓋多方面技能的團隊是挑戰(zhàn),但合作能加速研究進展。Yang也表示,計算機資源和數(shù)據(jù)已就緒,合作將推動領域更快發(fā)展。