Google 旗下的人工智能公司 DeepMind 又再一次聲名大噪,其名為 AlphaFold 的程式,在兩年一次名為「蛋白質結構預測競賽」(CASP)的比賽中,大勝其他隊伍。兩大頂尖科學期刊的報道標題均引述指 AlphaFold 是「格局的變革者」(a game changer),「科學」期刊指「人工智能在解決蛋白質結構方面取得勝利」,「自然」期刊表示「DeepMind 的 AI 在破解蛋白質結構方面表現突飛猛進」。
人體會使用成千上萬種不同的蛋白質,每種蛋白質包含數十到數百個氨基酸。這些氨基酸的排列決定其三維(3D)形狀,它們的結構和形狀又決定了蛋白質的功能。了解這些形狀,有助於研究人員加快了解細胞成分,可幫助開發有效藥物等工作。
在過去幾十年來,研究人員使用如「X 射線晶體學」或「低溫電子顯微鏡」等實驗技術,來解構蛋白質的 3D 結構。但是,這種方法耗時甚久,或需花費數月甚至數年時間,而且不一定成功。生物中有超過 2 億種蛋白質,但科學界只掌握當中約 17 萬種的結構。
在蛋白質領域,可謂「下層建築」決定整體結構。在 1960 年代,研究人員發現,如果他們能夠計算出蛋白質序列內的個體相互作用,就可以預測其 3D 形狀。每個蛋白質具有數百個氨基酸,每對氨基酸可以不同形式相互影響,但是,每個序列可能出現的結構數目卻是天文數字。
為了促進蛋白質結構研究領域,馬利蘭大學生物學家 John Moult 及其同事在 1994 年發起了 CASP。競賽每兩年進行一次,參加的團隊需要對約 100 種結構未明的蛋白質,推測氨基酸序列。其中部分小組計算每個序列的結構,其他小組則通過實驗確定結構。然後,主辦方會比較計算的預測結果與實驗室結果,並為預測結果的準確程度評分,分數簡稱 GDT。在 100 分之中,如得分超過 90 的話,成績已稱得上十分之高超,意味著相當吻合實驗結果。
即使是在 1994 年之初,科學家也可對預測簡單的蛋白質結構,與實驗結果相匹配。但是對於較大和複雜的的蛋白質,計算的 GDT 亦只有約 20 分。到 2016 年,最難的蛋白質只達到約 40 分,預測方式多數為與已知的蛋白質結構比較,來推測目標蛋白的結構。
DeepMind 在 2018 年首次參加比賽,當時他們的算法 AlphaFold 也是基於這種比較策略。但是 AlphaFold 還結合深度學習的計算方法,其中該軟件在龐大的數據庫,基於已知蛋白質的序列和結構上進行訓練,並學習發現模式。DeepMind 當年輕鬆獲勝,在每種結構上平均高於對手 15%,於最困難的目標贏得 GDT 最高約 60 分。
DeepMind 的 AlphaFold 負責人 John Jumper 表示,這些預測仍然太粗糙。之後,他們將深度學習結合人們砌拼圖的方法,即首先砌出小塊,然後尋找方法將小塊合併成更大的整體。
事實上,今年的 CASP 比賽中,所有團隊均有進步,但 AlphaFold 明顯技高一籌。對於各種目標蛋白,AlphaFold 的 GDT 中位數得分為 92.4。對於最具挑戰性的蛋白質,AlphaFold 的中位數為 87,比次名最佳預測高出 25 分。
主辦者甚至擔心 DeepMind 可能是以某種方式作弊。因此,評審團設計了一項特殊的挑戰:推測一種古細菌的膜蛋白(membrane protein)。十年來,研究團隊嘗試了文獻中的所有技巧,以獲取蛋白質的X射線晶體結構,但仍未有所獲。
但是 AlphaFold 仍能長驅直進,推測出一張由三部分組成的蛋白質詳細圖像,中間有兩條長長的螺旋臂。該模型使評審團能夠理解他們的 X 射線數據。在半小時內,他們的實驗結果與 AlphaFold 的預測結構相符。評審團成員、演化生物學家 Andrei Lupas 說:「這幾乎完美。他們不可能對此作弊。我不知道他們是怎麼做到的。」
歐洲生物信息研究所 Dame Janet Thornton 教授指,蛋白質折疊成三維結構堪稱是生物學上其一最大的謎團。她表示,如果能更詳細了解和預測蛋白質結構,意味著人類能夠了解更多有關生命、演化以及疾病和健康等問題。接下來,科學家希望能檢測這些數據,以確定 AI 能夠做到多準確。