由閱讀文字到剖析病毒基因:自然語言處理程式

A+A-
引發武漢肺炎的冠狀病毒 SARS-CoV-2。 圖片來源:NIAID/Flickr

在資訊爆炸的年代,我們的生活被各式各樣的文字所淹沒,例如各大媒體的文章、廣告傳銷,又或者朋友在社交平台的閒話家常。有些社會科學家會利用嶄新數碼工具,嘗析分析海量的文字訊息,當中最常用的有「自然語言處理」(Natural-language processing)程式。在全民抗疫時期中,這些程式就被改為分析病毒基因,效果良好。

對於人類而言,語言好像是與生俱來的能力,很自然就透過各種字詞和符號表達訊息。可是對於沒有情感認知的電腦來說,要掌握語言十分困難,因為日常語言充滿不規則的變化,也很重視句子背後的語境。自然語言處理程式就是人工智能的一個應用範疇,透過龐大數據量讓電腦反覆學習,以識別句子的結構和意思。其實自然語言處理已經融入我們的日常,例如網上即時翻譯 Google Translate、智能助手 Siri,都應用了這個原理。

然而,語言可能不單是人文世界的產物。伽利略曾經指出,自然世界是由數學語言所編寫。而在生物學的領域上,也許亦有一套語言法則在運行。麻省理工科技評論報道,有基因工程學家在過去數年,一直研究以自然語言處理程式理解字詞和句子的方式,拆解生物細胞的蛋白質序列和遺傳密碼(genetic codes)。麻省理工大學的計算生物學家 Bonnie Berger 形容,她們正在學習「生物演化的語言」(language of evolution)。

自然語言處理程式或能令我們知道武肺病毒如何入侵免疫系統。Berger 及其研究團隊就在科學界權威期刊「科學」(Science發表研究文章,利用自然語言處理程式,預測變種病毒如何避開人體免疫系統抗體的偵測,醫學上稱為「病毒免疫逃逸」(viral immune escape)。團隊認為免疫系統演繹病毒的方式,與人類演繹句子的方式相近。團體用了兩個語言學的根本概念,文法和語義(semantics),去理解病毒。

病毒的基因合適度(genetic fitness),可以被想像成文法精確度。一株能夠有效感染宿主的病毒,可以被理解為「文法正確」。病毒的變種情況則可以用語義來演繹,例如病毒改變其表面蛋白,以避開抗體,就可以想像成文字的語義改變。社會科學家通常要輸入數以百萬計的句子,來訓練一個自然語言處理程式。這次研究團隊就用上數以萬計的基因序列來進行訓練,包括 4.5 萬組流感病毒、6 萬組 HIV 病毒,另外還有今次的武肺病毒。

自然語言處理程式會把文字編碼,把語義相近的組合在一起,相反就區隔開去。病毒的話,則是按照基因序列相似度組合起來,以找出哪一個變種部分,可以令病毒避過免疫系統而不失傳染性。以句子作比喻,就是改變了語義,但又文法正確。例如,「wine growers revel in good season」(酒農因為豐收而狂歡),可以衍生為「wine growers revel in flu season」(酒農因為流感而狂歡),兩句文法上都正確,但語義卻大為不同。團隊就要找出最大而關鍵的變種。

了解變種的軌跡,可以讓醫院和公營機構及早作出準備。例如認識到流感病毒過去一年的變種情況,能大概掌握多少市民已經有病毒抗體,再籌劃今年的抗疫工作。Berger 團隊正密切追蹤武肺病毒的狀況,監視多組病毒株,包括英國、丹麥和南非的變種病毒。麻省理工大學生物工程學 Bryan Bryson 對研究成果感到鼓舞,指自然語言處理程式大大加快基因序列分析程序,人工智能學者 Brian Hie 就希望有關技術他日可以應用到病毒抗藥性的研究,以拯救更多人命。