病毒會“逃跑” “語言”露馬腳:
病毒可能比人們想象得更狡猾,它能不斷偽裝自己,逃避“疫苗獵人”的追捕。
一直以來,研制對抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困難,原因之一是這些病毒的變異非常迅速。這使得它們可以通過一種被稱為病毒逃逸的過程,避開特定疫苗產(chǎn)生的抗體。
美國麻省理工學(xué)院研究人員現(xiàn)在設(shè)計了一種計算病毒逃逸的新模型。該模型基于最初用來分析語言的模型,可以預(yù)測病毒表面蛋白的哪些部分更容易發(fā)生突變,從而使病毒能夠逃逸,也可以識別出不太可能發(fā)生突變的部分,使它們成為新疫苗的良好靶標(biāo)。
“病毒逃逸是個大問題。”麻省理工學(xué)院計算機科學(xué)與人工智能實驗室教授Bonnie Berger說,“流感病毒表面蛋白和HIV病毒包膜表面蛋白的病毒逃逸是造成目前沒有通用疫苗的主要原因。這兩種疾病每年都會導(dǎo)致數(shù)十萬人死亡?!?/p>
在1月15日發(fā)表在《科學(xué)》上的一項研究中,Berger及同事確定了流感、HIV和新冠病毒疫苗的可能目標(biāo)。研究人員還將該模型用于研究最近在英國和南非出現(xiàn)的新冠病毒新變種。研究人員說,尚未經(jīng)過同行評審的相關(guān)分析發(fā)現(xiàn),這些病毒的基因序列應(yīng)該被進一步調(diào)查,以確定它們是否有可能逃脫現(xiàn)有疫苗的影響。
病毒也有語言
不同類型的病毒以不同的速度發(fā)生基因突變,HIV和流感是突變最快的病毒之一。
“HIV和流感病毒突變得很快,這是它們復(fù)制生物學(xué)的結(jié)果。例如,HIV和流感遺傳物質(zhì)復(fù)制的機制容易出錯,從而導(dǎo)致突變?!痹撗芯客ㄓ嵶髡摺⒙槭±砉W(xué)院生物工程助理教授Bryan Bryson在接受《中國科學(xué)報》記者采訪時表示。
為了讓這些突變促進病毒逃逸,它們必須幫助病毒改變其表面蛋白質(zhì)的形狀,這樣抗體就不能再與它們結(jié)合。然而,這種蛋白質(zhì)不會發(fā)生使其失去功能的變化。
Berger、Bryson以及研究生Brian Hie等人,決定使用一種被稱為語言模型的計算模型對這些標(biāo)準(zhǔn)進行建模。這種模型來自自然語言處理(NLP)領(lǐng)域,最初被設(shè)計用來分析語言模式,特別是某些單詞同時出現(xiàn)的頻率。然后,這些模型就可以預(yù)測哪些單詞可以用來完成一個句子,比如要補全“薩莉在()中吃了雞蛋”,NLP模型可能預(yù)測“早餐”或“午餐”。
“我們對NLP語言模型的最新進展感到興奮,這些模型可以通過訓(xùn)練原始文本來理解人類語言。于是,我們認為,由于病毒最豐富的數(shù)據(jù)只是原始的病毒序列,我們也可以通過訓(xùn)練語言模型從病毒序列數(shù)據(jù)集中學(xué)習(xí)非常復(fù)雜的模式?!盉ryson說。
當(dāng)這種模型應(yīng)用于生物信息,如基因序列時,語法類似于確定特定序列編碼的蛋白質(zhì)是否具有功能的規(guī)則,語義意義類似于蛋白質(zhì)是否能夠呈現(xiàn)新的形狀,幫助它逃避抗體。因此,使病毒能夠逃脫的突變必須保持序列的語法性,但同時能以一種有用的方式改變蛋白質(zhì)的結(jié)構(gòu)。
用序列訓(xùn)練模型
“如果病毒想要逃離人類的免疫系統(tǒng),又不想讓自己因突變而死亡或無法復(fù)制,換句話說,它既想保持健康,又想充分偽裝自己,以便不會被人體免疫系統(tǒng)檢測到?!盚ie說。
為了模擬這一過程,研究人員訓(xùn)練了一個NLP模型來分析基因序列中的模式,該模型可以預(yù)測具有新功能但仍遵循蛋白質(zhì)結(jié)構(gòu)生物學(xué)規(guī)則的新序列。這種建模的一個顯著優(yōu)點是它只需要序列信息,這比獲得蛋白質(zhì)結(jié)構(gòu)容易得多。
此外,該模型可以在相對少量的信息上進行訓(xùn)練——在這項研究中,研究人員使用了6萬條HIV序列、4.5萬條流感序列和4000條冠狀病毒序列。
“語言模型非常強大,因為它們可以學(xué)習(xí)這個復(fù)雜的分布結(jié)構(gòu),并從序列變化中獲得一些對功能的洞見?!盚ie告訴記者,“我們在每個氨基酸位置都有大量的病毒序列數(shù)據(jù),模型通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)氨基酸共現(xiàn)和共變的這些特性?!?/p>
一旦該模型被訓(xùn)練,研究人員能使用它來預(yù)測冠狀病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列變化,這些蛋白或多或少可能產(chǎn)生逃逸突變。
“發(fā)現(xiàn)看似不相關(guān)的科學(xué)分支之間的聯(lián)系,可能會發(fā)展出來加速一個分支研究的新方法。該研究提供了一個此類聯(lián)系的示例。作者們發(fā)現(xiàn)了病毒與自然語言之間的相似之處,進而提出了一種識別突變的強大新方法,這種突變可以使病毒通過中和抗體而逃脫識別。”未參與該研究的美國國家醫(yī)學(xué)圖書館Teresa M. Przytycka等人在相關(guān)評論文章中指出。
知己知彼 阻斷逃逸
對于流感,該模型揭示了最不可能發(fā)生突變和產(chǎn)生病毒逃逸的序列是在HA蛋白的莖部。這與最近的研究一致,研究表明,針對HA莖部的抗體可以提供幾乎全面的保護,以對抗任何流感毒株。
在對HIV的研究中,研究人員發(fā)現(xiàn),該蛋白的V1-V2高變區(qū)域有許多可能的逃逸突變,這與之前的研究結(jié)果一致,他們還發(fā)現(xiàn)了逃逸概率較低的序列。
該模型對冠狀病毒的分析表明,被稱為S2亞基的刺突蛋白的一部分最不可能產(chǎn)生逃逸突變。但新冠病毒變異的速度仍是一個問題,因此目前部署的抗擊新冠肺炎大流行的疫苗將在多長時間內(nèi)保持有效尚不清楚。
“目前,對于新冠病毒,我們認為我們的模型可以迅速標(biāo)記出與以前看到的病毒序列有本質(zhì)區(qū)別的新序列,以便在實驗室進行進一步測試?!? Berger告訴《中國科學(xué)報》,“你可以想象,模型能檢查每一個新序列,而改變超過一定閾值的序列就需要在實驗室中進行進一步研究?!?/p>
初步證據(jù)表明,這種病毒的變異速度不像流感或HIV那么快。然而,研究人員最近發(fā)現(xiàn)了新加坡、南非和馬來西亞出現(xiàn)的新突變,他們認為應(yīng)該對潛在的病毒逃逸進行調(diào)查。
研究人員認為,我們面臨的問題仍然是新冠病毒的變異速度有多快。
“該病毒種類繁多,控制其復(fù)制的生物機制因人而異,所以盡管它們有共同的特征,人們?nèi)孕枰獙γ糠N病毒進行專門研究,以了解它們的突變率?!盉ryson說,“我們最好的見解將來自于動物感染模型,其中完整的免疫反應(yīng)是存在的,因此我們可以理解總的免疫壓力是如何影響病毒突變率的。之后,我們需要對新冠病毒感染者的病毒進行測序,以識別感染這些人的病毒中存在的突變。”
此外,研究人員現(xiàn)在正與其他人合作,利用他們的模型確定癌癥疫苗的可能目標(biāo),從而刺激人體自身免疫系統(tǒng)摧毀腫瘤。他們說,它還可以用于設(shè)計小分子藥物,這種藥物可能不太可能引發(fā)結(jié)核病等疾病的耐藥性。
相關(guān)論文信息:https://doi.org/10.1126/science.abd7331
https://doi.org/10.1126/science.abf6894
返回黃鶴樓動漫,查看更多。