(資料圖片)
定向進化是模擬自然進化機制,利用現代分子生物學方法創造大量的突變基因文庫,采用靈敏的定向篩選策略,創造出自然界不存在的或改良特性的蛋白質等生物分子的一種方法。定向進化已廣泛應用于蛋白質的分子改造和優化,被認為是生產具有改良或全新特性的蛋白質的高效方法,對于酶工程、多肽和大分子藥物設計都具有重要意義。傳統的定向進化實驗流程包括篩選測試大量突變序列的功能,將得到的最優序列作為親本序列進行下一輪的突變和篩選,實行多輪突變篩選以得到功能優化的蛋白序列。然而,傳統的定向進化方式容易陷入局部最優,且實驗所得的突變序列空間受限。
近年來,機器學習輔助定向進化得到越來越多的關注,通過計算機模型模擬實驗篩選過程,可以顯著減少實驗篩選負擔、提高篩選效率。機器學習方法最重要的是建立模型學習目標蛋白的序列突變體-功能的函數映射關系。這種映射關系被稱為蛋白質適應度圖景(protein fitness landscape),其中適應度(fitness)是一個抽象概念,可定量刻畫特定蛋白質序列具有的某種生物學功能(如蛋白的熱穩定性、與其他蛋白質的相互作用強弱、催化特定酶促反應的效率等)。由于蛋白質功能不同,適應度圖景本身的內涵各不相同。此外,蛋白質突變效應數據難以獲得、實驗費時費力、蛋白質適應度圖景較為復雜。因此,如何使用有限的實驗數據學習蛋白質適應度圖景以指導定向進化實驗成為難題之一。
中國科學院上海藥物研究所鄭明月課題組、廖蒼松課題組,提出了新的深度神經網絡模型GVP-MSA。該模型基于已有的不同類型的蛋白質適應度圖景,通過遷移學習的方式構建新的目標蛋白的適應度圖景。8月16日,相關研究成果以Learning protein fitness landscapes with deep mutational scanning data from multiple sources為題,在線發表在《細胞系統》(Cell Systems)上。
研究從蛋白質熱穩定性、上位性效應和序列保守性等多個方面,探討了適應度圖景的共同機制。蛋白質發揮功能的基礎是能夠折疊和維持穩定的三維結構。研究對不同蛋白的計算結果發現,突變導致適應度的變化和熱穩定性變化的數值上有相關性。上位性效應在不同蛋白的適應度圖景中也隱含有相似機制。上位性效應表示殘基在蛋白質中存在相互作用,導致多點突變效應并不等于其組成的單點突變效應的加和。研究發現,在不同蛋白適應度圖景中,具有正向上位效應的雙點突變的兩個氨基酸的位置在三維結構上更加接近。此外,突變效應與同源序列的隱含分布之間的關系具有共性。這些共性是適應度圖景遷移學習的基礎(圖1)。
該研究建立了一種新型的深度神經網絡模型GVP-MSA,利用預訓練的蛋白質語言模型處理目標蛋白的同源序列比對(MSA,multiple sequence alignment)信息,利用E-(3)等變圖神經網絡提取蛋白質三維結構信息,使用多任務學習的方式有效地學習整合不同維度、不同功能的蛋白質數據,從而泛化到新的目標蛋白體系。此外,該團隊設計了多種測試場景:單點突變效應的隨機和按位置外推、對新蛋白質突變效應的零樣本預測以及由單點突變效應預測多點突變效應。這些場景模擬了在定向進化實驗中不同階段的實際需求。GVP-MSA在這三種測試情景中均有良好的表現,驗證了適應度圖景遷移學習的有效性。該工作為機器學習輔助定向進化提供了新思路,有助于更加高效地探索蛋白質序列突變空間、快速設計具有改良或全新特性的蛋白質序列。
研究工作得到國家自然科學基金、臨港實驗室、國家重點研發計劃、中國科學院青年創新促進會、上海市自然科學基金以及上海藥物所與上海中醫藥大學中醫藥創新團隊聯合研究項目的支持。 ??
圖1.?蛋白質適應度圖景遷移學習的動機和基礎。a、在不同蛋白的深度突變掃描實驗中,突變導致的熱穩定性變化與適應度變化相關。柱狀圖顯示了由Rosetta計算的熱穩定性和適應度變化之間的Spearman相關性。b、具有正上位效應的雙點突變的殘基在三維結構上更加接近。粉色直方圖表示具有正向上位效應的雙點突變的殘基間距離,藍色直方圖表示所有雙點突變的殘基間距離。
關鍵詞: