科技日報記者 劉艷
百度研究院在“2022科技趨勢預測”中指出,基于AI的生物計算仍將高速發展,基礎研究和應用場景協同創新將實現新突破。這一預測首先由百度自己添上了例證。
國際頂級學術期刊《自然》(Nature)子刊《自然機器智能》(Nature Machine Intelligence)日前在線發表的百度生物計算領域最新研究成果,提出了“基于空間結構的化合物表征學習方法”,即“幾何構象增強AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),揭示了一種基于三維空間結構信息的化合物建模方法,及在藥物研發中的應用。
在該項研究中,百度螺旋槳PaddleHelix團隊首次將化合物的幾何結構信息引入自監督學習和分子表示模型,并在下游十多項的屬性預測任務中取得 SOTA,成為百度對外公開的AI賦能藥物研發的又一項重磅成果。
作為藥物研發的關鍵一環,候選化合物的性質預測就像為臨床試驗“排雷”,即提前篩選掉毒副作用高、人體吸收代謝不好等具有不良特性的化合物。
這項任務以前只能通過傳統仿真實驗進行,成本高耗時長。也有研究人員引入深度學習技術,但大多基于序列或2D圖結構建模,缺乏化合物三維空間結構信息的利用,導致化合物性質預測結果的偏差,亟須引入化合物的三維空間信息。
百度的重大突破是,在全球范圍內開創性地將化合物性質預測從“2D建模”推進到“3D建模”。同時,引入預訓練技術,利用大量無標注的化合物數據,通過自監督學習,構建GEM模型的底層能力,有望成為小分子藥物研發領域的模型底座,解決小分子藥物活性預測,成藥性預測,藥物設計等核心問題,加速藥物,特別是全新藥物的發現過程。
從實驗效果看,百度GEM模型已在14個國際學術界公認的應用任務數據集上達到業界最佳。這些數據集包括:抑制HIV艾滋病病毒復制能力的數據集、小分子的生物活性數據集、血腦屏障滲透數據集等。
在應用價值層面,百度GEM模型可高效學習化合物的空間結構知識,并自主推斷出空間結構信息,從而準確預測候選化合物的吸收、代謝、毒性等特性,幫助藥物研發更快更準地完成早期篩選,目前已經在多個合作伙伴的研發管線中實現商業化落地,有望通過AI技術探索雙靶點抑制劑新的研發范式,為癌癥病人和自身免疫性疾病病人提供更有效的治療藥物。
此外,該方法還有助于高效測量藥物-靶標相互作用,可加速新藥研發,為老藥發掘新用途,并探索多種藥物聯合使用,進一步增強療效,降低抗藥性和毒副作用,甚至療治新病癥。
百度這項生物學與計算機科學的跨學科創新,為化合物成藥性預測、小分子藥物篩選、藥物聯用等應用研究帶來諸多裨益,未來更有望擴展到蛋白領域,構建基于蛋白的表征模型,服務于大分子的藥物研發。
GEM模型已基于百度飛槳生物計算平臺螺旋槳PaddleHelix在GitHub開源。
(圖片提供:百度)