4月21日,2022《理解未来》首期科学讲座——“AI+蛋白质结构和功能预测”在线上举行。在本次讲座上,未来论坛理事、北京大学李兆基讲席教授谢晓亮,中国工程院院士、鹏城实验室主任、北京大学博雅讲席教授高文,美国芝加哥丰田计算技术研究所教授、北京大学客座教授许锦波,聚焦AI+生命科学,分享前沿学术成果。
在主题演讲环节,高文围绕云脑II:AI for Science智能算力,以及鹏城·扁鹊大模型等最新科研成果进行分享。他介绍,为了让AI为科学问题服务,首先要打造先进自主的云态智能算力平台,支持大规模开源、开放和模型共享。他指出,鹏城云脑II已建设成为首个国产自主的E级AI算力平台,并形成了自主AI基础软件栈、AI 算法流水线,高性能并行计算等一系列支撑架构。
在AI赋能生命健康领域,鹏城实验室正在开展建设的鹏城·扁鹊大模型通过依托鹏城云脑大装置构建横跨基因和表型的多模态知识图谱、预训练模型和高精度生理生化仿真模型等,通过对人体生命组学大数据进行数据感知融合分析建模,最终服务生命健康领域的基础研究、推动健康医疗。
许锦波分享通过使用人工智能,颠覆蛋白质结构预测,改变分子生物学研究范式的突破。他指出,由于蛋白质是由二十种天然氨基酸组成,通过原子间相互作用形成稳定的三维构象,因此,准确测定蛋白质三维结构对理解蛋白功能非常重要。
在技术上,过去,科学家通过使用晶体衍射、核磁共振、冷冻电镜等实验技术,来测定原子的三维坐标,但这些技术通常存在耗时长、花费高、无法保证100%成功的问题。传统的结构预测方法基于能量最小化,需要大量的计算资源,成功率很低,而深度学习技术可以从同家族蛋白的演化关系中学习并预测残基间的相互作用关系,对于蛋白质结构预测领域起到非常关键的作用。
“通过使用人工智能,我们颠覆了蛋白质结构预测,甚至改变了很多分子生物学家的研究范式,很多人开始使用预测的结构去分析蛋白质功能。”许锦波指出,目前该领域还面临一些未解决的问题,比如当一个家族里只有一个孤儿蛋白的时候,还有蛋白质的复合物,现有方法准确度还不太理想。“我们希望准确预测蛋白质在某种特定条件下的结构,和多肽、核酸的相互作用,以及预测突变对蛋白质结构功能的影响。”许锦波表示。
在前瞻对话环节,与会学者围绕“AI for Science及AI+生命科学的未来十年”“ AI+生命科学目前面临的主要挑战”“如何促进交叉学科的融合发展”以及“产业角度的应用路径和价值”等议题展开对话。
高文指出,AI在未来十年的生命科学发展当中,将大有用武之地。例如:人类对于基因组学的分析,哪些片段具有哪些功能?哪些片段的突变会为人类健康带来怎样的影响?只要获取到足够多的数据,就可以通过AI进行计算、分析,并给出药物、饮食方面的建议,提高人们的生活质量。
高文还表示,在小分子药物设计领域,AI也将发挥关键作用。以往,药物成分大多从自然界中提取,而AI赋能后,蛋白质结构和功能得以高效测定,可以针对某些蛋白对症治疗,并通过生成或设计蛋白质结构制作药物。预计,通过AI算法以及数据模型的不断演进,该领域十年内就会实现突破。
谈到AI+生命科学的产业应用价值,许锦波表示,目前AI for Science的产业化环境很好,特别是AI for BioTech。国家在AI for BioTech领域非常重视,投资机构也非常支持硬科技领域的早期、长期投资。而从产业角度来讲,由于AI在生物制药领域为各个环节赋能,帮助行业提升了效率与准确度,因此AI在该领域的产业化也具有很好的前景。
许锦波称,根据美国公布的一份报告显示,通过AI的参与,蛋白质工程的效率提高了1倍,抗体设计的时间缩短了1倍。他相信,未来AI的赋能还将帮助整个行业实现更多突破。
谢晓亮表示,AI for Science目前的关注度很高,接下来要在细分领域中找到突破口,这就需要AI不断验证、优化和迭代,从而为基础研究赋能,实现底层突破。另外,在生命科学领域,需要AI加强对生命过程的理解,也需要生命科学家理解AI可以做什么,当他们在一起产生碰撞才有可能以问题为导向,才可以真正运用AI解决重要的生物医学问题。