助力新药研发 腾讯推全球最大耐药性数据库
科技头条| 2023-07-06 10:53:51

7月5日消息,腾讯公司5日宣布,已搭建一个海量的 MdrDB 耐药数据库,提供最全的数据信息,为 AI 研发新药提供耐药预测测试的「练兵场」。

【资料图】

据悉,这是腾讯量子实验室的最新研究成果,相关研究论文已登上了国际学术期刊 Nature 的子刊 Communications Chemistry。

看过电影《我不是药神》就知道:癌症患者后期,使用的靶向药物经常出现耐药,需要寻找新的替代药物。不止癌症,艾滋和抗生素药物都会产生耐药。这是由于癌细胞和病原体的蛋白突变所导致的。

打个比方,关键蛋白是解决癌细胞/病原体的「门锁」,但由于细胞进化和药物刺激,蛋白突变几乎不可避免。而无法预知蛋白的突变方向,就无法定向研发能够解决疾病的药物来做“钥匙”。

AI 学,可以为预测蛋白、研制新药提速。但全世界都面临的最大问题是——蛋白突变的数据样本不足,对耐药测试造成了很大的数据缺口。

针对数据量不足,腾讯发布的 MdrDB 耐药数据库,首先在量上做到第一:从包括 GDSC、DepMap 等公开的行业数据集内,搜集了接 10万个样本,总共收纳了 240 种蛋白质(总共 5119 个 PDB 结构)、2503 个突变和 440 种药物,涵盖了各种蛋白质家族的突变信息。

这个样本量总共达到了 10 万,是行业第二名的 100 倍。丰富的数据量,能够为 AI 进行药物的耐药测试提供足够的训练样本。

为了让 AI 更好消化数据,量子实验室耗时半年,搭建了一套数据的加工流程:通过细胞系的数据清洗,数据库内将野生型蛋白、突变蛋白等蛋白质类型,单点突变、删除突变等突变类型分门别类,方便AI随时「调阅」。

最后,通过自研的 Mutfold 蛋白质突变预测台和蛋白质折叠算法,能就生成一个可视化的蛋白质三维结构「锁孔」样本,可供进行药物分子的结合模拟,提供耐药数据。

新药研发,必须经过大量的测试,以确认能够匹配突变蛋白。更全面、更多维的数据库,能更有效助力进行突变诱导耐药的预测、联合治疗策略的开发以及创新药物的研发。

在海量数据的加持下,MdrDB 也实现了能的突破:在就 MdrDB 与其它行业公开耐药数据库作为训练数据、分别在10种经典机器学模型上进行测试的实验中,与其它数据库相比,模型的预测值与真实值的均方根误差从 0.907 下降至 0.656,相关从 0.094 提升至 0.607,耐药的分类能则从 0.243 提升至 0.538。

经过测试,使用 MdrDB 的AI耐药预测精准度提升30%。这也是自2020年打造 AI 药物研发台云深智药(idrug)以来,腾讯又一次探索前沿技术助力药物研发。

目前,MdrDB 已向行业和学术机构全面开放。未来,MdrDB 还将持续更新耐药数据。

精彩推荐
热点推荐