今天给大众介绍一篇由中南大学湘雅药学院曹东升教授团队在Journal of Chemical Information and Modeling近期发布的关于肝微粒体稳定性性质预测模型的文案《Enhancing Multi-species Liver Microsomal Stability Prediction through Artificial Intelligence》。该文献经过整合多个数据库的数据,构建了一个庞大的多物种肝微粒体稳定性数据集,并利用设备学习算法构建了106个共识模型。经过SHAP办法和原子热图分析,揭示了影响肝微粒体稳定性的重要特征。科研还应用MMPA办法和亚结构衍生算法,提取了与肝微粒体稳定性关联的分子转化规则。这项科研为药品开发行业供给了新预测模型和分子解释,为药品设计和筛选供给了重要的指点和支持。
引言
在当今药品开发行业,准确评定药品在区别物种中的肝微粒体稳定性针对药品代谢和毒性评定至关重要。肝微粒体是肝细胞内质网膜上的小囊泡,承载着大部分药品代谢过程中的关键酶系统,如细胞色素P450酶。认识药品在肝微粒体中的稳定性能够帮忙预测药品的代谢速率和生物利用度,从而指点药品开发的方向和策略。然而,传统的实验办法耗时耗力,且成本昂贵,限制了大规模药品筛选和评定的效率。因此呢,利用计算机辅助预测模型作为一种重要的处理方法。过去的科研显示,基于设备学习和人工智能的肝微粒体稳定性预测模型在药品开发中拥有潜在的应用前景。这些模型能够快速准确地评定海量化合物的代谢稳定性,为药品设计和筛选供给重要参考。然而,现有的肝微粒体稳定性预测模型常常受限于单一物种或特定数据类型的依赖,同期缺乏跨物种比较和实质的模型解释。
因此呢,该科研旨在构建适用于人类、大鼠和小鼠的多物种肝微粒体稳定性预测模型,并供给全面的解释和分析。经过整合多个表率性数据库的数据,构建庞大且可公开拜访的数据集,结合区别的分子表征方式和设备学习算法,科研者们致力于加强预测模型的性能和泛化能力,期盼为药品开发行业供给更准确、有效的肝微粒体稳定性评定工具,推动新药的发掘和研发。工作的整体工作流程如图1所示。
图1. 工作流程
材料与办法
首要,科研者经过广泛搜索代谢关联分子信息,从多个数据源中收集了肝微粒体稳定性的多物种数据,包含人类、大鼠和小鼠。随后,对这些数据进行多过程的预处理,包含去除无结构信息的化合物、标准化处理、消除重复标签等。最后,创建了一个包含区别物种数据的庞大数据集,包含15,344个人类数据、9,601个大鼠数据和1,978个小鼠数据。
在分子表征方面,科研者运用了分子图以及多种描述符,包含MOE2d、CATS、MACCS等描述符的计算。在模型构建与超参数优化周期,她们运用了8种设备学习算法构建肝微粒体稳定性预测模型,包含传统的随机森林、XGBoost、支持向量机和梯度提高树等算法,以及基于图的深度学习算法如图卷积网络、图重视力网络等。针对区别算法,采用了区别的超参数优化办法,如蛮力办法和Parzen估计器树(TPE)办法,以加强模型性能。最后,经过验证集评定训练模型的性能,并进行外边测试集的比较,以验证模型的准确性和适用性。
结果与讨论
模型结果
表1. 肝微粒体稳定性模型在人类、大鼠和小鼠物种测试集上的表现
科研者基于区别的分子表征方式和设备学习算法,在3个物种上创立了一共108个肝微粒体稳定性归类模型。模型结果如表1所示,与基于图的模型相比,基于描述符的模型拥有更高的预测性能。在HLM模型中,结合XGBoost算法和FCFP4指纹的模型表现出了最好的性能,测试集的AUC值为0.893,MCC值为0.616。RLM模型中, XGBoost算法和MOE2d描述符的组合性能最佳,在测试集上的MCC值为0.603。同期,结合XGBoost算法和FCFP4指纹的MLM模型性能最佳,在测试集上的MCC值为0.574。
经过结合已有的算法和描述符,科研者们还构建了106个共识模型。共识模型的结果显示,共识模型始终优于基于单个描述符集或单个算法构建的模型。当运用相同的算法并适当组合区别的描述符时,肝微粒体稳定性共识模型的预测能力能够进一步加强。
与其他过滤规则和模型的比较
表2. 多物种肝微粒体稳定性模型与其他平台肝微粒体稳定性模型的性能比较
科研者们利用额外收集的多物种肝微粒体数据做为公平比较的外边测试集。如表2所示,科研者们将创立的最佳共识模型与现有的肝微粒体稳定性预测模型(如ADME@ NCATS和vNN-ADMET)进行了比较。结果显示,科研者构建的肝微粒体稳定性模型在各自物种数据集上预测性能最好,对人类、大鼠和小鼠的预测ACC值分别为0.757、0.804和0.763。
模型解释
图2. HLM模型中最重要的10个分子描述符及其对应的SHAP值A) MOE2d描述符。(B) ECFP4指纹图谱。(C) FCFP4指纹图谱。(D) RDKit指纹图谱。
科研者选取了SHAP办法对区别物种构建的部分模型进行了整体的解释分析,结果如图2所示。SHAP办法基于Shapley值理论,经过量化每一个特征对整体预测的贡献,能够深入认识每一个样本的预测结果。除认识释每一个物种对应的肝微粒体稳定性模型外,科研者还比较了多物种模型,用来表现物种间差异性对构建模型的影响。
图3. 基于Attentive FP模型解释机制的原子热图和影响HLM条目中 (A)假阳性化合物和(B)假阴性化合物的结果输出的重要分子描述符分布图
为了更好地理解预测整体模型与详细预测之间的差异,科研者还选取了有些有表率性的分子,运用分子在模型输出供给的描述符SHAP值和Attentive FP算法的可解释层供给的原子热图进行展示,结果如图3所示。结果显示,倘若分子无正确地学习先前的模型分析范式或范式规则本身适用范围较小,那样在预测过程中可能会引起该分子被错误预测。
数据解释
科研者利用匹配分子对(MMPs)办法和先前研发的子结构生成算法,进一步揭示了分子亚结构转化与肝微粒体稳定性之间的关系,部分结果如表3、表4所示。科研者进行分析发掘,有些明显的转化规律包含了单原子转化和多原子片段转化,子结构算法提取的表率性肝微粒体稳定性亚结构有效弥补了与先前模型解释区别的结构知识。区别的物种拥有区别的表率性转化规则和亚结构,强调了构建肝微粒体的稳定性模型需要注重实验数据源自的物种差异性。
表3. 影响人类肝微粒体分子稳定性的表率性匹配分子对化学转化
表4. 影响人类肝微粒体分子稳定性的表率性亚结构
总结
科研团队指出,经过构建多种肝微粒体稳定性预测模型,包含基于描述符和基于图的模型,能够有效预测人类、大鼠和小鼠三种区别物种的肝微粒体稳定性。基于图的深度学习算法在预测精度和泛化能力上表现优异,尤其是在区别物种中的预测效果较好。经过组合区别描述符和设备学习算法构建共识模型,进一步加强了模型的预测性能和泛化能力。同期,SHAP等解释办法在模型中的应用,为理解区别物种肝微粒体稳定性的差异性供给了新的视角,有助于优化药品设计和筛选过程,推动新药的发掘和研发。
参考资料
Long, Teng-Zhi, De-Jun Jiang, Shao-Hua Shi, You-Chao Deng, Wen-Xuan Wang, and Dong-Sheng Cao. "Enhancing Multi-species Liver Microsomal Stability Prediction through Artificial Intelligence." Journal of Chemical Information and Modeling (2024).
|