2021年11月15日,中国医学科学院药物研究所天然药物活性物质与功能国家重点实验室汪小涧课题组联合奇虎360人工智能研究院的邓亚峰团队在分析化学领域权威期刊Analytical Chemistry上以封面文章在线发表了题为“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”的论文,报道了基于人工智能跨模态深度对比学习方法建立的分子结构识别的CReSS系统,该研究对于未知分子结构,特别是天然产物分子的结构识别与纠错具有重要意义。
分子结构识别是有机化学及天然产物化学的重要研究内容,通过核磁碳谱数据库搜索获得分子结构是分子结构识别研究的经典方法。但是,现有核磁碳谱数据库的容量有限,通过传统人工添加扩充碳谱数据库耗时耗力,限制了分子结构识别研究的准确率和效率。本研究团队通过前期基于图像识别的图谱信息提取系统SRCV,实现了从碳谱和氢谱中准确快速地提取数据,相关研究成果作为封面文章于2020年11月10日发表在计算化学领域权威杂志Journal of Chemical Information and Modeling。
本团队基于前期研究从文献中提取收集了大量核磁碳谱数据,并进一步创造性地采用人工智能跨模态深度对比学习方法建立核磁碳谱和分子结构式的跨模态表示模型,并基于向量检索,在行业内首次建立了用于分子结构识别的CReSS系统。该系统基于计算生成的数据做大规模预训练,并结合真实数据精调,可自主学习到核磁碳谱数据与分子结构之间的内在关系。对于千万规模的分子结构底库,采用四万条碳谱数据进行识别测试,CReSS的平均准确率约为91.64%,平均耗时仅为0.114s。增加分子量过滤器可进一步提升CReSS的识别准确率,当分子量的容差范围设置为5Da时,准确率达98.39%。目前,CReSS已支持在上亿级的分子库中进行化合物识别,且在分子结构识别与解析以及结构纠错等研究领域具有广泛的应用潜力。目前,CReSS系统已开放辅助分子结构解析研究。
该研究工作得到了国家重点研发计划项目(No.2018AAA0100400)、中国医学科学院医学与健康科技创新工程(2021-1-I2M-028)和学科建设项目(201920200802)的资助。药物所汪小涧副研究员和奇虎360人工智能研究院院长邓亚峰为本文的共同通讯作者。汪小涧课题组杨卓硕士,杨敏健博士和邓亚峰团队的宋剑飞为共同第一作者。邓亚峰团队的么琳在模型构建及算法优化作出突出贡献。
CReSS链接:http://cnmr.ai.360.cn/。
论文链接:https://pubs.acs.org/doi/10.1021/acs.analchem.1c04307
论文链接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01046