高灵敏探索质谱，滑铁卢、中原AI院团队基于深度学习的端到端方法 | 机器之心

报道

人工智能数字化转型汽车科技交叉前沿

专栏心思 Image 37: new 学堂

年度榜单2023

年度榜单

年度榜单 2023 年度榜单 2022 年度榜单 2021 年度榜单 2020 年度榜单 2019 年度榜单 2018 年度榜单 2017

A100 系列

A100 数智中国A100 Data Intelligence

A100 Original

活动 SOTA模型

数据库 PRO会员通讯

Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ScienceAI原创

2025/01/24 14:56

高灵敏探索质谱，滑铁卢、中原AI院团队基于深度学习的端到端方法

Image 44: 图片

编辑 | 萝卜皮

基于质谱的蛋白质组学中肽段鉴定对于理解蛋白质功能和动力学至关重要。传统的数据库搜索方法虽然应用广泛，但依赖于启发式评分函数，必须引入统计估计才能获得更高的鉴定率。

加拿大滑铁卢大学（University of Waterloo）和中原人工智能研究院（中原 AI 院）的研究团队提出了 DeepSearch，一种基于深度学习的串联质谱端到端数据库搜索方法。DeepSearch 利用对比学习框架下改进的基于 Transformer 的编码器-解码器架构。

与依赖离子间匹配的传统方法不同，DeepSearch 采用数据驱动的方法来对肽谱匹配进行评分。DeepSearch 还可以以零样本方式分析可变的翻译后修饰。

团队在各种数据集中验证了 DeepSearch 的准确性和稳健性，包括来自蛋白质组成多样的物种的数据集和富含修饰的数据集。这为串联质谱中的数据库搜索方法提供了新的启示。

该研究以「Towards highly sensitive deep learning-based end-to-end database search for tandem mass spectrometry」为题，于 2025 年 1 月 6 日发布在《Nature Machine Intelligence》。

Image 45: 图片

基于质谱（MS）的蛋白质组学中，肽鉴定是一项基本挑战，通常通过将实验获得的 MS/MS 光谱与理论光谱进行数据库搜索匹配。然而，现有方法依赖启发式评分函数，可能忽略大量碎片信息，需引入概率模型提高鉴定率。

近年来，深度学习技术如 DeepNovo 和 PointNovo 显著提升了从头肽测序的准确性，但仍面临蛋白质组成差异大和翻译后修饰识别不足的挑战。

最近引入的对比学习框架下的多模态基础模型显著提高了各种下游跨模态理解任务的性能，尤其是在计算机视觉和自然语言处理领域。这些模型能够学习跨不同模态的联合嵌入空间，并在零样本学习任务中表现出色。

最重要的是，这些框架下的弱监督机制不需要跨模态数据对以外的注释，从而提高了对偏差的容忍度和增强了跨数据集的稳健性。

在最新的研究中，研究人员提出了第一个基于深度学习的端到端数据库搜索方法 DeepSearch。DeepSearch 采用跨模态余弦相似度作为评分方案，而不是离子到离子匹配。

DeepSearch 在对比学习框架下进行训练，并与 MassIVE v2 上的从头测序目标联合优化，MassIVE v2 是一组基于人类 MS/MS 库构建的高质量肽谱匹配（PSM）。

Image 46: 图片

图示：数据库搜索策略和 DeepSearch 模型。（来源：论文）

为了解决在训练数据中注释 PSM 的负对和与搜索引擎算法相关的偏差的挑战，DeepSearch 采用了批量对比学习框架，该框架具有质量锚定采样方案。

与执行离子对离子匹配的传统数据库搜索引擎不同，DeepSearch 使用光谱和肽嵌入之间的余弦相似性对 PSM 进行排序，从而可以通过单个矩阵乘法进行高效计算。

Image 47: 图片

图示：搜索引擎报告了拟南芥数据集按肽长度划分的得分分布。（来源：论文）

团队在来自蛋白质组成各异的物种的多种数据集上评估了该方法。尽管 DeepSearch 只在人类光谱库上进行训练，但与所有数据集上最先进的数据库搜索引擎相比，它在 1% 伪发现率（FDR）下始终报告了相当数量的 PSM。

实验结果显示 DeepSearch 识别的大多数肽段都得到了其他搜索引擎的高度证实。这些结果表明 DeepSearch 能够准确报告肽段，并且跨物种具有稳健性。

Image 48: 图片

图示：多个数据集的蛋白质组范围数据集上 1% FDR 下的 PSM 数量。（来源：论文）

传统的数据库搜索引擎依赖于启发式评分函数，这可能会对某些肽组成产生偏差，并且这些搜索引擎还需要根据评分进行统计估计，以实现更高的识别率。

另一方面，DeepSearch 采用数据驱动的方法来对 PSM 进行评分。无论有没有统计模型，DeepSearch 都能保持稳定的性能，这可能与其评分方案的偏差较小有关。统计估计与目标诱饵搜索策略相结合对 PSM 质量的影响需要进一步仔细研究。

Image 49: 图片

图示：拟南芥数据集的蛋白质组范围肽鉴定。（来源：论文）

蛋白质组学领域中以前基于深度学习的方法通常无法进行可变翻译后修饰（PTM）分析，因为编码可变 PTM 会大幅增加标记空间。此外，将迁移学习应用于所有常见可变 PTM 的 PTM 富集数据集是不切实际的。

DeepSearch 能够报告具有磷酸化和氧化的 PTM 谱的高精度肽段。尽管如此，DeepSearch 仍需要对各种 PTM 的分析进行更多检查。

目前为止，DeepSearch 是第一种基于深度学习的方法，能够进行零样本变量 PTM 分析，而无需除 PTM 质量之外的任何先验信息。DeepSearch 通过将 PTM 移位理论谱与未修改的肽序列联合编码，绕过了标记空间限制。

论文链接：https://www.nature.com/articles/s42256-024-00960-1

理论人工智能蛋白质深度学习AI for Science

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

统计模型技术

统计模型[stochasticmodel；statisticmodel；probabilitymodel]指以概率论为基础，采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型，但可通过试验测定数据，经过数理统计法求得各变量之间的函数关系，称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性，因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

来源：百度百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

余弦相似性技术

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。

来源：维基百科

迁移学习技术

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

自然语言处理技术

自然语言处理（英语：natural language processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源：维基百科

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念，而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

来源：机器之心

展开全部数据

高灵敏探索质谱，滑铁卢、中原AI院团队基于深度学习的端到端方法

AI News

高灵敏探索质谱，滑铁卢、中原AI院团队基于深度学习的端到端方法 | 机器之心

高灵敏探索质谱，滑铁卢、中原AI院团队基于深度学习的端到端方法