融合蛋白质语言模型和图像修复模型,麻省理工与哈佛联手提出PUPS ,实现单细胞级蛋白质定位

蛋白质亚细胞定位(subcellular localization of a protein)是指蛋白质在细胞结构中具体的定位情况, 这对蛋白质行使其生物学功能至关重要。举个简单例子,如果把细胞想象成一个庞大的企业,其中细胞核、线粒体、细胞膜等对应总裁办、发电部、门岗等不同的部门,那么只有对应的蛋白进入正确的「部门」才能使其正常工作,否则便会导致某些疾病发生,如癌症、阿尔兹海默病。因此,精准定位蛋白质亚细胞可以说是生命科学的核心任务之一。

尽管科研界已经对不同细胞系中的数千种蛋白质进行了空间定位分析,但到目前为止,已测量的蛋白质与细胞系组合数量还只是其中的冰山一角。比如当前最大的亚细胞定位数据集——人类蛋白质图谱(Human Protein Atlas,HPA),提供了 13,147 个基因编码的蛋白质亚细胞定位(占已知人类蛋白质编码基因的 65%), 但是整个数据集包含了 37 个细胞系,而每种蛋白质最多只能在其中三株中进行测量。与此同时,主流的实验手段很难在同一细胞中同时检测所有蛋白质数量,这严重阻碍了全面分析复杂的蛋白质网络,增加了实验复杂度和误差风险。

除此之外,蛋白质定位并非静止不变的,它的变异性不仅体现在细胞系之间,甚至在同一细胞系的单个细胞间也会发生,而现有数据图谱记录的蛋白质和细胞系对仅反映了特定条件下的结果。因此,即便是现有成果也很难直接套用,需要根据环境变化而对蛋白质定位进一步探索。

为了解决蛋白质亚细胞定位技术方法的局限性和生物系统复杂性之间的矛盾,机器学习被寄予厚望。如今已经建模并成功应用的如基于蛋白质序列的模型、基于细胞图像的模型等,虽然在某些方面表现亮眼,但不足之处也十分突出——前者忽视了细胞类型的特异性定位差异,后者则缺乏推向未知蛋白研究的泛化能力。

有鉴于此,来自美国麻省理工学院和哈佛大学的研究团队提出了一种结合蛋白质序列和细胞图像来进行未知蛋白质亚细胞定位的预测框架,命名为 Predictions of Unseen Proteins’ Subcellular localization(PUPS)。 PUPS 创新地结合了蛋白质语言模型和图像修复模型来预测蛋白质定位,使其兼并推向未知蛋白预测的泛化能力和捕获细胞可变性的细胞类型特定预测。实验证明,该框架能够准确预测训练数据集之外新实验中蛋白质的定位,具有极佳的泛化能力和高度的准确性,应用潜力突出。

在这里插入图片描述

PUPS 技术研究背景,目标及现有数据的局限性

研究成果以「Prediction of protein subcellular localization in single cells」为题,已发表于 Nature Methods 。

研究亮点:

  • 所提研究创新地结合了蛋白质语言模型和图像绘制模型,利用蛋白质序列和细胞图像进行蛋白质定位预测,弥补了过往计算模型的不足*

  • PUPS 能够推广到未知蛋白质和细胞系,从而评估细胞系之间以及细胞系内单个细胞间蛋白质定位的变异性,并识别与具有可变定位的蛋白质相关的生物过程

  • 在训练数据集之外的新实验中,PUPS 同样展示了其高度精确的预测能力,具有突出的应用潜力和医学价值

在这里插入图片描述

论文地址:

https://go.hyper.ai/LeaQF

数据集:以尽可能全面的数据打造可信模型

PUPS 的训练数据集来自于人类蛋白质图谱(Human Protein Atlas,HPA), 研究团队将第 16 版 HPA 数据汇总到第 22 版当中,以尽可能多的收集蛋白质的数据,确保实验分析的全面性。如下图所示:

在这里插入图片描述

训练集(绿色),保留集 1(橙色),保留集 2(红色) HPA 中未采用部分(灰色),HPA 中不包含部分(白色)

具体来说,训练数据集包含 340,553 个细胞数量,蛋白质变体共 8,086 种,对应 HPA 中 37 种细胞系中的 2,801 个基因,这些基因名称以字母 A-G 开头。另外,训练数据集中还额外包含了 10 个基因,包括 IHO1 、 IMPAD1 、 INKA1 、 ISPD 、 ITPRID1 、 KIAA1211L 、 KIAA1324 、 LRATD1 、 SCYL3 、 TSPAN6 。

保留数据集分为两部分:一部分为保留数据集 1, 包含 36,552 个细胞,蛋白质变体由 9,472 种构成,对应 3,312 个基因(含训练集中的 2,801 个),名称同样以 A-G 开头,但来自不同的细胞系,与训练集无重叠。同时,保留数据集 1 进一步被拆分为两个部分,用作评估集和测试集,分别包含 11,050 和 25,502 个细胞;保留数据集 2 含有 24,007 个细胞,对应 515 个基因, 其名称以字母表所有字母开头,即涵盖 A-Z,蛋白质变体共 556 种,来自完全未在训练集和保留数据集 1 中出现的新基因家族,可用于模型泛化能力的测试。

另需说明的是,BJ 细胞系图像被同时保留在了训练集和保留数据集 1 中。

在实验之前,研究团队对 HPA 中的图像进行了预处理,简单来说包含以下 5 步:

  • 第一步,对每张图像向下采样 4 次,最终分辨率降至 0.32 μm/像素,以便减少计算量并去除高频噪声;

  • 第二步,结合高斯模糊(σ=5)和 Otsu 阈值法从复杂背景中分离出细胞核的大致区域;

  • 第三步,使用 remove_small_holes 函数,移除面积小于 300 像素的孔洞,然后将图像二值化,并去除小于 100 像素的噪声区域;

  • 第四步,计算每个细胞核的质心,并以质心为中心,裁剪出 128 x 128 像素的区域作为单个细胞的 ROI;

  • 第五步, 通过强度归一化 和噪声过滤,实现标准化数据分布,减少通道间干扰。

模型架构:结合蛋白质序列和图像表征预测蛋白质亚细胞定位

PUPS 模型主要由两个部分组成,一个用于从蛋白质的氨基酸序列中学习序列表示;另一个用于从靶细胞的标志性染色中学习图像表示, 然后结合蛋白质序列表示和图像表示来预测蛋白质在靶细胞中的亚细胞定位。前者使模型能够推广到未知蛋白质预测,后者使模型具备捕获单细胞水平的变异性,实现了细胞类型特异的定位预测。如下图所示:

在这里插入图片描述

未知细胞系中未知蛋白质亚细胞定位演示

简单来说,PUPS 利用了预训练的 ESM-2(Evolutionary Scale Modeling)蛋白质语言模型提取蛋白序列 特征 ,同时用 卷积神经网络 学习细胞的标志性染色图像特征,最终结合两部分信息预测蛋白质在靶细胞中的定位。 需要说明的是,模型所有部分同时进行训练,有助于减少前置任务的分类损失,以及预测蛋白质图像与 HPA 中实验测量的蛋白质图像之间的差异。所有参数使用 Adam 优化器进行优化,学习率为 1e-4 。

蛋白质语言模型

PUPS 通过使用语言模型、自注意力层以及一个辅助预训练任务来学习序列表征,然后根据学习到的序列表征对蛋白质定位进行分类。

具体来说,研究团队通过将 N 端 2,000 个氨基酸序列输入到预训练 ESM-2 模型中,获得特定蛋白质变体的初始表示,从而为每个氨基酸残基生成 1,280 维向量,残基少于 2,000 的变体采用零填充。这种序列长度截断是为了避免对序列长度高达数万个残基的少数蛋白质进行偏倚预测。如下图所示:

在这里插入图片描述
基于预训练 ESM-2 模型与轻量注意力层的蛋白质序列表征学习模型架构

为了使 ESM-2 表征适应于蛋白质定位预测,团队在后续采用了可分离卷积(separable convolutions)的轻注意力层, 应用于 ESM-2 表示最终获得 300 维序列表征。这种蛋白质序列表示既用于预测定位标签的辅助前置任务,同时也用于与图像表示相结合的蛋白质图像预测。前置任务将蛋白质序列表示输入到一个全连接的神经网络层,以输入一个 29 维向量,表示 29 个亚细胞区室定位标签中的概率分布,然后利用 S 型激活(sigmoid activation)的二元交叉熵损失将前置任务输出结果与 HPA 注释的蛋白区室进行比较。

图像绘制模型

每个细胞的图像输入包含了细胞核、微管和内质网染色这 3 个标志性染色图像通道, 其维度为 3 x 128 x 128,并以细胞核质心为中心。

图像编码通过 5 个可分离卷积层实现, 最终维度 16 x 16 x 512 。每个卷积层之后依次连接 leakyRelu 激活,批归一化以及 2D 最大* 池化 层。蛋白质序列表示被拼接至细胞图像表示的所有空间维度,随后输入 U-Net 图像解码器,为每个输入通道学习不同 权重 *。此外,模型中的空间维度加权机制允许图像表征的每个空间维度以不同权重与序列表征相结合。

解码器由 5 个可分离卷积层构成, 生成 1 x 128 x 128 的图像输出,即对应细胞的蛋白质图像预测。然后将类似于图像分割 U-Net 的跳跃连接(skip connentions)添加在标志染色生成图像表示的编码层与同深度生成蛋白质图像预测的解码层之间。研究采用了均方误差损失函数训练模型,以最小化预测蛋白质图像与实验测量蛋白质图像之间的差异。

实验结果:实现单细胞级蛋白质亚细胞精准定位

为了验证模型的可行性和有效性,研究团队提出多项实验进行验证,PUPS 在多项任务中均表现出较好的性能,凸显了其多模型融合的优势。

预测细胞系间蛋白质定位的变异性

为了评估 PUPS 在定量分析蛋白质于细胞系间定位变异性方面的性能,研究团队通过计算蛋白质核内比例量化定位变异性,发现预测值与真实数据高度相关, Holdout 1 的 pearson 相关系数为 0.794,Holdout 2 的 pearson 相关系数为 0.878 。如下图所示:

在这里插入图片描述

PUPS 精准预测不同细胞系间蛋白质定位的差异

随后进一步分析显示,细胞系间定位变化最大的蛋白质与转录、细胞分化和染色质调节等生物过程相关,如 ATP13A5 的实验验证证实了模型预测的准确性。此外,模型通过标志性染色捕捉细胞形态差异,无需细胞系标签即可推断蛋白质定位的细胞系特异性,为研究蛋白质功能的细胞特异性调控提供了新方法。

预测单细胞间蛋白质定位的差异性

为了评估 PUPS 对同一细胞系内单细胞间蛋白质定位变异性的预测能力,研究团队计算了每个细胞系中所有单细胞中蛋白质的核内比例方差,结果发现每种蛋白与细胞系对的单细胞变异性预测排名与真实数据高度一致, 如 Holdout 2 中前 500 个高变异对重叠率超过了 60%,并且预测的核内比例分布与实际结果一致,排除了预测误差影响。

在这里插入图片描述

PUPS 可预测细胞系内单细胞中蛋白质定位的可变性

另外 Gene ontology(GO)分析表明,高度可变的蛋白质与细胞分裂、转录、双链断裂修复以及凋亡等过程有关。此外,模型通过细胞标志性染色图像捕捉形态等特征,表明了单细胞变异性不仅具有随机性,还与细胞形态特征相关, 为解释单细胞异质性机制提供了新视角。

PUPS 在训练数据之外的新实验中的验证

为了验证 PUPS 在新的实验环境下预测蛋白质定位的泛化能力,研究团队选择了 9 种蛋白质在 5 个细胞系中进行验证。如下图所示:

在这里插入图片描述

PUPS 在 HPA 之外的实验中预测蛋白质亚细胞定位的能力

ATP13A5 、 CHID1 、 COPA 、 MESD 和 RBM23 为细胞系间变异最大的蛋白,它们都有不同的 GO term;DDIT3 和 N4BP2 是细胞系内单个细胞中变异最大的蛋白;EIF4G1 和 PSME3IP1 是细胞系间变异最小的蛋白,前者预计主要位于细胞核外,后者预计主要位于细胞核内。 5 个细胞系中,除 A375 外,其他 HeLa 、 MCF7 、 GAMG 和 HEK293FT 均包含在 HPA 中。

结果显示,PUPS 预测的蛋白质图像在视觉上与实验测量的图像相似。 利用预测蛋白图像计算的每个单细胞的核蛋白比例与实验测量图像计算的比例密切相关,pearson 相关系数为 0.767 。这表明,PUPS 可以用于定量预测以前没有实验测量或在训练图谱中使用的蛋白质的定位。

PUPS 学习到有意义的蛋白质和细胞表征

实验证明,PUPS 在未知蛋白质和细胞系中预测蛋白质定位的能力来自于学习到了蛋白质序列和细胞标志性图像的有意义表示。

研究团队绘制了对应于 12,614 个基因的 40,622 个蛋白质形态的蛋白质序列表示,具有相似定位的蛋白质往往具有相似的序列表示。为进一步证明模型能识别有意义的蛋白质序列模式以及预测定位,研究团队使用 Positional Shapley 方法计算了特定蛋白质中每个氨基酸残基对预测各细胞区室标签预测的重要性,如成功解释了 N4BP2 核定位的预测变异性,也与 CUE 结构域通泛素结合可能改变亚细胞定位的报道相符。

在这里插入图片描述

PUPS 学习有意义的蛋白质和细胞表征

除此了识别有意义的蛋白质序列基序外,研究团队进一步表明了 PUPS 从细胞标志性染色中学习单细胞的有意义表征。 其将从标志性染色中学习到的单细胞图像表示可视化,发现即使细胞系标签没有输入到模型当中,同一细胞系的单细胞也具有相似的图像表示。蛋白质和细胞标志性图像的联合表示保留了细胞系和蛋白质之间的分离,而每个细胞系内的不同蛋白质在不同细胞系之间的顺序相似。给定联合表示空间中每个细胞系的质心,从质心到特定蛋白质的向量在所有细胞系中大部分是平行的,即在给定序列表示的情况下,预测特定蛋白质的图像需要再表示空间中以相同方向移动,而不管细胞系是什么,这解释了 PUPS 通过学习有意义的蛋白质和细胞图像表示来推广到未知蛋白质和细胞系的能力。

此外,PUPS 还能预测致病突变对蛋白质定位的影响。 例如,针对核编码的线粒体蛋白 SDHD 和 ETHE1 的突变研究表明,SDHD 突变会导致其核定位比例增加,这与疾病中核基因组不稳定的机制一致;ETHE1 突变则显示胞质定位比例升高,与已知的核 – 胞质穿梭异常相关。这些结果表明,PUPS 可通过分析序列变异对定位的影响,为疾病机制研究提供新线索。

蛋白质亚细胞定位预测新解

正如上述所言,蛋白质亚细胞定位预测在生物信息学和生物学研究中都具有重大意义,PUPS 提供了一种融合多模态信息的思路,为该领域的研究画上了浓墨重彩的一笔。与此同时,该领域的研究经过数十年的发展,其成果也早已是百花齐放。

爱尔兰都柏林大学的团队在 Computational and Structural Biotechology Journal 杂志上发表了一项研究,其中围绕蛋白质亚细胞定位预测介绍了多种计算方法,包括基于序列、注释、混合及元预测等类别,同时文章还按真核生物、原核生物、病毒及多类别对亚细胞定位预测工具进行了分类介绍, 真核生物预测工具如 mLASSO-Hum 、 DeepPSL 等,原核生物预测工具如 PRED-LIPO 等。通过设计涵盖 7 个主要领域及 28 个子分类的机器学习和* 深度学习分类图,该研究提供了单类别和多类别预测工具分类法,从而方便用户查找方法、预测工具。论文以「Protein subcellular localization prediction tools」发表。

  • 论文地址:

https://www.sciencedirect.com/science/article/pii/S2001037024001156

复旦大学生物医学研究院杨力研究组与上海* 人工智能 *实验室董楠卿研究组合作,于 4 月 12 日在 Briefings in Bioinformatics 杂志在线发表了题为「Deep Generative Model for Protein Subcellular Localization」的研究论文。研究同样基于 ESM2 蛋白质大语言模型 及 U-Net 框架,开发了具备多模态处理能力的生成式深度学习模型 deepGPS 。

据介绍,deepGPS 能够接收蛋白质序列及细胞核图像作为输入,并生成蛋白质定位的文本标签及分布图像,是一种支持蛋白质亚细胞定位预测的新型「文生图」(text-to-image)多模态模型。

  • 论文地址:

https://doi.org/10.1093/bib/bbaf152

随着人工智能与生物学研究的融合加速,相关的创新性实验也在不断涌现,并逐渐打破传统方法的弊端,实现「两全其美」甚至「十全十美」的表现,从而推动生物信息学的快速发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81052.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lanqiaoOJ 4330:欧拉函数模板

【题目来源】 https://www.lanqiao.cn/problems/4330/learning/ 【问题描述】 这是一道模板题。 首先给出欧拉函数的定义:即 φ(n) 表示的是小于等于 n 的数中和 n 互质的数的个数。 比如说 φ(6)2,当 n 是质数的时候,显然有φ(n)n-1。 【题…

无人机电子防抖技术要点概述!

一、技术要点 1. 传感器数据融合 电子防抖需结合陀螺仪、加速度计、视觉传感器等多源数据,实时检测无人机的姿态变化和振动频率。例如,IMU(惯性测量单元)通过加速度计和陀螺仪测量飞行器的姿态和运动状态,结合视觉感…

Win10 安装单机版ES(elasticsearch),整合IK分词器和安装Kibana

一. 先查看本机windows是否安装了ES(elasticsearch),检查方法如下: 检查进程 按 Ctrl Shift Esc 组合键打开 “任务管理器”。在 “进程” 选项卡中,查看是否有 elasticsearch 相关进程。如果有,说明系统安装了 ES。 检查端口…

BIO、NIO、AIO 的区别与实战应用解析

导语: BIO、NIO 和 AIO 是后端面试中的经典话题,尤其在高并发、高性能场景下更是重中之重。本文将从面试官视角出发,深入剖析三者的区别、典型题目和实战解答,助你掌握答题技巧,轻松拿下这一高频考点! 一、…

电脑风扇转速不正常的原因

一、硬件故障或接触问题 1. 风扇本身损坏 扇叶卡顿或轴承磨损:灰尘堆积、异物缠绕(如头发、线缆)会导致扇叶转动阻力增大,发出异响并转速下降;轴承润滑脂干涸或老化会引起风扇噪音大、转速不稳定。电机故障&#xff…

运维打铁:生产服务器用户权限管理方案全解析

文章目录 一、引言二、方案设计2.1 权限模型选择2.2 角色定义2.3 权限分配2.4 用户与角色关联 三、相关代码注释(以 Linux 系统为例)3.1 用户创建与角色分配脚本3.2 权限设置脚本 四、常见问题解决4.1 用户无法登录4.2 用户权限不足4.3 权限文件修改后不…

在tp6模版中加减法

实际项目中,我们经常需要标签变量加减运算的操作。但是,在ThinkPHP中,并不支持模板变量直接运算的操作。幸运的是,它提供了自定义函数的方法,我们可以利用自定义函数解决:ThinkPHP模板自定义函数语法如下&a…

Fastjson利用链JdbcRowSetImpl分析

首先创建客户端 package com.yq1ng.vul;import com.alibaba.fastjson.JSON;/*** FastJsonTest** author yq1ng* date 2021/12/29 19:45* since 1.0.0*/ public class FastJsonTest {public static void main(String[] args) {String ser "{\"type\":\"co…

基于OAuth2-proxy和Keycloak为comfyui实现SSO

背景 comfyui无认证被漏扫后易被rce挖矿 攻击过程 https://www.oschina.net/news/340226 https://github.com/comfyanonymous/ComfyUI/discussions/5165 阿里云漏洞库关于comfyui的漏洞 https://avd.aliyun.com/search?qcomfyui&timestamp__1384n4%2BxBD0GitGQ0QD8ID%2F…

第R7周:糖尿病预测模型优化探索

文章目录 1.数据预处理1.1 设置GPU1.2 数据导入1.3 数据检查 2. 数据分析2.1 数据分布分析2.2 相关性分析 3. LSTM模型3.1 划分数据集3.2 数据集构建3.3 定义模型 4. 训练模型4.1 定义训练函数4.2 定义测试函数4.3 训练模型 5. 模型评估5.1 Loss与Accuracy图 6. 总结 &#x1f…

一些好用的Chrome 扩展程序

以下是按主要功能分类的 Chrome 扩展程序列表,包括其版本号、中文功能简述以及指向其主页或 Chrome 网上应用店页面的链接。 翻译与语言 沉浸式翻译 - 网页翻译插件 | PDF 翻译 | 免费 版本: 1.16.12 描述: 【沉浸式翻译】免费的(原文 / 译文&#xff0…

贪心算法题目合集2

贪心算法题目合集2 一般排序排队接水整数区间金银岛寻找平面上的极大点NOIP 2008 普及组 排座椅 推导排序规律NOIP 1998 提高组 拼数排序规则的正确性证明:全序关系证明拼数的贪心策略正确P2878 [USACO07JAN] Protecting the Flowers SP1842 [USACO05NOV] 奶牛玩杂技…

全方位详解微服务架构中的Service Mesh(服务网格)

一、引言 随着微服务架构的广泛应用,微服务之间的通信管理、流量控制、安全保障等问题变得日益复杂。服务网格(Service Mesh)作为一种新兴的技术,为解决这些问题提供了有效的方案。它将服务间通信的管理从微服务代码中分离出来&a…

如何在VSCode中更换默认浏览器:完整指南

引言 作为前端开发者,我们经常需要在VSCode中快速预览HTML文件。默认情况下,VSCode会使用系统默认浏览器打开文件,但有时我们可能需要切换到其他浏览器进行测试。本文将详细介绍如何在VSCode中更换默认浏览器。 方法一:使用VSCo…

【普及+/提高】洛谷P2613 【模板】有理数取余——快读+快速幂

题目来源 P2613 【模板】有理数取余 - 洛谷 题目描述 给出一个有理数 cba​,求 cmod19260817 的值。 这个值被定义为 bx≡a(mod19260817) 的解。 输入格式 一共两行。 第一行,一个整数 a。 第二行,一个整数 b。 输出格式 一个整数&a…

从编程助手到AI工程师:Trae插件Builder模式实战Excel合并工具开发

Trae插件下载链接:https://www.trae.com.cn/plugin 引言:AI编程工具的新纪元 在软件开发领域,AI辅助编程正在经历一场革命性的变革。Trae插件(原MarsCode编程助手)最新推出的Builder模式,标志着AI编程工具…

Python set集合方法详解

""" set()函数是个无序的去重集合,可以用来过滤重复元素 Python 提供了 2 种创建 set 集合的方法,分别是使用 {} 创建和使用 set() 函数将列表、元组等类型数据转换为集合 """# 空集合 s0 set() # 正确方式 →…

各类Agent技术的发展现状和核心痛点

AI Agent主要分类 Agent(智能体)技术是指具有自主感知、决策与执行能力的软件系统,能够在环境中完成特定任务。目前常见的Agent类型主要包括: - 基于大模型的智能体:以GPT-4等大型语言模型为核心,如AutoGP…

单片机-STM32部分:18、WiFi模组

飞书文档https://x509p6c8to.feishu.cn/wiki/WFmqwImDViDUezkF7ercZuNDnve 一、WiFi模组应用 当设备需要连接网络,实现远程控制,状态监控时,就需要添加通信模组,常见的通信模组WiFi模组、2G模组、4G模组等: 我们的板卡…

探索Qwen2ForCausalLM 架构上进行微调

简述 试验参考了mini_qwen 的开源实现 GitHub - qiufengqijun/mini_qwen: 这是一个从头训练大语言模型的项目,包括预训练、微调和直接偏好优化,模型拥有1B参数,支持中英文。这是一个从头训练大语言模型的项目,包括预训练、微调和…