单细胞转录组学和空间转录组学数据的整合方法

文章目录

- - 问题1：现有技术是否可以拿取固定数目的细胞进行组合形成spot
  - 问题2：是否有关于这方面的研究
  - 问题3：相关论文推荐
  - 一、细胞反卷积的核心目标与挑战
  - 二、单细胞与空间转录组数据的整合方法分类
  - - 1. 概率型方法（Probabilistic-based）
    - 2. 非负矩阵分解型方法（NMF-based）
    - 3. 深度学习型方法（Deep learning-based）
    - 4. 最优传输型方法（OT-based）
    - 5. 参考-free方法（无需scRNA-seq）
  - 三、整合的核心流程
  - 四、关键结论
  - 问题1：文章针对不同方法使用的数据集策略是不同的吗？
  - 问题2：文章中存在关于构造模拟数据集的描述吗？
  - 问题3：从Tangram开始了解单细胞转录组学和空间转录组学数据的整合方法怎么样？同时对于无监督方法SpiceMix怎么样，值得了解吗？

推荐文章
1. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram
2. Robust decomposition of cell type mixtures in spatial transcriptomics
3. Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics

问题1：现有技术是否可以拿取固定数目的细胞进行组合形成spot

从目前已有的公开技术和文献来看，在实验室中理论上可以通过人工操作来尝试拿取固定数目的细胞进行组合形成类似spot的模拟样本，但实际操作面临诸多挑战，且与Visium等技术的原生原理和应用场景存在差异：

实验操作层面：利用显微操作技术或基于微流控的单细胞分选技术，可以挑选特定类型和数量的细胞。例如，使用流式细胞仪先对上皮细胞和间质细胞进行分选标记，再通过微流控芯片上的微通道，按照5个上皮细胞、12个间质细胞这样的设定进行组合。然而，Visium技术本身是基于组织切片自然状态下的RNA捕获，组织中的细胞紧密相连且存在复杂的微环境相互作用，人工组合细胞难以完全模拟这种自然的细胞间关系和微环境。
数据模拟层面：即使人工构建了模拟spot样本，对于后续反卷积算法的模拟也存在问题。反卷积算法通常假设混合信号来自自然组织中随机分布的细胞类型混合，而人工设定比例的数据可能与真实数据的分布特征差异较大，导致算法在这种模拟数据上的表现无法准确反映其在真实Visium数据上的性能。
Ground truth保障层面：虽然人工组合时细胞比例是已知的，看似ground truth有保障，但在实际实验过程中，细胞的状态、基因表达的稳定性等因素可能会因为人工操作而改变。例如，细胞在分离和重新组合过程中可能受到机械应力、渗透压变化等影响，导致基因表达与自然状态下不同，从而影响作为ground truth的可靠性。

问题2：是否有关于这方面的研究

关于人工构建特定细胞比例的模拟spot用于空间转录组反卷积研究的报道较少。原因在于这种模拟方式与实际的空间转录组数据产生过程差异较大，对解决实际问题的帮助有限。更多的研究是围绕如何利用真实的单细胞转录组（scRNA-seq）和空间转录组数据进行更准确的反卷积算法开发、数据整合等。不过，在一些数据增强或算法验证的研究中，可能会涉及到一定程度上对细胞比例的人工调整或模拟，但并非完全按照固定细胞数目组合的方式。

问题3：相关论文推荐

《Robust decomposition of cell type mixtures in spatial transcriptomics》：这篇论文提出了RCTD（Robust Cell Type Decomposition）方法，用于将单细胞RNA测序数据中的细胞类型注释转移到空间转录组学数据上。文中虽未涉及人工构建特定细胞比例的模拟spot，但详细介绍了如何利用单细胞和空间转录组数据进行细胞类型反卷积分析，是空间转录组反卷积领域的重要文献。
《Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics》：探讨了单细胞转录组学和空间转录组学数据的整合方法，研究如何通过整合两种数据来揭示细胞间的组织动态变化，对于理解空间转录组数据中细胞类型的解析和细胞间相互作用分析有重要参考价值。

该文章重点探讨了空间转录组数据的细胞反卷积（cellular deconvolution）任务，即解析低分辨率斑点（spot）中混合的细胞类型比例，并详细阐述了单细胞转录组学（scRNA-seq）与空间转录组学数据的整合方法。以下是核心内容：

一、细胞反卷积的核心目标与挑战

空间转录组技术（如10X Visium）的低分辨率斑点常包含多种细胞类型，导致真实转录模式被掩盖。反卷积的核心目标是量化每个斑点中不同细胞类型的比例，从而恢复组织的细胞水平异质性。其主要挑战包括：斑点中细胞类型混合、scRNA-seq与空间转录组数据的平台差异，以及高dropout率对稀有细胞类型检测的影响。

二、单细胞与空间转录组数据的整合方法分类

文章将18种反卷积方法分为需要scRNA-seq参考和无需scRNA-seq参考两大类，其中15种方法依赖同一组织的scRNA-seq数据作为参考，核心是通过scRNA-seq的细胞类型特征解析空间斑点的混合信号。具体整合策略基于计算技术可分为5类：

1. 概率型方法（Probabilistic-based）

原理：基于统计模型假设细胞类型比例服从特定概率分布，利用scRNA-seq的细胞类型表达谱作为先验，推断空间斑点中细胞类型的后验概率。
代表方法：
- Cell2location：通过贝叶斯模型训练，将scRNA-seq的细胞类型特征与空间转录组数据匹配，精准映射细胞类型比例。
- RCTD：通过校正平台效应（如基因表达差异），利用scRNA-seq的细胞类型“签名”（signature）识别空间斑点中的细胞类型组成。

2. 非负矩阵分解型方法（NMF-based）

原理：将空间转录组的基因表达矩阵分解为“细胞类型特征矩阵”（来自scRNA-seq）和“细胞类型比例矩阵”，通过迭代优化使分解结果与观测数据匹配。
代表方法：
- CARD：结合空间位置信息（如邻域相关性），通过NMF分解优化细胞类型比例推断，提升空间模式一致性。
- SPOTlight：以scRNA-seq的细胞类型特征为种子，通过NMF回归分解空间斑点的混合信号。

3. 深度学习型方法（Deep learning-based）

原理：利用神经网络学习scRNA-seq与空间转录组数据的映射关系，捕捉复杂的基因表达模式。
代表方法：
- Tangram：通过深度神经网络将scRNA-seq的细胞映射到空间位置，优化细胞类型与空间斑点的匹配度，尤其适用于大样本数据。

4. 最优传输型方法（OT-based）

原理：基于最优传输理论，将scRNA-seq的细胞视为“源”，空间斑点视为“目标”，通过最小化传输成本（如基因表达差异）推断细胞类型比例。
代表方法：
- novoSpaRc：通过最优传输模型匹配单细胞与空间斑点的基因表达分布，兼顾空间位置约束。

5. 参考-free方法（无需scRNA-seq）

原理：仅利用空间转录组的基因表达和空间位置信息，通过矩阵分解或潜在主题模型识别潜在细胞类型。
代表方法：
- STdeconvolve：借鉴自然语言处理中的潜在狄利克雷分配（LDA）模型，将基因表达视为“词”、斑点视为“文档”，推断潜在“主题”（对应细胞类型）。

三、整合的核心流程

数据预处理：
- scRNA-seq数据需进行细胞类型注释，提取每种细胞类型的特征基因表达谱；
- 空间转录组数据需标准化基因表达，并关联空间坐标信息。
模型训练与优化：
- 以scRNA-seq的细胞类型特征为参考，通过上述计算方法（如概率模型、NMF、深度学习）将空间斑点的混合表达分解为细胞类型比例；
- 部分方法（如CARD、Tangram）会结合空间邻域信息（如斑点间的位置相关性）提升推断准确性。
结果验证：
- 对模拟数据（如MERFISH、seqFISH+，已知细胞类型比例），通过JSD、RMSE评估准确性；
- 对真实数据，通过细胞类型标记基因的空间表达模式与推断比例的相关性（PCC）验证。

四、关键结论

文章通过 benchmark 发现，CARD、Cell2location、Tangram 在准确性、稳健性和可用性上表现最优。这些方法均依赖scRNA-seq参考，核心是通过整合单细胞的细胞类型特征与空间转录组的位置信息，实现对混合斑点的精准解析。而参考-free方法（如STdeconvolve）适用于缺乏scRNA-seq数据的场景，但准确性依赖于数据的空间异质性。

综上，该文章中的整合方法本质是将scRNA-seq的“细胞类型特征”作为“解码器”，解析空间转录组中混合信号的“细胞类型比例”，从而实现从单细胞分辨率到空间位置的关联。

问题1：文章针对不同方法使用的数据集策略是不同的吗？

文章针对不同方法使用的数据集策略存在差异。从数据类型上看，使用了模拟数据集和真实数据集。对于模拟数据，如MERFISH和seqFISH+，其具有单细胞分辨率，通过以统一的方形大小对细胞进行分箱（binning）来模拟低分辨率斑点，根据不同细胞类型在每个斑点中的数量计算真实值（ground truth），用于评估方法在已知细胞类型比例情况下的准确性。而对于测序基的空间转录组数据（ST、Visium、Slide-seqV2和stereo-seq），则直接利用这些数据来模拟实际应用场景下的细胞反卷积任务。

从方法分类角度，对于需要单细胞RNA测序（scRNA-seq）参考的方法，如CARD、Cell2location等，在评估时会收集相应组织的scRNA-seq数据集作为补充资源，利用scRNA-seq数据中的细胞类型注释和细胞类型特异性基因表达谱，来优化空间转录组数据中各细胞类型的比例推断。对于无需scRNA-seq参考的方法，如Berglund、SpiceMix和STdeconvolve，仅依靠空间转录组数据中斑点的空间位置信息和基因表达谱来识别细胞类型特异性空间模式。

问题2：文章中存在关于构造模拟数据集的描述吗？

文章存在关于构造模拟数据集的描述。文中利用具有单细胞分辨率的图像基空间转录组数据（seqFISH+和MERFISH）来构造模拟数据集。具体方式是通过以统一的方形大小对细胞进行分箱（binning），将单细胞数据整合为低分辨率斑点，模拟空间转录组技术中低分辨率斑点包含多种细胞的情况。例如，seqFISH+和MERFISH数据包含基因表达谱、空间位置和细胞类型注释，通过设定不同的分箱大小（如seqFISH+的51.5μm和100μm，MERFISH的20、50和100μm ），可以生成不同分辨率的模拟斑点。并且，根据每个模拟斑点中不同细胞类型的细胞数量，能够计算出真实值（ground truth），用于后续评估细胞反卷积方法的准确性。

问题3：从Tangram开始了解单细胞转录组学和空间转录组学数据的整合方法怎么样？同时对于无监督方法SpiceMix怎么样，值得了解吗？

从Tangram开始了解整合方法：从Tangram开始了解单细胞转录组学和空间转录组学数据的整合方法是个不错的选择。论文《A comprehensive benchmarking with practical guidelines for cellular deconvolution of spatial transcriptomics》对其进行了评估，Tangram是基于深度学习的方法，在研究中表现出色，在准确性、稳健性和可用性方面都有较好的表现。它通过深度神经网络将scRNA-seq的细胞映射到空间位置，能够以单细胞分辨率创建空间分辨率的细胞类型映射。在处理大样本数据时，相比其他方法具有优势，能有效整合单细胞和空间转录组数据，帮助理解细胞类型分布的结构以及细胞间通讯机制。
无监督方法SpiceMix：SpiceMix是值得了解的无监督方法。它基于概率潜变量模型，创新性地融合了非负矩阵分解（NMF）和隐马尔可夫随机场（HMRF）的优势。NMF负责拆解基因表达寻找内在模式，HMRF负责约束空间关系寻找外在规律。该方法允许潜状态为连续值，能捕捉细胞身份的渐变过程，还可灵活处理不同分布的细胞（如稀疏分布和层特异性分布的细胞）。在模拟数据和真实数据（如seqFISH+、STARmap、Visium平台数据）的应用中，SpiceMix都展现出强大能力，能揭示传统方法无法捕捉的细胞亚型和空间模式，如在解析小鼠初级视觉皮层、V1 neocortex以及人类背外侧前额叶皮层的空间转录组数据时都有重要发现。

结合当前引用文件《A comprehensive benchmarking with practical guidelines for cellular deconvolution of spatial transcriptomics》的内容，推荐阅读顺序如下：

1. 优先阅读《Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram》
当前文件中，Tangram被评为空间转录组反卷积任务中表现最优的方法之一，在准确性、稳健性（如处理大样本量、不同分辨率数据）和可用性上均表现突出🔶3-10🔶3-60🔶。其作为深度学习方法的代表性工具，核心是通过神经网络实现单细胞转录组与空间转录组的精准对齐，逻辑清晰且应用场景广泛（如大组织样本分析）。从Tangram入手，可直观理解单细胞与空间数据整合的核心思路（如细胞类型映射、空间位置匹配），且能结合当前文件中对其性能的评估（如在MERFISH、Slide-seqV2等数据集上的表现），快速建立对整合方法的实践认知。

2. 其次阅读《Robust decomposition of cell type mixtures in spatial transcriptomics》
该论文对应方法RCTD，在当前文件中被提及为能有效校正scRNA-seq与空间转录组平台效应的方法，尤其在处理异质性组织（如肿瘤）时表现稳健🔶3-74🔶。其核心逻辑是通过统计模型优化细胞类型“签名”与空间斑点混合信号的匹配，与Tangram的深度学习思路形成互补（传统统计方法vs.深度学习）。阅读后可对比不同技术路线的优劣，加深对“平台效应校正”这一关键挑战的理解。

3. 最后阅读《Integrating single-cell and spatial transcriptomics to elucidate intercellular tissue dynamics》
该文更偏向整合方法的综述性探讨，当前文件中也提到单细胞与空间数据整合的核心价值是揭示细胞互作与组织微环境机制🔶3-10🔶。在理解Tangram、RCTD等具体方法后，再读这篇可从宏观层面梳理整合方法的整体框架（如映射、反卷积策略的共性与差异），形成“具体方法→技术路线→生物学应用”的完整认知。

综上，从具体且表现优异的方法（Tangram） 切入，再扩展到互补方法（RCTD）和宏观框架，能高效构建对单细胞与空间转录组整合方法的理解，且与当前文件的评估结果紧密呼应。