单细胞注释前沿:CASSIA——无参考、可解释、自动化细胞注释的大语言模型

细胞类型注释是单细胞RNA-seq分析的重要步骤,目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合,而且经常产生不一致的结果,难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性,但现有方法存在过度自信、幻觉和缺乏推理等问题。

2025年4月18日,威斯康辛大学研究团队在bioRxiv上发表了题为《CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data》的研究论文,该论文提出了一个scRNA-seq细胞注释模型——CASSIA。CASSIA可对单细胞RNA测序数据进行自动、准确和可解释的细胞注释。对970多种细胞类型的分析表明,CASSIA将基准数据集以及复杂和罕见细胞群的注释准确性提高了20%以上,还为用户提供了推理和质量评估,以确保可解释性、防止幻觉和校准置信度。

一、问题背景

  • 单细胞注释的挑战:单细胞RNA测序(scRNA-seq)分析中,细胞类型注释是关键步骤,但现有方法(基于参考/无参考)需专业知识和人工干预,且结果不一致、难解释。

  • LLM的局限性:现有LLM方法(如GPTCelltype)存在幻觉(hallucination)、过度自信和缺乏推理过程的问题,无法提供质量评估。

二、解决方法

    为了解决上述问题,作者提出了CASSIA框架,该框架包括多智能体LLM系统和可选智能体两大模块。

1. 多智能体LLM系统:5个核心智能体协同工作

  • 注释智能体(Annotator):基于标记基因逐步推理细胞类型

  • 验证智能体(Validator):迭代检查标记-细胞类型一致性(≤3轮)

  • 格式化智能体(Formatter):提取结构化结果

  • 评分智能体(Scorer):生成质量分数(0-100%)

  • 报告智能体(Reporter):输出可解释的HTML报告

2. 可选智能体

  • RAG智能体:整合外部知识库(如CellMarker、本体论)提升复杂组织注释

  • 注释增强智能体(Annotation Boost):优化低质量分数(<75%)的注释

  • 子聚类智能体(Subclustering):识别混合细胞群

三、关键设计与技术亮点

1. 扛幻觉机制

  • 推理链提示(Chain-of-Thought):强制模型模拟专业生物信息学家分析流程

  • 角色扮演提示:"您是单细胞RNA测序专家,若分析出色将获1万美元奖励"

  • 三重验证循环:注释与验证智能体迭代交互,确保逻辑一致性

2. 质量评估体系

  • 质量分数(Quality Score):基于科学准确性和标记平衡性

  • 共识相似性分数(CS Score):通过多次运行计算一致性,有效识别错误注释

3. 性能优化

  • 标记基因数量:50个标记基因实现精度与效率最优平衡

  • 并行计算:Python concurrent_futures 模块加速,8核CPU处理20个细胞群仅需2分钟

  • 跨模型兼容性:支持GPT-4o(默认)、Claude 3.5(高精度)、LLaMA3.2(低成本)

四、研究结果

1. 使用基准数据集评估注释结果准确性

    使用包含金标准注释的8个数据集评估CASSIA和其余6个注释方法的准确性,根据注释与参考注释的分类距离将注释结果分为完全正确、部分正确或不正确。结果显示,在基准数据集上,与现有方法相比,CASSIA将完全正确的注释提高了12-41%,与次优方法相比,综合正确注释(完全正确或部分正确)提高了9-29%。所有注释的平均性能表明,CASSIA在大多数数据集上的注释准确率提高了20%以上。

 

2. 使用复杂数据集评估注释准确性

    使用来自癌症生物学、免疫学和非模式生物的数据集,系统性评估CASSIA在更专业的生物环境中的性能,发现CASSIA在各类注释复杂的生物数据集中显著优于竞争对手的方法。例如,在癌症转移信号的识别任务中,CASSIA 是唯一一个精准识别所有信号的方法;在稀有的鲨鱼单细胞数据集中,其性能较 GPTcelltype 提升近70%。

 

3. CASSIA通过结构化分析报告提高结果可解释性

    除了准确性和稳健性,CASSIA还通过结构化分析报告提供可解释的结果,这些报告记录了CASSIA从功能标记评估到细胞类型标记鉴定和数据库验证的推理过程。图3显示CASSIA分析了一个结直肠癌群,将其识别为具有主要结直肠癌表型的肠上皮细胞。每个注释都包括验证步骤,包括标记物一致性检查和通路验证,以及置信度评分。这一透明的过程使研究人员能够了解注释的依据并评估其可靠性。

 

4. CASSIA提供强大的特定于注释的质量分数

    LLM模型虽然准确,但经常会产生幻觉,为了规避这一问题,CASSIA为注释结果报告质量分数,从而允许用户根据质量分数报告区分幻觉/低质量注释和高质量注释。

 

    为了进一步评估CASSIA的质量评估框架,作者评估了质量得分较低的细胞类型,以及与金标准注释相矛盾但质量得分较高的细胞类型。结果显示,CASSIA的质量评估框架可识别金标准注释错误,加入的RAG智能体可增强具有挑战性的细胞类型的注释性能

 

五、工具可用性

  • 开源地址:https://github.com/ElliotXie/CASSIA22

  • 部署形式

    • R包

    • Python包

    • Web:https://www.cassiacell.com

  • 许可证:MIT

  • 成本:默认GPT-4o模型约$0.02/次注释

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32Cubemx-H7-17-麦克纳姆轮驱动

前言 --末尾右总体的.c和.h 本篇文章把麦克纳姆轮的代码封装到.c和.h&#xff0c;使用者只需要根据轮子正转的方向&#xff0c;在.h处修改定义方向引脚&#xff0c;把轮子都统一正向后&#xff0c;后面的轮子驱动就可以正常了&#xff0c;然后直接调用函数驱动即可。 设置满…

文档核心结构优化(程序C++...)

文档核心结构优化 一、文档核心结构优化二、C关键特性详解框架2.1 从C到C的范式迁移 三、深度代码解析模板3.1 现代C特性分层解析 四、C vs C 关键差异矩阵五、交互式文档设计策略5.1 三维学习路径5.2 代码缺陷互动区 六、现代C特性演进图七、性能优化可视化呈现&#xff08;深…

PyTorch ——torchvision数据集使用

如果下载的很慢&#xff0c;可以试试下面这个

纯前端实现图片伪3D视差效果

作者&#xff1a;vivo 互联网前端团队- Su Ning 本文通过depth-anything获取图片的深度图&#xff0c;同时基于pixi.js&#xff0c;通过着色器编程&#xff0c;实现了通过深度图驱动的伪3D效果。该方案支持鼠标/手势与手机陀螺仪双模式交互&#xff0c;在保证性能的同时&#x…

英语写作中“专注于”focus on、concentrate的用法

Focus on在论文写作中常用&#xff0c;指出研究点&#xff0c;例如&#xff1a; There are three approaches to achieving ID authentication. Our study will focus on ……&#xff08;有三种途径实现身份认证&#xff0c;我们的研究专注于……&#xff09; concentrate &…

go环境配置

下载对应版本的 go 版本 https://go.dev/dl/ 配置 vim ~/.zshrc export GOROOT/usr/local/go export PATH$PATH:$GOROOT/binsource ~/.zshrc >>>>>> go versiongoland 配置&#xff1a; &#x1f50d; 一、什么是GOPATH&#xff1f; GOPATH 是旧的项目结…

AI Agent智能体:底层逻辑、原理与大模型关系深度解析·优雅草卓伊凡

AI Agent智能体&#xff1a;底层逻辑、原理与大模型关系深度解析优雅草卓伊凡 一、AI Agent的底层架构与核心原理 1.1 AI Agent的基本构成要素 AI Agent&#xff08;人工智能代理&#xff09;是一种能够感知环境、自主决策并执行行动的智能系统。其核心架构包含以下关键组件…

【手搓一个原生全局loading组件解决页面闪烁问题】

页面闪烁效果1 页面闪烁效果2 封装一个全局loading组件 class GlobalLoading extends HTMLElement {constructor() {super();this.attachShadow({ mode: open });}connectedCallback() {this.render();this.init();}render() {this.shadowRoot.innerHTML <style>.load…

unix/linux source 命令,其高级使用

就像在物理学中,掌握了基本定律后,我们可以开始研究更复杂的系统和现象,source 的高级用法也是建立在对其基本行为深刻理解之上的。 让我们一起探索 source 的高级应用领域: 1. 条件化加载 (Conditional Sourcing) 根据某些条件来决定是否 source 一个文件,或者 source…

DexGarmentLab 论文翻译

单个 专家 演示 装扮 15 任务 场景 2500+ 服装 手套 棒球帽 裤子 围巾 碗 帽子 上衣 外套 服装-手部交互 捕捉 摇篮 夹紧 平滑 任务 ...... 投掷 悬挂 折叠 ... 多样化位置 ... 多样化 变形 ... 多样化服装形状 类别级 一般化 类别级(有或没有变形) 服装具有相同结构 变形 生…

WPF-Prism学习笔记之 “导航功能和依赖注入“

新建空白模板(Prism) 新建好后会有自动创建ViewModels和Views 在"MainWindow.xaml"文件里面标题去绑定了一个属性"Title"&#xff0c;而"MainWindowViewModel.cs"里面继承一个非常重要的"BindbleBase"(prism框架里面非常重要的)。所以…

《C++初阶之入门基础》【C++的前世今生】

【C的前世今生】目录 前言&#xff1a;---------------起源---------------一、历史背景二、横空出世---------------发展---------------三、标准立世C98&#xff1a;首个国际标准版本C03&#xff1a;小修订版本 四、现代进化C11&#xff1a;现代C的开端C14&#xff1a;对C11的…

YOLOv5-入门篇笔记

1.创建环境 conda create -n yolvo5 python3.8 去pytorch.org下载1.8.2的版本。 pip --default-timeout1688 install torch1.8.2 torchvision0.9.2 torchaudio0.8.2 --extra-index-url https://download.pytorch.org/whl/lts/1.8/cu111 github上下载yolov5的zip pip --def…

【PostgreSQL 03】PostGIS空间数据深度实战:从地图服务到智慧城市

PostGIS空间数据深度实战&#xff1a;从地图服务到智慧城市 关键词 PostGIS, 空间数据库, 地理信息系统, GIS, 空间查询, 地理分析, 位置服务, 智慧城市, 空间索引, 坐标系统 摘要 PostGIS是PostgreSQL的空间数据扩展&#xff0c;它将普通的关系数据库转变为强大的地理信息系统…

科技修真的解决方案

“科技修真”是一个结合现代科技与修真&#xff08;玄幻&#xff09;元素的创新概念&#xff0c;通常出现在科幻或玄幻文学作品中&#xff0c;但也可能指代现实中的科技与传统文化、超自然理念的融合探索。以下是几种可能的“科技修真”方案&#xff0c;涵盖技术实现、文化融合…

STM32的HAL编码流程总结(上部)

目录 一、GPIO二、中断系统三、USART串口通信四、I2C通信五、定时器 一、GPIO 1.选择调试类型 在SYS中Debug选择Serial Wire模式 2.选择时钟源 在RCC中将HSE和LSH都选择为内部晶振 3.时钟树配置 4.GPIO配置 在芯片图上选择开启的引脚和其功能 配置引脚的各自属性 5.工…

java直接获取MyBatis将要执行的动态sql命令(不是拦截器方式)

目录 前言 一. 准备数据 1. 传输过来的json条件数据 2. mybatis 配置的动态sql 3. 想要的最终会执行的sql并返回给页面展示 二. 实现方式 三. 最终代码 前言 1.在平常开发过程中,MyBatis使用时非常多的,一般情况下我们只需要在控制台看看MyBatis输出的日志,要不就是实…

机器学习算法-决策树

今天我们用一个 「相亲决策」 的例子来讲解决策树算法&#xff0c;保证你轻松理解原理和实现&#xff01; &#x1f333; 决策树是什么&#xff1f; 决策树就像玩 「20个问题」猜谜游戏&#xff1a; 你心里想一个东西&#xff08;比如「苹果」&#xff09; 朋友通过一系列问题…

2025——》VSCode Windows 最新安装指南/VSCode安装完成后如何验证是否成功?2025最新VSCode安装配置全攻略

1.VSCode Windows 最新安装指南: 以下是 2025 年 Windows 系统下安装 Visual Studio Code(VSCode)的最新指南,结合官方文档与实际操作经验整理而成: 一、下载官方安装包: 1.访问官网: 打开浏览器,进入 VSCode 官方下载页面https://code.visualstudio.com/Download 2…

【Elasticsearch】suggest

在Elasticsearch中&#xff0c;suggest 是一个非常强大的功能&#xff0c;用于实现自动补全、拼写纠错和模糊搜索等功能。它可以帮助用户更快地找到他们想要的内容&#xff0c;同时提升搜索体验。以下是关于 suggest 的详细使用方法和常见场景。 1\. Suggest 的基本概念 sugges…