2025.06.17【BUG】|多样品VCF文件合并技巧及注意事项(以bcftools为例)

文章目录

    • @[toc]
    • 一、合并VCF的常用命令
      • 1.1 合并多个bgzip压缩的VCF文件
      • 1.2 使用文件列表合并
    • 二、合并前的准备与注意事项
      • 2.1 文件格式要求
      • 2.2 样本名唯一性
      • 2.3 检查文件模式匹配
    • 三、常见报错与解决方法
      • 3.1 报错:`Error: Duplicate sample names (sample1), use --force-samples to proceed anyway.`
      • 3.2 报错:`Could not retrieve index file for ...`
    • 四、自动化脚本推荐
      • 4.1 检查并转换VCF为bgzip格式
      • 4.2 检查重复样本并生成唯一文件列表
      • 4.3 合并并生成统计
    • 五、合并后格式转换与统计
      • 5.1 转换为TXT表格
      • 5.2 统计每个样品的SNP数
    • 六、总结

在这里插入图片描述

在群体遗传学、RAD-seq等高通量测序分析中,常常需要将多个样品的VCF文件合并为一个群体VCF文件,便于后续的群体变异分析、PCA、GWAS等。本文以bcftools为例,详细介绍多样品VCF合并的标准流程、常见报错及解决方法,并附带自动化脚本工具。


一、合并VCF的常用命令

1.1 合并多个bgzip压缩的VCF文件

其实一般常见做法是使用gatk CombineGVCFs命令将g.vcf.gz格式的各个样品进行合并后再进行质控,过滤。但是实际情况是没有过滤的snp文件较大,再加上如果做群体遗传分析,样品较多,合并环节就相当耗费时间。因此,这里选择将过滤后的vcf.gz文件使用bcftools进行合并,可以大大缩短合并时间,提升分析效率。

bcftools merge -Oz -o merged_filtered_snps.vcf.gz sample1.vcf.gz sample2.vcf.gz sample3.vcf.gz
tabix -p vcf merged_filtered_snps.vcf.gz

1.2 使用文件列表合并

当样品较多时,推荐先生成一个文件列表:

ls aa*/aa*_filtered.vcf.gz > vcf_list.txt
bcftools merge -Oz -o merged_filtered_snps.vcf.gz -l vcf_list.txt
tabix -p vcf merged_filtered_snps.vcf.gz

二、合并前的准备与注意事项

2.1 文件格式要求

  • 必须为bgzip压缩格式.vcf.gz),且有.tbi索引文件。
  • 可用如下命令检查和转换:
    bgzip sample.vcf
    tabix -p vcf sample.vcf.gz
    

2.2 样本名唯一性

  • 每个VCF文件的样本名必须唯一,不能有重复。
  • 可用如下命令检查样本名:
    bcftools query -l sample1.vcf.gz
    

2.3 检查文件模式匹配

  • 避免通配符匹配到同一样本的多个文件(如sample1_filtered.vcf.gzsample1_tmp_filtered.vcf.gz)。
  • 推荐只保留每个样本的最终过滤文件。

三、常见报错与解决方法

3.1 报错:Error: Duplicate sample names (sample1), use --force-samples to proceed anyway.

原因:合并的VCF文件中有重复的样本名。

解决方法

  • 检查文件列表,确保每个样本只出现一次。
  • 可用如下脚本自动检查并生成唯一文件列表:
# scripts/check_duplicate_samples.py
# 用法:python scripts/check_duplicate_samples.py 'aa*/aa*_filtered.vcf.gz' unique_vcf_list.txt
  • 合并时用唯一文件列表:
    bcftools merge -Oz -o merged_filtered_snps.vcf.gz -l unique_vcf_list.txt
    

3.2 报错:Could not retrieve index file for ...

原因:缺少.tbi索引文件。

解决方法

tabix -p vcf sample.vcf.gz

四、自动化脚本推荐

4.1 检查并转换VCF为bgzip格式

# scripts/check_and_convert_vcf.py
# 用法:python scripts/check_and_convert_vcf.py 'aa*/aa*_filtered.vcf*'

4.2 检查重复样本并生成唯一文件列表

# scripts/check_duplicate_samples.py
# 用法:python scripts/check_duplicate_samples.py 'aa*/aa*_filtered.vcf.gz' unique_vcf_list.txt

4.3 合并并生成统计

bcftools merge -Oz -o merged_filtered_snps.vcf.gz -l unique_vcf_list.txt
tabix -p vcf merged_filtered_snps.vcf.gz
bcftools stats merged_filtered_snps.vcf.gz > merged_stats.txt

五、合并后格式转换与统计

5.1 转换为TXT表格

# scripts/vcf_to_txt.py
# 用法:python scripts/vcf_to_txt.py merged_filtered_snps.vcf.gz

5.2 统计每个样品的SNP数

# scripts/count_snp_per_sample.py
# 用法:python scripts/count_snp_per_sample.py merged_filtered_snps.vcf.gz

六、总结

  • 合并VCF前请确保每个样品只保留一个最终VCF文件,且为bgzip格式并有索引。
  • 合并时推荐用文件列表,避免通配符误操作。
  • 遇到重复样本名、缺少索引等报错时,优先检查文件列表和文件格式。
  • 可用Python脚本自动化检查、转换和统计,提升效率。

如需脚本源码或Snakemake自动化流程,可私信或评论获取!


🌟 非常感谢您抽出宝贵的时间阅读我的文章。如果您觉得这篇文章对您有所帮助,或者激发了您对生物信息学的兴趣,我诚挚地邀请您:

👍 点赞这篇文章,让更多人看到我们共同的热爱和追求。

🔔 关注我的账号,不错过每一次知识的分享和探索的旅程。

📢 您的每一个点赞和关注都是对我最大的支持和鼓励,也是推动我继续创作优质内容的动力。

📚 我承诺,将持续为您带来深度与广度兼具的生物信息学内容,让我们一起在知识的海洋中遨游,发现更多未知的奇迹。

💌 如果您有任何问题或想要进一步交流,欢迎在评论区留言,我会尽快回复您。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85098.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85098.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

包含30个APP客户端UI界面的psd适用于旅游酒店项目

包含30个APP客户端UI界面的psd适用于旅游酒店项目 此资源包含30个完全可编辑的psd界面组成。内容包括欢迎页、登录、注册、首页、搜索、侧边菜单、用户中心、个人介绍、用户空间、产品详细信息、酒店预定、天气情况等各种常用界面,您可以将其用于旅游酒店类的APP应用…

ArrayList源码分析

目录 ArrayList简介 ArrayList和vector的区别(了解即可) ArrayList添加null值 ArrayList和LinkedList区别 ArrayList核心源码解读 ArrayList扩容机制分析 一步一分析ArrayList扩容机制 hugeCapacity()方法 System.arraycopy() Arrays.copyOf()方法 …

NX二次开发C#---通过Face找Edges,再通过Edges找Curve

文章介绍了一个名为AskFaceEdge的静态方法,用于处理3D建模中的边缘曲线生成。该方法通过NX Open API调用,主要功能是获取指定面的边缘并生成相应的曲线。方法接收两个参数:faceTag(面标签)和curveLoop(曲线…

设计模式笔记_创建型_工厂模式

1. 工厂模式简介 工厂模式是一种创建型设计模式,主要用于创建对象实例。 它通过定义一个接口或抽象类来创建对象,而不是直接实例化具体类,从而将对象的创建过程与使用过程分离。 工厂模式通常分为两种类型: 简单工厂模式&#x…

2025.6.16总结

工作:今天闭环了个遗留问题。在做专项评估时写得太简单,这让测试经理质疑你的测试质量。如果换位思考,你是测试经理,你该怎么去把握风险和保证产品的质量,就知道写得太简单,没有可信度。 找开发看了下后台…

记录:安装VMware、Ubuntu、ROS2

安装了VMware,就能够在Windows系统装安装Ubuntu,使用Linux系统。安装了Ubuntu,就能在里面安装ROS2,之后写代码控制机器人儿。 安装VMware 我安装的是16 pro【具体是vmware16.2.4】,下载网站:VMware Works…

将后端数据转换为docx文件

使用docx npm install docx 按照注释处理数据并转换为对应的bolb数据流 <template><Button type"primary" click"handleDocxCreate">{{buttonTitle || "报告生成"}}</Button> </template><script> import {Doc…

数据结构排序算法合集

快排 private static void quickSort(int[] ret) { quick(ret,0,ret.length-1); } private static void quick(int[] ret, int left, int right) { if(left>right) 记一下这里是大于等于 return; int pivot partition(ret,left,right); quick(ret…

【算法笔记】红黑树插入操作

红黑树插入与调整详解 一、红黑树的五大性质 红黑树是一种自平衡的二叉搜索树&#xff08;BST&#xff09;&#xff0c;其核心特性如下&#xff1a; 颜色属性&#xff1a;每个节点非红即黑根属性&#xff1a;根节点必须为黑色叶子属性&#xff1a;所有的 NIL 叶子节点都是黑…

认知计算革命:从算法创新到产业落地的AI专业核心应用全景

​​一、自动化机器学习&#xff08;AutoML&#xff09;​​ ​​技术机理与产业实践深度剖析​​ ​​神经网络架构搜索&#xff08;NAS&#xff09;​​ 强化学习方案&#xff1a;Google Brain的NASNet采用策略梯度优化卷积单元进化算法方案&#xff1a;DeepMind的AmeobaNe…

篇章十 论坛系统——业务开发——板块和帖子

目录 1.板块 1.1 思路 1.2 实现逻辑 1.3 参数要求 1.4 实现步骤 1.Mapper.xml 2.Mapper.java 3.Service接口 4.Service实现 5.单元测试 6.Controller 7.测试API 8.前后端交互 2.帖子 1.1思路​编辑 1.2 参数要求 ​编辑 1.3 实现步骤 1.Mapper.xml 2.Mapper…

React Native 上线前的准备与企业实战经验总结

上线前的准备与企业实战经验总结 关键要点 热更新简化部署&#xff1a;CodePush 和 Expo OTA 允许快速推送 JavaScript 和资源更新&#xff0c;绕过应用商店审核&#xff0c;适合修复 Bug 或小规模功能迭代。监控与分析提升质量&#xff1a;Sentry 提供实时错误跟踪&#xff…

【AI时代速通QT】第一节:C++ Qt 简介与环境安装

目录 前言 一、为什么是 Qt&#xff1f;—— C 开发者的必备技能 二、Qt 的核心魅力&#xff1a;不止于跨平台 2.1 优雅之一&#xff1a;代码隔离&#xff0c;清晰明了 2.2 优雅之二&#xff1a;信号与槽&#xff08;Signal & Slot&#xff09;机制 2.3 优雅之三&…

pandas学习笔记

前言 总结才是知识&#xff0c;作者习惯不好&#xff0c;不会总结&#xff0c;导致函数一旦不使用就会忘记怎么使用&#xff0c;特此写了本文&#xff0c;用于给自己一个复习的资料. 提示&#xff1a;如果你是小白&#xff0c;每个代码请自己敲打。 一 pandas的介绍 Pandas is…

算法题(力扣每日一题)—改变一个整数能得到的最大差值

给你一个整数 num 。你可以对它进行以下步骤共计 两次&#xff1a; 选择一个数字 x (0 < x < 9). 选择另一个数字 y (0 < y < 9) 。 数字 y 可以等于 x 。 将 num中所有出现 x 的数位都用 y 替换。 令两次对 num 的操作得到的结果分别为 a 和 b 。 请你返回 a 和 b…

Kubernetes笔记

1.简介 Kubernetes的本质是一组服务器集群&#xff0c;它可以在集群的每个节点上运行特定的程序&#xff0c;来对节点中的容器进行管理。目的是实现资源管理的自动化&#xff0c;主要提供了如下的主要功能&#xff1a; 自我修复&#xff1a;一旦某一个容器崩溃&#xff0c;能够…

Flutter——数据库Drift开发详细教程(八)

目录 自定义 SQL 类型定义类型使用自定义类型在 Dart 中在 SQL 中 方言意识支持的 SQLite 扩展json1fts5地缘垄断 自定义 SQL 类型 Drift 的核心库主要以 SQLite3 为目标平台编写。这体现在Drift 开箱即用的SQL 类型上——这些类型由 SQLite3 支持&#xff0c;并新增了一些由 …

安卓远控工具 CRaxsRat v7.6 安装与使用教程(仅供合法测试学习)

在当今的信息安全领域&#xff0c;移动设备已成为重点关注对象。本文将介绍一款用于远程管理与教学研究的工具 —— CRaxsRat v7.6&#xff0c;并详细讲解其安装与使用流程。本教程仅供网络安全爱好者在合法授权环境下学习使用&#xff0c;严禁任何非法用途。 &#x1f50d; 一…

容器的本质是进程

前言 Linux 容器的本质&#xff0c;是一个被隔离和限制的进程。 与虚拟机不同&#xff0c;容器无需虚拟化一个完整的操作系统&#xff0c;所以它比虚拟机更轻量级&#xff0c;效率也更高。 Linux 容器通过 namespaces 技术来隔离容器的视图&#xff0c;使得容器进程只能看到…

LeetCode 第75题:颜色分类

给定一个包含红色、白色和蓝色、共n个元素的数组nums&#xff0c;原地对它们进行排序&#xff0c;使得相同颜色的元素相邻&#xff0c;并按照红色、白色、蓝色顺序排序。 使用整数0、1和2分布表示红色、白色和蓝色。 必须在不使用库内置sort函数的情况下解决这个问题。 示例1&a…