代码编织梦想

简介

Bowtie 2是一个超快的、内存效率高的工具,用于将测序读数与长参考序列进行比对。它特别擅长将大约50个到100个或1000个字符的读数进行比对,尤其擅长与相对较长的(如哺乳动物)基因组比对。Bowtie 2用FM索引对基因组进行索引,以保持其内存占用小:对于人类基因组,其内存占用通常约为3.2GB。Bowtie 2支持间隙式、局部式和成对端对齐模式。

其中FM index就是就是一个BWT[T],一个checkpoint data,一个简化了的SA(具体参考bowtie里的FM-index简介_stormlovetao的博客-CSDN博客

如果目的是对齐两个非常大的序列(例如两个基因组),请考虑使用MUMmer。如果目的是与相对较短的参考序列(如细菌基因组)非常灵敏的比对,可以使用Bowtie 2完成,但您可能需要考虑使用NUCmerBLATBLAST等工具。当参考基因组很长时,这些工具可能会非常缓慢,但当参考基因组很短时通常就足够了。

使用

  1. 构建index
    官方index:

    wget ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
    unzip mm10.zip
    rm mm10.zip make_mm10.sh
    

    自建index:

    wget  --.fna
    bowtie2-build --.fna index
    
  2. 比对

     bowtie2 [options]* -x <index> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]
    

    其中参数:

    -x  由bowtie2-build所生成的索引文件的前缀,需要指定路径及其共用文件名
    -1  使用trimmomatic质控后与read2配对(paired)的read1。可以为多个文件,并用逗号分开;多个文件必须和 -2 <m2> 中制定的文件一一对应。
    -2  使用trimmomatic质控后与read1配对的read2
    -U  使用trimmomatic质控后未配对(unpaired)的reads。可以为多个文件,并用逗号分开,测序文件中的reads的长度可以不一样。
    -S  所生成的SAM格式的文件前缀。默认是输入到标准输出。
    
    #事例:
    #单末端
    bowtie2 -x insect -U input.fq 
    #双末端
    bowtie2 -x insect -1 input_1.fq -2 input_2.fq 
    
  3. SAM 文件转为 BAM 文件

     $ samtools sort example.sam > example.bam 
    
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/liduo159357/article/details/129667223

chip-seq笔记_sunyu_03的博客-爱代码爱编程_chip seq

文章目录 ChIP-seq学习1 数据下载1.1 数据主要分为三个部分1.2 从NCBI上下载数据 2 质量控制2.1 软件安装2.2 转化数据格式 sra ----- fastq2.3 下载小鼠参考基因组的i

bwa、bowtie2、tophat、hisat2 比对软件学习中的笔记整理-爱代码爱编程

 对常用的比对软件学习进行用法整理记录。记录的内容相对简单,详细说明及用法还得参考软件使用说明书 bwa、bowtie2、tophat、hisat bwa bwa(Burrows-Wheeler Aligner) bwa文档说明 http://bio-bwa.sourceforge.net/bwa.shtml BWA用于将低差异的序列映射到一个大的

RNA-seq流程学习笔记(7)-使用Hisat2进行序列比对-爱代码爱编程

参考文章:RNAseq(4)–Hisat2进行序列比对及Samtools格式转化RNA-seq(5):序列比对:Hisat2hisat2比对软件将reads比对到参考基因组hisat2比对 RNA-seq数据分析使用方法(陈建国 译)转录组分析2——比对基因组RNA-seq练习 第二部分数据分析与解读(上)转录组入门分析5_序列比对 1. 根据不同目的选

《数据库系统概论》笔记-爱代码爱编程

1 绪论 数据库是长期存储在计算机内有组织、大量、共享的数据集合。它可以供各种用户共享,具有最小冗余度和较高的数据独立性。数据库管理系统在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性和安全性,并在多用户同时使用数据库时进行并发控制,在发生故障后对数据库进行恢复。 数据与数据的结构 视图(view),或数据(data)是某种表现形式

CHIP-seq流程学习笔记(3)-比对软件 bowtie2-爱代码爱编程

参考文章: bowtie2使用手册 老菜鸟终于开始进行CHIP-seq的学习啦,又是开始学习新的软件。不过现在感觉没那么头大了,毕竟前边学了一些了。先做些简单的记录吧。 1.安装软件 安装仍然在服务器中使用miniconda进行安装,参考文章RNA-seq流程学习笔记(3)。 2.Bowtie2软件的使用 1. 软件说明 bowtie2 --

snakemake+Anaconda个人自用入门笔记-爱代码爱编程

snakemake使用 #mermaid-svg-JysAFyxeIVUl9Kg5 .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-JysAFyxeIVU

生信学习笔记:生物信息学测序分析基本流程入门笔记-爱代码爱编程

文章目录 前言短序列比对软件sam文件insertsize基因差异表达计算变异检测物种组成与丰富度计算kmer估计基因组大小序列拼接Pregraph常用序列拼接软件基因组污染分析RNA-seq与meta序列拼接基因功能注释非编码RNA小RNA共线性分析在线序列分析序列比对数据下载 前言 根据B站视频教程生物信息快速入门边自学边随手记的笔记,省

powerbi 笔记-爱代码爱编程

目录 dax笔记基础篇财务 & 人力篇自定义图表 以下内容皆来自b站孙兴华老师,请多多支持,老师的b站 UID:437239552 dax笔记 应用于百万级别的数据,非大数据。大数据请了解Numpy、Pandas、Matplotlib a. 尽量避免多表的关系建模,建议使用SQL拿到一张干净的表,再做数据分析 b. 把精力用在数据分

【计算机二级等级考试】公共基础知识-学习笔记-爱代码爱编程

一、数据结构和算法 1.1 算法 算法的基本概念 算法的基本特征:可行性(所有步骤可实现,执行结果能达到目的),确定性(不能模凌两可,不能多义),有穷性(算法在有限的时间内完成),拥有足够的情报 算法设计基本方法 列举法,归纳法,递推,递归 算法复杂度 时间复杂度:即执行算法所需要的计算工作量,算法所执行的基本运算次数。分析方法 平均性态A

Chip-seq分析笔记-爱代码爱编程

目录 前言 一、软件安装 二、创建环境及安装软件 1.创建环境 chipseq 2.chipseq 环境下安装软件 三、具体分析步骤 1.数据来源 2.下载数据并重命名 3.fastq 文件转换(--sra-id 此步骤把 SRR 的名称改掉,加快运行速度,速度非常快) 4.质控 4.1 t

数据库学习笔记-爱代码爱编程

文章导航 数据库系统概述数据数据管理数据库数据模型数据库系统结构DBMS数据模型基础概念E(ntity)-R(elationship)概念模型(基础)基本概念E-R数据模型层次数据模型特征储存结构点评网状数据模型表示方法点评关系数据模型(主流)基本概念表示方法数据操纵点评面向对象数据模型(发展) 数据库系统概述 数据 数据本质上是对现实世界

c++binary-爱代码爱编程

二分查找 查找是否存在某数 bool binary_search(开始位置,结束位置,查找元素,自定义函数); 前提:升序(验证如下) 寻找小于等于某数的第一个数: (返回迭代器)lower_bound (开始位置,结束位置,查找元素); 找到返回元素位置,未找到返回最后一个元素后的位置 寻找小于等于某数的第最后一个数; (返回迭代器