跳转到内容

下一代测序 (NGS)/Ray

来自维基教科书,开放的书籍,开放的世界

假设您具备基本的 UNIX 命令行知识。

在本教程中,Ray 将安装在 $HOME/software 中,使用下载到 $HOME/sources 的源代码。数据集将下载到 $HOME/datasets,并将使用 Ray 在 $HOME/projects 中进行从头组装。

安装 Ray

[编辑 | 编辑源代码]

首先,下载包含其源代码的 Ray tarball。

mkdir -p $HOME/sources
cd $HOME/sources
wget http://downloads.sourceforge.net/project/denovoassembler/Ray-v2.1.0.tar.bz2 
tar -xjf Ray-v2.1.0.tar.bz2

安装 Ray 需要 MPI 库。在 Ubuntu 或 Debian 上,软件包名称为:openmpi-bin、libopenmpi-dev、make、g++。

可选地,Ray 可以包含对压缩文件的原生支持。这需要 zlib 和/或 libbz2。在 Ubuntu 或 Debian 上,软件包名称为:zlib1g-dev libbz2-dev。

安装完 MPI 后,现在可以安装 Ray 了

mkdir -p $HOME/software/ray
cd $HOME/sources/Ray-v2.1.0
make HAVE_LIBZ=y HAVE_LIBBZ2=y PREFIX=$HOME/software/ray/2.1.0
make install

获取数据

[编辑 | 编辑源代码]

以下命令获取E. coli数据。

mkdir -p $HOME/datasets/SRA001125
cd $HOME/datasets/SRA001125
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_1.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_2.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_1.fastq.bz2
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_2.fastq.bz2

运行 Ray

[编辑 | 编辑源代码]

养成一个为每个项目创建目录的好习惯。因此,将为本教程创建一个目录。

mkdir -p $HOME/projects/Ray-tutorial
cd $HOME/projects/Ray-tutorial

接下来,创建指向数据文件的符号链接,这样就不需要长路径。

ln -s $HOME/datasets/SRA001125/SRR001665_1.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001665_2.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001666_1.fastq.bz2
ln -s $HOME/datasets/SRA001125/SRR001666_2.fastq.bz2

可以启动任意数量的 Ray 进程。在本例中,启动了 4 个 Ray 进程。这些进程可以在多台计算机或单台计算机上运行。

mpiexec -n 4 $HOME/software/ray/2.1.0/Ray \
-k 21 -o EcoliAssembly \
-p SRR001665_1.fastq.bz2 SRR001665_2.fastq.bz2 \
-p SRR001666_1.fastq.bz2 SRR001666_1.fastq.bz2 \

-k 参数设置 k-mer 的长度。

评估组装

[编辑 | 编辑源代码]

Ray 将文件写入单个目录。Ray 进行了一些自动化的质量控制测试。

您可以使用以下命令列出生成的檔案

ls EcoliAssembly

重要的檔案如下

less EcoliAssembly/OutputNumbers.txt
less EcoliAssembly/Contigs.fasta
less EcoliAssembly/Scaffolds.fasta
less EcoliAssembly/CoverageDistribution.txt
less EcoliAssembly/LibraryStatistics.txt
华夏公益教科书