下一代测序 (NGS)/Ray
外观
假设您具备基本的 UNIX 命令行知识。
在本教程中,Ray 将安装在 $HOME/software 中,使用下载到 $HOME/sources 的源代码。数据集将下载到 $HOME/datasets,并将使用 Ray 在 $HOME/projects 中进行从头组装。
首先,下载包含其源代码的 Ray tarball。
mkdir -p $HOME/sources cd $HOME/sources wget http://downloads.sourceforge.net/project/denovoassembler/Ray-v2.1.0.tar.bz2 tar -xjf Ray-v2.1.0.tar.bz2
安装 Ray 需要 MPI 库。在 Ubuntu 或 Debian 上,软件包名称为:openmpi-bin、libopenmpi-dev、make、g++。
可选地,Ray 可以包含对压缩文件的原生支持。这需要 zlib 和/或 libbz2。在 Ubuntu 或 Debian 上,软件包名称为:zlib1g-dev libbz2-dev。
安装完 MPI 后,现在可以安装 Ray 了
mkdir -p $HOME/software/ray cd $HOME/sources/Ray-v2.1.0 make HAVE_LIBZ=y HAVE_LIBBZ2=y PREFIX=$HOME/software/ray/2.1.0 make install
以下命令获取E. coli数据。
mkdir -p $HOME/datasets/SRA001125 cd $HOME/datasets/SRA001125
wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_1.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000429/SRR001665_2.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_1.fastq.bz2 wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA001/SRA001125/SRX000430/SRR001666_2.fastq.bz2
养成一个为每个项目创建目录的好习惯。因此,将为本教程创建一个目录。
mkdir -p $HOME/projects/Ray-tutorial cd $HOME/projects/Ray-tutorial
接下来,创建指向数据文件的符号链接,这样就不需要长路径。
ln -s $HOME/datasets/SRA001125/SRR001665_1.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001665_2.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001666_1.fastq.bz2 ln -s $HOME/datasets/SRA001125/SRR001666_2.fastq.bz2
可以启动任意数量的 Ray 进程。在本例中,启动了 4 个 Ray 进程。这些进程可以在多台计算机或单台计算机上运行。
mpiexec -n 4 $HOME/software/ray/2.1.0/Ray \ -k 21 -o EcoliAssembly \ -p SRR001665_1.fastq.bz2 SRR001665_2.fastq.bz2 \ -p SRR001666_1.fastq.bz2 SRR001666_1.fastq.bz2 \
-k 参数设置 k-mer 的长度。
Ray 将文件写入单个目录。Ray 进行了一些自动化的质量控制测试。
您可以使用以下命令列出生成的檔案
ls EcoliAssembly
重要的檔案如下
less EcoliAssembly/OutputNumbers.txt less EcoliAssembly/Contigs.fasta less EcoliAssembly/Scaffolds.fasta less EcoliAssembly/CoverageDistribution.txt less EcoliAssembly/LibraryStatistics.txt