Miseq 下机数据分析应用实例

在 Miseq 上通过对24个混合样本的PE测序,获得的下机 PF Data,从 Quality Control 到 de novo assembly 过程的基本操作流程。[#f1]

1. 前期处理

1.1 分样

为了避免文件混乱,首先将获得的001~024样本的 fastq 文件分别移动到以样本名命名的 24个文件夹中,分别进行操作。

# 产生的数据文件名为格式为 0*_S*_L001_R1_001.fastq.gz/0*_S*_L001_R2.fastq.gz
~/data$ ls
001_S1_L001_R1_001.fastq.gz   003_S3_L001_R1_001.fastq.gz   005_S5_L001_R1_001.fastq.gz
001_S1_L001_R2_001.fastq.gz   003_S3_L001_R2_001.fastq.gz   005_S5_L001_R2_001.fastq.gz
002_S2_L001_R1_001.fastq.gz   004_S4_L001_R1_001.fastq.gz   006_S6_L001_R1_001.fastq.gz
002_S2_L001_R2_001.fastq.gz   004_S4_L001_R2_001.fastq.gz   006_S6_L001_R2_001.fastq.gz
...
022_S22_L001_R1_001.fastq.gz   023_S23_L001_R1_001.fastq.gz   024_S24_L001_R1_001.fastq.gz
022_S22_L001_R2_001.fastq.gz   023_S23_L001_R2_001.fastq.gz   024_S24_L001_R2_001.fastq.gz

# 新建以样本名为文件夹名,并移动数据到文件夹的raw目录下
~/data$ for i in $(awk -F"L001" '{gsub("_$","",$1);print $1}' \
> <(ls -D *.fastq.gz) | sort | uniq); \
> do mkdir $(basename $i) && mkdir $(basename $i)/raw; \
> mv $i*.fastq.gz $(basename $i)/raw/ ; done

# 查看生成的各个样本的文件夹
~/data$ ls -d */
001_S1    002_S2    003_S32   004_S4    005_S5    006_S6
...

1.2 查看测序质量

1.2.1 FastQC

用 FastQC 生成 html 格式的质量结果报告,用 Python 自带模块 SimpleHTTPServer 建立一个简便的 HTTP Server,以便查看 html 文档。

~/data$ mkdir -p qc
~/data$ for i in $(ls -d 0*/raw/*.fastq.gz); \
> do fastqc $i --extract -t 40 -q -o qc ; done
~/data$ python -m SimpleHTTPServer

然后用客户端浏览器访问服务器IP:8080来查看,比如我们的服务器IP地址是 10.44.35.122,就在浏览器地址栏里输入http://10.44.35.122:8000,可以看到所在文件 夹的文件链接页面了。

1.2.2 Quast

用Quast生成

1.3 去除接头

从前面的数据显示,部分插入片段比较短,因此部分reads测出接头序列。

1.4 去除低质量reads

Miseq v3 的PE300试剂最大的问题在于3’端急速下降的质量,特别是PE测序中R2端的质量。

Reference

[1]../chapter_04/index.html