本书全面介绍了RNA-seq数据分析的基本原理和方法,内容涵盖数据分析的整个工作流程,包括质量控制、作图、组装、统计检验和代谢途径分析等。书中在进行理论讲解的同时,还使用了较多实例,不仅生物信息学家,甚至没有相关分析经验的研究人员也均可参照这些实例进行分析。
样章试读
目录
- 目录
第1章 RNA-seq简介 1
1.1 引言 1
1.2 RNA的分离 3
1.3 RNA的质量控制 3
1.4 文库制备 4
1.5 主要的RNA-seq平台 7
1.5.1 Illumina 7
1.5.2 SOLID 8
1.5.3 Roche 454 8
1.5.4 Ion Torrent 9
1.5.5 Pacific Biosciences 9
1.5.6 纳米孔技术 10
1.6 RNA-seq的应用 11
1.6.1 蛋白质编码基因结构 11
1.6.2 新型蛋白质编码基因 12
1.6.3 基因表达的量化和比较 13
1.6.4 表达数量性状基因座 14
1.6.5 单细胞RNA-seq 14
1.6.6 融合基因 15
1.6.7 基因变异 15
1.6.8 长的非编码RNA 16
1.6.9 非编码小RNA 16
1.6.10 扩增产物测序(ampli-seq) 16
1.7 选择RNA-seq平台 17
1.7.1 选择RNA-seq平台和测序模式的8个原则 17
1.7.2 小结 20
参考文献 20
第2章 RNA-seq数据分析导论 23
2.1 引言 23
2.2 差异表达分析工作流程 25
2.2.1 第一步:读段的质量控制 26
2.2.2 第二步:读段的预处理 26
2.2.3 第三步:将读段比对到参考基因组 26
2.2.4 第四步:基因组引导的转录组组装 27
2.2.5 第五步:计算表达水平 27
2.2.6 第六步:比较不同条件之间的基因表达 27
2.2.7 第七步:在基因组的上下文中的数据可视化 27
2.3 下游分析 28
2.3.1 基因注释 28
2.3.2 基因集的富集分析 29
2.4 自动的工作流程和管线 29
2.5 硬件要求 30
2.6 仿效书中的示例 30
2.6.1 使用命令行工具和R 31
2.6.2 使用Chipster软件 31
2.6.3 示例数据集 32
2.7 小结 33
参考文献 34
第3章 质量控制和预处理 35
3.1 引言 35
3.2 质量控制和预处理的软件 35
3.2.1 FastQC 35
3.2.2 PRINSEQ 36
3.2.3 Trimmomatic 37
3.3 读段质量问题 37
3.3.1 碱基质量 37
3.3.2 模糊的碱基 44
3.3.3 接头 46
3.3.4 读段长度 47
3.3.5 序列特异性偏差和由随机联体引物造成的不匹配 47
3.3.6 GC含量 48
3.3.7 重复 48
3.3.8 序列污染 50
3.3.9 低复杂度序列和polyA尾巴 50
3.4 小结 51
参考文献 52
第4章 将读段比对到参考基因组 54
4.1 引言 54
4.2 比对程序 54
4.2.1 Bowtie 55
4.2.2 TopHat 58
4.2.3 STAR 62
4.3 比对统计量和用于操作比对文件的程序 65
4.4 在基因组的上下文中可视化读段 68
4.5 小结 69
参考文献 70
第5章 转录组组装 71
5.1 引言 71
5.2 方法 72
5.2.1 转录组组装不同于基因组组装 72
5.2.2 转录本重建的复杂性 73
5.2.3 组装过程 73
5.2.4 de Bruijn图 75
5.2.5 使用丰度信息 75
5.3 数据预处理 76
5.3.1 读段误差校正 77
5.3.2 SEECER 77
5.4 基于作图的组装 78
5.4.1 Cufflinks 79
5.4.2 Scripture 80
5.5 de novo组装 81
5.5.1 Velvet+Oases 81
5.5.2 Trinity 83
5.6 小结 87
参考文献 88
第6章 定量和基于注释的质量控制 90
6.1 引言 90
6.2 基于注释的质量度量 90
6.2.1 基于注释的质量控制工具 91
6.3 基因表达的定量研究 95
6.3.1 计数每个基因的读段 96
6.3.2 计数每个转录本的读段 99
6.3.3 计数每个外显子的读段 103
6.4 小结 104
参考文献 105
第7章 R和Bioconductor中的RNA-seq分析框架 106
7.1 引言 106
7.1.1 安装R和扩展包 106
7.1.2 使用R 107
7.2 Bioconductor包概述 108
7.2.1 软件包 108
7.2.2 注释包 108
7.2.3 试验包 109
7.3 Bioconductor包的描述性特征 109
7.3.1 R中的OOP特征 109
7.4 在R中表示基因和转录本 111
7.5 在R中表示基因组 114
7.6 在R中表示SNP 116
7.7 锻造新的注释包 116
7.8 小结 118
参考文献 118
第8章 差异表达分析 119
8.1 引言 119
8.2 技术重复与生物学重复 119
8.3 RNA-seq数据中的统计分布 120
8.3.1 生物学重复、计数分布和软件的选择 122
8.4 归一化 122
8.5 软件用法示例 124
8.5.1 使用Cuffdiff 124
8.5.2 使用Bioconductor包:DESeq、edgeR、limma 127
8.5.3 线性模型、设计矩阵和对比矩阵 127
8.5.4 差异表达分析前的准备工作 130
8.5.5 DESeq(2)的代码示例 131
8.5.6 可视化 132
8.5.7 供参考:其他Bioconductor包的代码例子 136
8.5.8 limma 137
8.5.9 SAMSeq(samr包) 137
8.5.10 edgeR 138
8.5.11 多因素实验的DESeq2代码示例 138
8.5.12 供参考:edgeR代码示例 141
8.5.13 limma代码示例 141
8.6 小结 143
参考文献 143
第9章 差异外显子用法分析 146
9.1 引言 146
9.2 准备DEXSeq的输入文件 147
9.3 将数据读入R 148
9.4 访问ExonCountSet对象 149
9.5 归一化和方差估计 151
9.6 检验差异外显子用法 153
9.7 可视化 156
9.8 小结 160
参考文献 160
第10章 注释结果 161
10.1 引言 161
10.2 检索附加注释 161
10.2.1 使用生物体专化的注释包检索基因的注释 162
10.2.2 使用BioMart检索基因的注释 165
10.3 使用注释进行基因集的本体论分析 167
10.4 基因集分析详述 169
10.4.1 使用GOstats包的竞争的方法 170
10.4.2 使用Globaltest包的自包含的方法 172
10.4.3 长度偏差校正方法 173
10.5 小结 174
参考文献 174
第11章 可视化 176
11.1 引言 176
11.1.1 图像文件类型 176
11.1.2 图像分辨率 177
11.1.3 颜色模型 177
11.2 R中的图形 177
11.2.1 热图 178
11.2.2 火山图 182
11.2.3 MA图 184
11.2.4 染色体组型图 185
11.2.5 基因和转录本结构的可视化 187
11.3 完成图 189
11.4 小结 190
参考文献 190
第12章 非编码小RNA 192
12.1 引言 192
12.2 microRNA(miRNA) 193
12.3 微RNA并列RNA 196
12.4 Piwi关联的RNA 196
12.5 内源沉默RNA 197
12.6 外源沉默RNA 198
12.7 转运RNA 198
12.8 核仁小RNA 198
12.9 小核RNA 198
12.10 增强子衍生RNA 199
12.11 其他非编码小RNA 199
12.12 用于发现非编码小RNA的测序方法 200
12.12.1 miRNA-seq 201
12.12.2 CLIP-seq 203
12.12.3 降解组测序 205
12.12.4 全局连缀测序 205
12.13 小结 206
参考文献 206
第13章 非编码小RNA测序数据的分析 209
13.1 引言 209
13.2 小RNA的发现——miRDeep2 209
13.2.1 GFF文件 210
13.2.2 已知miRNA的FASTA文件 211
13.2.3 设置运行环境 211
13.2.4 运行miRDeep2 213
13.3 miRanalyzer 217
13.3.1 运行miRanalyzer 219
13.4 miRNA靶分析 219
13.4.1 计算的预测方法 219
13.4.2 人工智能方法 221
13.4.3 基于实验支持的方法 222
13.5 miRNA-seq和mRNA-seq数据集成 222
13.6 小RNA数据库和资源 223
13.6.1 miRBase中miRNA的RNA-seq读段 223
13.6.2 miRNA的表达地图集 225
13.6.3 CLIP-seq和降解组-seq数据的数据库 226
13.6.4 miRNA和疾病的数据库 226
13.6.5 研究社区和资源的通用数据库 227
13.6.6 miRNAblog 227
13.7 小结 228
参考文献 229