分子系统发生学是应用分子数据重建系统发生关系的学科。本书全面系统地论述了分子系统发生学的基础、原理、方法及应用。全书由18章组成,可以归纳为五大部分:第一部分包括第1~3章,分别介绍了系统发生和系统树的基本知识;第二部分包括第4~7章,是分子系统发生分析的基础,其中第4章和第5章是分子系统发生学的信息学基础,第6章是数据集系统发生信号评估,第7章讨论了分子进化模型及模型选择原理与方法;第三部分中的第8~12章是各种系统发生分析方法,分别就目前主要的系统发生分析方法(距离矩阵法、简约法、最大似然法、贝叶斯推论法和系统发生网络法等)从原理、软件操作、应用及局限性等方面进行了详细的介绍,第13章讨论了系统发生假设检验的原理和方法,第14章讨论了系统发生分析可靠性与影响因素;第四部分主要涉及各类数据集分析策略,其中第15章总结了不同类型数据的分析策略,第16章对复杂数据系统发生的分析策略与方法进行了详细地介绍,第17章是多基因数据分析策略和方法;最后一部分即第18章是系统树的可视化、注释与应用方面的内容。
样章试读
目录
- 目录
前言
第1章 系统发生学概论 1
1.1 系统发生与系统发生学 1
1.2 系统发生关系的含义 2
1.2.1 表征关系 2
1.2.2 分支关系 3
1.2.3 遗传关系 4
1.2.4 系统发生关系 5
1.2.5 年代关系 6
1.2.6 地理分布关系 7
1.3 分子系统发生分析的原理和假设 8
1.3.1 分子系统发生分析的原理 8
1.3.2 分子系统发生分析的假设 13
1.3.3 分子数据的优点 14
1.4 分子系统发生学的方法论 15
1.5 分子系统发生学的发展历史 16
1.6 系统发生分析的策略与步骤 18
1.7 分子系统发生学的文献资源 20
1.7.1 分子系统发生学期刊 20
1.7.2 分子系统发生学领域主要专著和教科书 20
1.8 分子系统发生学的成就和问题 21
第2章 系统发生分析基础 23
2.1 分子进化基础 23
2.1.1 分子进化的动力 24
2.1.2 分子进化的中性理论 27
2.1.3 溯祖理论 29
2.2 系统发生分析的分类学基础 31
2.2.1 系统发生与分类学的关系 31
2.2.2 分类阶元的系统发生意义 32
2.3 性状和性状分析方法 35
2.3.1 性状的分类 36
2.3.2 关于性状的基本假设 36
2.3.3 性状进化分析方法 37
2.3.4 性状的加权 39
2.3.5 性状的同源 39
2.3.6 性状的同型 43
2.4 系统发生分析的数学基础 44
2.5 系统发生分析的统计学基础 45
2.5.1 概率分布 45
2.5.2 系统发生的统计学检验 45
2.5.3 零假设与零模型 46
2.5.4 常用检验方法 46
2.5.5 随机数据及其在系统发生中的应用 48
2.6 理论系统发生学 49
2.7 模拟系统发生研究 50
2.7.1 系统树的模拟 50
2.7.2 序列的模拟 51
2.7.3 系统发生模拟研究的优势 51
2.8 系统发生分析的算法 52
2.8.1 精确算法 52
2.8.2 启发式算法 53
第3章 系统树 58
3.1 系统树的概念和含义 58
3.2 系统树的要素 58
3.2.1 系统树的拓扑结构 59
3.2.2 系统树的节点 59
3.2.3 系统树的分枝和分枝长度 59
3.3 演化历史与系统树的完整性 60
3.4 系统树表达的信息 61
3.5 系统树概念和表达形式的发展 62
3.6 系统树的类型 67
3.6.1 树状图与网状图 67
3.6.2 有根树和无根树 68
3.6.3 标度树与未标度树 70
3.6.4 基因树和物种树 70
3.6.5 基础树和合一树、源树和超树 71
3.6.6 期望树与实际树 73
3.6.7 普适生命树与完全树 74
3.6.8 二歧树和多歧树 74
3.6.9 系统树的表示形式 75
3.7 系统树的数学描述 79
3.7.1 系统树各部位的名称 79
3.7.2 二分树及其表示方式 79
3.7.3 二歧树的性质 80
3.8 系统树的赋根方法 82
3.9 系统树的生物学描述和解释 86
3.9.1 描述系统树的基本术语 86
3.9.2 系统树的分类学解释 87
3.9.3 系统树的进化解释 89
第4章 系统发生信息学 91
4.1 系统发生信息学概述 91
4.2 系统发生信息学研究内容 92
4.3 系统发生数据文件格式 92
4.3.1 数据文件格式 92
4.3.2 格式转换软件 99
4.3.3 系统树文件格式 101
4.4 系统发生分析软件 103
4.4.1 系统发生分析软件概述 103
4.4.2 系统发生分析软件的编程语言 104
4.4.3 系统发生分析软件的使用 104
4.5 PAUP*软件及使用 109
4.5.1 PAUP*软件的历史和版本 109
1.5.2 PAUP*的安装 110
4.5.3 PAUP*的功能 110
4.5.4 PAUP'*命令及操作 111
4.5.5 PAUP*使用的一般步骤 113
4.5.6 ClustalX和PAUP*连用 114
4.5.7 PAUP'4辅助软件 114
4.6 MEGA 5软件包简介 115
4.7 DAMBE软件包简介 116
4.8 SeaView 4软件包简介 117
4.9 PHY1IP软件包简介 118
4.10 系统发生的自动化分析工具 121
4.11 系统发生网络资源 121
4.11.1 系统发生软件目录 122
4.11.2 CIPRES 123
4.11.3 分子进化和系统发生专题研讨会 124
4.12 系统发生数据库介绍 125
4.12.1 系统发生知识数据库 125
4.12.2 生命之树数据库 126
4.12.3 Species 2000数据库 127
4.12.4 NCBI分类数据库 129
4.13 系统发生信息学展望 130
第5章 数据集准备与序列比对 131
5.1 分子数据的获得 131
5.1.1 自测数据 131
5.1.2 序列拼接 134
5.2 来源于公共数据库的分子数据 135
5.2.1 查看分类单元中已知基因序列分布的方法 135
5.2.2 查看一个分类单元被提交到GenBank中序列数量的方法 136
5.2.3 查看一个分类单元有序列记录物种数量的方法 137
5.2.4 数据库序列获取方法 137
5.2.5 批量下载序列的方法 139
5.2.6 比对序列数据库 140
5.3 序列比对 140
5.3.1 比对的概念和分类 140
5.3.2 序列比对的原理 141
5.3.3 序列比对算法 143
5.3.4 比对方法的分类 144
5.4 常用比对软件 144
5.4.1 C1usta1X 145
5.4.2 T-Coffcc 151
5.4.3 DIALIGN 152
5.4.4 MUSCLE和MAFFT 152
5.4.5 ProAlign 155
5.4.6 POA和ABA 157
5.5 比对软件的选择 157
5.6 不同类型的序列比对方法和策略 158
5.6.1 DNA序列比对方法和策略 158
5.6.2 RNA基因序列的比对方法与策略 159
5.6.3 蛋白质序列比对 162
5.7 比对结果的美化最示与格式转化 164
5.7.1 比对结果的美化和位点信息显示 164
5.7.2 比对结果的格式转化 165
5.8 比对与系统发生分析 166
5.9 数据集中空位、模糊区、多态位点和丢失数据的处理 167
5.9.1 数据集中空位的处理 167
5.9.2 模糊比对序列的处理 169
5.9.3 多态性状的处理 170
5.9.4 丢失数据的处理 171
5.10 多源数据集组装 171
5.10.1 公共数据序数据的组装 171
5.10.2 多基因数据的连接 172
5.11 序列管理与数据提交 173
5.11.1 序列管理 173
5.11.2 系统发生数据提交 174
第6章 数据集系统发生信号评估 176
6.1 系统发生数据信号描述 176
6.2 数据集质量的评价 177
6.2.1 数据集组成特征分析 178
6.2.2 替换型式分析 182
6.2.3 分子进化参数计算 187
6.2.4 替换饱和作图 192
6.3 系统发生信号与结构分析 200
6.3.1 序列数据系统发生信号强弱的评价 200
6.3.2 系统发生信号评估软件与方法 200
6.3.3 系统发生信号组成结构分析 205
6.4 系统发生数据探索与实验性分析 209
6.4.1 数据特征的探索 209
6.4.2 系统发生数据的实验性分析 209
第7章 进化模型及其选择 211
7.1 进化模型及其在系统发生分析中的作用 211
7.2 系统发生模型 211
7.3 形态性状进化模型 212
7.4 DNA序列进化模型 213
7.4.1 DNA序列上发生的进化改变 213
7.4.2 同质性模型 216
7.4.3 碱基组成异质性模型 222
7.4.4 Jndel模型 222
7.5 RNA进化模型 223
7.5.1 结构RNA序列的进化特征 223
7.5.2 RNA替换模型 224
7.6 蛋白质序列进化模型 225
7.6.1 蛋白质序列进化及建模 220
7.6.2 经验模型 226
7.6.3 机理模型 227
7.6.4 氨基酸频率变异和位点之间速率变异模型 228
7.6.5 混合模型 228
7 7 进化模型的选择 229
7.7.1 进化模型选择原理 229
7.7.21RT检验法 229
7.7.3 AIC信息标准法 231
7.7.4 贝叶斯信息标准法 232
7.7.5 贝叶斯因子法 233
7.7.6 决策论法 233
7.7.7 进化模型选择注意事项 234
7.8 DNA进化模型选择 235
7.8.1 用PAUP*选择模型的LRT检验 235
7.8.2 DNA模型选择软件 236
7.8.3 jMode1Test的使用 236
7.9 蛋白质进化模型的选择和使用 240
7.9.1 蛋白质进化模型选择概述 240
7.9.2 蛋白质进化模型选择软件ProtTest3.0 241
7.10 进化模型参数的准确估计 244
7.11 混合模型和平均模型 245
第8章 距离矩阵方法 247
8.1 遗传距离的概念 247
8.2 距离数据的数学特征和生物学意义 247
8.3 将序列数据转化为距离的方法 250
8.3.1 未校正的遗传距离 250
8.3.2 校正距离的计算方法 253
8.3.3 最大似然法估计的校正距离 254
8.3.4 LogDet距离 255
8.3.5 基因组距离 255
8.3.6 蛋白质遗传距离 256
8.3.7 计算遗传距离的软件 257
8.3.8 校正距离的选择和使用注意事项 259
8.4 距离矩阵方法概述 260
8.5 聚类分析方法 261
8.6 邻接法 262
8.6.1 邻接法原理 262
8.6.2 邻接法的算法 263
8.7 最小进化法 265
8.8 叠加树法 266
8.8.1 原理 266
8.8.2 平均距离法 267
8.8.3 转换距离法 268
8.8.4 最小平方法 268
8.8.5 其他叠加树方法 269
8.9 距离树可靠性评价 270
8.10 距离矩阵建树方法的比较及应用 270
8.11 距离矩阵法建树软件 271
8.11.1 PAUP*4距离法建树 272
8.11.2 MEGA5的距离法 275
8.11.3 TREECON使用 276
8.11.4 T-REX软件使用 278
8.11.5 ProfDist使用方法 280
第9章 简约法 283
9.1 简约性方法原理 283
9.2 简约法的分析过程 284
9.2.1 性状分布模式 284
9.2.2 性状优化 285
9.2.3 多态性内部节点祖先状态的重建方法 291
9.2.4 性状加权 292
9.2.5 最简约树搜索 293
9.2.6 简约树分枝长度和树长的计算 295
9.2.7 最简约树的选择 295
9.2.8 MP树分支支持度计算 296
9.3 数据集中同型性状水平的分析和评价 297
9.4 简约法分析结果 299
9.5 简约性方法的优缺点 299
9.6 简约法分析软件 300
9.7 用PAUP*进行MP法分析 301
9.7.1 利用PAUP*进行简单简约法分析 301
9.7.2 加权简约法分析 306
9.7.3 PAUP*限制树搜索 308
9.7.4 PAUP*4简约法的脚本命令运行 309
9.8 TNT软件 310
9.9 WinClada和NOVA 311
第10章 最大似然法 313
10.1 最大似然法原理及其在系统发生分析上的应用 313
10.2 最大似然法建树原理 314
10.3 最大似然法建树过程 314
10.3.1 进化模型的选择及参数计算 315
10.3.2 系统树搜索方法 316
10.3.3 分枝长度的优化 318
10.3.4 似然值的计算 319
10.3.5 分支支持度计算 322
10.4 最大似然法建树结果的表示 323
10.5 最大似然法的优缺点 323
10.5.1 最大似然法的优点 323
10.5.2 最大似然法的缺点 324
10.6 最大似然法分析软件 324
10.6.1 PAUP*4的ML分析方法 325
10.6.2 PAUP*与ModelTest联合运行选择进化模型 333
10.6.3 TREEFINDER软件使用方法 334
10.6.4 TREE-PUZZ1E软件使用方法 336
10.6.5 RAxML 338
10.6.6 PhyML 339
10.6.7 MetaPIGA 340
10.6.8 IQPNNI 341
10.6.9 GARLI 342
第1章 贝叶斯系统发生推论法 343
11.1 贝叶斯系统发生分析原理 343
11.1.1 贝叶斯统计原理 343
11.1.2 贝叶斯系统发生推论法历史和现状 344
11.1.3 贝叶斯系统发生推论原理 345
11.2 贝叶斯分析过程 317
11.2.1 贝叶斯方法选择模型 347
11.2.2 先验概率的设置 348
11.2.3 马尔可夫链运行设置 349
11.2.4 提议、混合与接受 350
11.2.5 贝叶斯推论法克服局部优化的方法 351
11.2.6 评估和促进后验概率分布收敛的方法 351
11.2.7 影响系统树后验概率计算的因素 352
11.3 贝叶斯法运行结果汇总 353
11.4 贝叶斯推论法结果的分析、判断与表示 351
11.5 贝叶斯系统发生软件及使用 356
11.5.1 贝叶斯系统发生软件 356
11.5.2 MrBayes 3.2使用方法 357
11.6 贝叶斯系统发生推论法优缺点 364
11.7 贝叶斯法与最大似然法的联系及区别 365
11.8 贝叶斯后验概率与自举支持度的关系 366
第12章 系统发生网络、超树和无比对方法 368
12.1 系统发生网络 368
12.1.1 网状进化型式与机制 368
12.1.2 系统发生网络的构建方法 368
12.1.3 网状图的构建软件 370
12.1.4 系统发生网络的应用 371
12.2 系统树的整合方法——超树 375
12.2.1 超树的概念 375
12.2.2 超树构建方法 375
12.2.3 超树方法的优缺点 376
12.3 无比对方法 377
12.3.1 比对和系统发生的联合估计方法 377
12.3.2 完全无比对方法 379
第13章 系统发生假设检验 381
13.1 系统发生假设检验概述 381
13.2 似然比检验 382
13.3 数据随机化检验 382
13.3.1 比较双树检验 383
13.3.2 PTP检验和限制树T-PTP检验 383
13.4 配对位点检验 384
13.4.1 Temp1eton检验 385
13.4.2 KH检验 386
13.5 非参数自举法 387
13.5.1 SH检验 388
13.5.2 AU检验 389
13.6 参数自举法 389
13.7 贝叶斯统计检验法 391
13.8 PAUP*执行的系统发生假设检验方法 391
13.9 CONSEL软件使用 392
第14章 系统发生分析的可靠性与影响因素 394
14.1 系统发生分析方法的可靠性 394
14.1.1 方法可靠性的评价标准 394
14.1.2 系统发生分析方法的比较研究 395
14.1.3 不同构树方法的优缺点 397
14.2 系统树的可靠性 400
14.2.1 系统树的两类误差 400
14.2.2 系统误差和随机误差 400
14.2.3 检验系统树可靠性的统计学方法 401
14.3 随机误差及统计分析 402
14.3.1 评估分支支持度的方法 402
14.3.2 自举法 404
14.3.3 自减法 407
14.3.4 贝叶斯后验概率法 407
14.3.5 计算分支支持度的软件 108
14.4 系统误差的消除方法 409
14.4.1 系统误差的来源 409
14.4.2 导致系统误差的条件 410
14.4.3 系统误差的识别 410
14.4.4 系统误差的消除方法 411
14.5 系统发生分析疑难解答 411
14.5.1 有异常分支的系统发生 411
14.5.2 随机误差 412
14.5.3 分类单元抽样 413
14.5.4 序列长度与类型 414
14.5.5 序列比对问题 416
14.5.6 进化模型选择问题 417
14.5.7 建树方法的选择 418
14.5.8 搜索算法选择 418
14.5.9 分子进化速率对系统发生的影响 418
14.5.10 替换速率变异 419
14.5.11 碱基组成偏向性的影响 421
14.5.12 碱基组成异质性的影响 421
14.5.13 外群选择与系统树的赋根问题 422
14.5.14 谱系缺失的影响 423
14.5.15 数据缺失对系统发生分析的影响 423
14.5.16 基因水平转移 424
14.5.17 序列和位点同源关系 424
14.5.18 选择作用的影响 421
14.5.19 重组的影响 425
14.5.20 分支支持度低的问题 426
14.5.21 计算时间太长的问题 427
14.5.22 总结 428
第15章 不同类型数据的分析策略 429
15.1 不同类型数据的特点 429
15.2 DNA序列分析策略和方法 429
15.2.1 用DNA序列还是蛋白质序列 429
15.2.2 编码蛋白质DNA序列的分析 430
15.2.3 DNA序列的加权简约法分析 431
15.2.4 DNA序列的ML和贝叶斯法分析 434
15.3 蛋白质序列分析策略和方法 435
15.3.1 蛋白质序列数据的获得 430
15.3.2 必须使出蛋白质序列的情况 435
15.3.3 蛋白质序列的分析策略 435
15.3.4 蛋白质立体结构分析 439
15.4 RNA序列分析策略和方法 440
15.4.1 RNA序列数据的特点 440
15.4.2 rRNA基因序列系统发生分析策略 440
15.4.3 rRNA基因序列分析软件 442
第16章 复杂数据和困难系统发生的分析策略与方法 444
16.1 早期适应辐射的系统发生 444
16.2 近期发生过适应辐射的系统发生 448
16.3 存在长枝吸引问题的系统发生 450
16.3.1 长枝吸引现象 450
16.3.2 产生长枝吸引现象的可能原因 451
16.3.3 识别长枝吸引的方法 453
16.3.4 消除长枝吸引现象的方法 453
16.4 大数据集的系统发生 455
16.4.1 大数据集系统发生及其面临的问题 455
16.4.2 大数据集系统发生分析策略 455
16.4.3 大数据集的系统发生分析需要的计算机和软件 457
16.4.4 大数据集分析实例 458
16.5 碱基组成异质性数据集的分析 458
16.5.1 序列组成偏向性及其对系统发生分析的影响 458
16.5.2 碱基组成异质性数据分析方法 460
16.5.4 氨基酸组成异质性数据分析方法 461
16.6 种上与种下数据的联合分析 461
第17章 多源数据集分析策略和方法 465
17.1 多源数据集概述 465
17.2 数据集之间的不相合性及检验方法 466
17.2.1 不相合性的类型 466
17.2.2 数据集之间不相合性的原因 467
17.2.3 数据集之间不相合性的检验方法 469
17.3 多源数据集的分析策略 473
17.3.1 联合方法 473
17.3.2 分类学相合性分析 475
17.3.3 数据划分方法 476
17.4 多源数据集的划分分析实例 482
17.5 谱系基因组学方法 480
17.5.1 谱系基因组学 485
17.5.2 谱系基因组学分析策略 486
17.5.3 谱系基因组学分析方法 487
第18章 系统树的可视化、注释与应用 489
18.1 系统树的可视化 489
18.1.1 TreeView 491
18.1.2 Dendroscope 492
18.1.3 Mcsquitc 493
18.1.4 FigTree 494
18.1.5 MrEnt 494
18.1.6 2D和3D曲面表示方法 495
18.1.7 iTOL 496
18.2 系统树的注释 497
18.2.1 分类学命名标注 497
18.2.2 分歧年代和地质时代的标注 499
18.2.3 重建祖先状态 502
18.2.4 性状进化 503
18.2.5 协同系统发生 504
18.3 系统树表达的信息及其应用 507
18.3.1 拓扑结构和分支长度 507
18.3.2 系统树的树形及应用 507
18.3.3 系统发生的不平衡性 509
18.3.4 系统树用于分析分歧速度 510
18.4 系统发生的应用 510
参考文献 511