分子系统发生学是应用分子数据重建系统发生关系的学科。本书全面系统地论述了分子系统发生学的基础、原理、方法及应用。全书由18章组成,可以归纳为五大部分:第一部分包括第1~3章,分别介绍了系统发生和系统树的基本知识;第二部分包括第4~7章,是分子系统发生分析的基础,其中第4章和第5章是分子系统发生学的信息学基础,第6章是数据集系统发生信号评估,第7章讨论了分子进化模型及模型选择原理与方法;第三部分中的第8~12章是各种系统发生分析方法,分别就目前主要的系统发生分析方法(距离矩阵法、简约法、最大似然法、贝叶斯推论法和系统发生网络法等)从原理、软件操作、应用及局限性等方面进行了详细的介绍,第13章讨论了系统发生假设检验的原理和方法,第14章讨论了系统发生分析可靠性与影响因素;第四部分主要涉及各类数据集分析策略,其中第15章总结了不同类型数据的分析策略,第16章对复杂数据系统发生的分析策略与方法进行了详细地介绍,第17章是多基因数据分析策略和方法;最后一部分即第18章是系统树的可视化、注释与应用方面的内容。
本书可作为生物学、生物技术、生态学和生物信息学专业的本科生、研究生及科研人员学习分子系统发生学的教材或参考资料。
样章试读
目录
- 前言
第1章 系统发生学概论
1.1 系统发生与系统发生学
1.2 系统发生关系的含义
1.2.1 表征关系
1.2.2 分支关系
1.2.3 遗传关系
1.2.4 系统发生关系
1.2.5 年代关系
1.2.6 地理分布关系
1.3 分子系统发生分析的原理和假设
1.3.1 分子系统发生分析的原理
1.3.2 分子系统发生分析的假设
1.3.3 分子数据的优点
1.4 分子系统发生学的方法论
1.5 分子系统发生学的发展历史
1.6 系统发生分析的策略与步骤
1.7 分子系统发生学的文献资源
1.7.1 分子系统发生学期刊
1.7.2 分子系统发生学领域主要专著和教科书
1.8 分子系统发生学的成就和问题
第2章 系统发生分析基础
2.1 分子进化基础
2.1.1 分子进化的动力
2.1.2 分子进化的中性理论
2.1.3 溯祖理论
2.2 系统发生分析的分类学基础
2.2.1 系统发生与分类学的关系
2.2.2 分类阶元的系统发生意义
2.3 性状和性状分析方法
2.3.1 性状的分类
2.3.2 关于性状的基本假设
2.3.3 性状进化分析方法
2.3.4 性状的加权
2.3.5 性状的同源
2.3.6 性状的同型
2.4 系统发生分析的数学基础
2.5 系统发生分析的统计学基础
2.5.1 概率分布
2.5.2 系统发生的统计学检验
2.5.3 零假设与零模型
2.5.4 常用检验方法
2.5.5 随机数据及其在系统发生中的应用
2.6 理论系统发生学
2.7 模拟系统发生研究
2.7.1 系统树的模拟
2.7.2 序列的模拟
2.7.3 系统发生模拟研究的优势
2.8 系统发生分析的算法
2.8.1 精确算法
2.8.2 启发式算法
第3章 系统树
3.1 系统树的概念和含义
3.2 系统树的要素
3.2.1 系统树的拓扑结构
3.2.2 系统树的节点
3.2.3 系统树的分枝和分枝长度
3.3 演化历史与系统树的完整性
3.4 系统树表达的信息
3.5 系统树概念和表达形式的发展
3.6 系统树的类型
3.6.1 树状图与网状图
3.6.2 有根树和无根树
3.6.3 标度树与未标度树
3.6.4 基因树和物种树
3.6.5 基础树和合一树、源树和超树
3.6.6 期望树与实际树
3.6.7 普适生命树与完全树
3.6.8 二歧树和多歧树
3.6.9 系统树的表示形式
3.7 系统树的数学描述
3.7.1 系统树各部位的名称
3.7.2 二分树及其表示方式
3.7.3 二歧树的性质
3.8 系统树的赋根方法
3.9 系统树的生物学描述和解释
3.9.1 描述系统树的基本术语
3.9.2 系统树的分类学解释
3.9.3 系统树的进化解释
第4章 系统发生信息学
4.1 系统发生信息学概述
4.2 系统发生信息学研究内容
4.3 系统发生数据文件格式
4.3.1 数据文件格式
4.3.2 格式转换软件
4.3.3 系统树文件格式
4.4 系统发生分析软件
4.4.1 系统发生分析软件概述
4.4.2 系统发生分析软件的编程语言
4.4.3 系统发生分析软件的使用
4.5 PAUP*软件及使用
4.5.1 PAUP*软件的历史和版本
4.5.2 PAUP*的安装
4.5.3 PAUP*的功能
4.5.4 PAUP*命令及操作
4.5.5 PAUP*使用的一般步骤
4.5.6 ClustalX和PAUP*连用
4.5.7 PAUP*4辅助软件
4.6 MEGA 5软件包简介
4.7 DAMBE软件包简介
4.8 Sea View 4软件包简介
4.9 PHYLIP软件包简介
4.10 系统发生的自动化分析工具
4.11 系统发生网络资源
4.11.1 系统发生软件目录
4.11.2 CIPRES
4.11.3 分子进化和系统发生专题研讨会
4.12 系统发生数据库介绍
4.12.1 系统发生知识数据库
4.12.2 生命之树数据库
4.12.3 Species 2000数据库
4.12.4 NCBI分类数据库
4.13 系统发生信息学展望
第5章 数据集准备与序列比对
5.1 分子数据的获得
5.1.1 自测数据
5.1.2 序列拼接
5.2 来源于公共数据库的分子数据
5.2.1 查看分类单元中已知基因序列分布的方法
5.2.2 查看一个分类单元被提交到GenBank中序列数量的方法
5.2.3 查看一个分类单元有序列记录物种数量的方法
5.2.4 数据库序列获取方法
5.2.5 批量下载序列的方法
5.2.6 比对序列数据库
5.3 序列比对
5.3.1 比对的概念和分类
5.3.2 序列比对的原理
5.3.3 序列比对算法
5.3.4 比对方法的分类
5.4 常用比对软件
5.4.1 ClustalX
5.4.2 T-Coffee
5.4.3 DIALIGN
5.4.4 MUSCLE和MAFFT
5.4.5 ProAlign
5.4.6 POA和ABA
5.5 比对软件的选择
5.6 不同类型的序列比对方法和策略
5.6.1 DNA序列比对方法和策略
5.6.2 RNA基因序列的比对方法与策略
5.6.3 蛋白质序列比对
5.7 比对结果的美化显示与格式转化
5.7.1 比对结果的美化和位点信息显示
5.7.2 比对结果的格式转化
5.8 比对与系统发生分析
5.9 数据集中空位、模糊区、多态位点和丢失数据的处理
5.9.1 数据集中空位的处理
5.9.2 模糊比对序列的处理
5.9.3 多态性状的处理
5.9.4 丢失数据的处理
5.10 多源数据集组装
5.10.1 公共数据库数据的组装
5.10.2 多基因数据的连接
5.11 序列管理与数据提交
5.11.1 序列管理
5.11.2 系统发生数据提交
第6章 数据集系统发生信号评估
6.1 系统发生数据信号描述
6.2 数据集质量的评价
6.2.1 数据集组成特征分析
6.2.2 替换型式分析
6.2.3 分子进化参数计算
6.2.4 替换饱和作图
6.3 系统发生信号与结构分析
6.3.1 序列数据系统发生信号强弱的评价
6.3.2 系统发生信号评估软件与方法
6.3.3 系统发生信号组成结构分析
6.4 系统发生数据探索与实验性分析
6.4.1 数据特征的探索
6.4.2 系统发生数据的实验性分析
第7章 进化模型及其选择
7.1 进化模型及其在系统发生分析中的作用
7.2 系统发生模型
7.3 形态性状进化模型
7.4 DNA序列进化模型
7.4.1 DNA序列上发生的进化改变
7.4.2 同质性模型
7.4.3 碱基组成异质性模型
7.4.4 Indel模型
7.5 RNA进化模型
7.5.1 结构RNA序列的进化特征
7.5.2 RNA替换模型
7.6 蛋白质序列进化模型
7.6.1 蛋白质序列进化及建模
7.6.2 经验模型
7.6.3 机理模型
7.6.4 氨基酸频率变异和位点之间速率变异模型
7.6.5 混合模型
7.7 进化模型的选择
7.7.1 进化模型选择原理
7.7.2 LRT检验法
7.7.3 AIC信息标准法
7.7.4 贝叶斯信息标准法
7.7.5 贝叶斯因子法
7.7.6 决策论法
7.7.7 进化模型选择注意事项
7.8 DNA进化模型选择
7.8.1 用PAUP*选择模型的LRT检验
7.8.2 DNA模型选择软件
7.8.3 jModelTest的使用
7.9 蛋白质进化模型的选择和使用
7.9.1 蛋白质进化模型选择概述
7.9.2 蛋白质进化模型选择软件ProtTest3.0
7.10 进化模型参数的准确估计
7.11 混合模型和平均模型
第8章 距离矩阵方法
8.1 遗传距离的概念
8.2 距离数据的数学特征和生物学意义
8.3 将序列数据转化为距离的方法
8.3.1 未校正的遗传距离
8.3.2 校正距离的计算方法
8.3.3 最大似然法估计的校正距离
8.3.4 LogDet距离
8.3.5 基因组距离
8.3.6 蛋白质遗传距离
8.3.7 计算遗传距离的软件
8.3.8 校正距离的选择和使用注意事项
8.4 距离矩阵方法概述
8.5 聚类分析方法
8.6 邻接法
8.6.1 邻接法原理
8.6.2 邻接法的算法
8.7 最小进化法
8.8 叠加树法
8.8.1 原理
8.8.2 平均距离法
8.8.3 转换距离法
8.8.4 最小平方法
8.8.5 其他叠加树方法
8.9 距离树可靠性评价
8.10 距离矩阵建树方法的比较及应用
8.11 距离矩阵法建树软件
8.11.1 PAUP*4距离法建树
8.11.2 MEGA5的距离法
8.11.3 TREECON使用
8.11.4 T-REX软件使用
8.11.5 ProfDist使用方法
第9章 简约法
9.1 简约性方法原理
9.2 简约法的分析过程
9.2.1 性状分布模式
9.2.2 性状优化
9.2.3 多态性内部节点祖先状态的重建方法
9.2.4 性状加权
9.2.5 最简约树搜索
9.2.6 简约树分枝长度和树长的计算
9.2.7 最简约树的选择
9.2.8 MP树分支支持度计算
9.3 数据集中同型性状水平的分析和评价
9.4 简约法分析结果
9.5 简约性方法的优缺点
9.6 简约法分析软件
9.7 用PAUP*进行MP法分析
9.7.1 利用PAUP*进行简单简约法分析
9.7.2 加权简约法分析
9.7.3 PAUP*限制树搜索
9.7.4 PAUP*4简约法的脚本命令运行
9.8 TNT软件
9.9 WinClada和NOVA
第10章 最大似然法
10.1 最大似然法原理及其在系统发生分析上的应用
10.2 最大似然法建树原理
10.3 最大似然法建树过程
10.3.1 进化模型的选择及参数计算
10.3.2 系统树搜索方法
10.3.3 分枝长度的优化
10.3.4 似然值的计算
10.3.5 分支支持度计算
10.4 最大似然法建树结果的表示
10.5 最大似然法的优缺点
10.5.1 最大似然法的优点
10.5.2 最大似然法的缺点
10.6 最大似然法分析软件
10.6.1 PAUP*4的ML分析方法
10.6.2 PAUP*与ModelTest联合运行选择进化模型
10.6.3 TREEFINDER软件使用方法
10.6.4 TREE-PUZZLE软件使用方法
10.6.5 RAxML
10.6.6 PhyML
10.6.7 MetaPIGA
10.6.8 IQPNNI
10.6.9 GARLI
第11章 贝叶斯系统发生推论法
11.1 贝叶斯系统发生分析原理
11.1.1 贝叶斯统计原理
11.1.2 贝叶斯系统发生推论法历史和现状
11.1.3 贝叶斯系统发生推论原理
11.2 贝叶斯分析过程
11.2.1 贝叶斯方法选择模型
11.2.2 先验概率的设置
11.2.3 马尔可夫链运行设置
11.2.4 提议、混合与接受
11.2.5 贝叶斯推论法克服局部优化的方法
11.2.6 评估和促进后验概率分布收敛的方法
11.2.7 影响系统树后验概率计算的因素
11.3 贝叶斯法运行结果汇总
11.4 贝叶斯推论法结果的分析、判断与表示
11.5 贝叶斯系统发生软件及使用
11.5.1 贝叶斯系统发生软件
11.5.2 MrBayes 3.2使用方法
11.6 贝叶斯系统发生推论法优缺点
11.7 贝叶斯法与最大似然法的联系及区别
11.8 贝叶斯后验概率与自举支持度的关系
第12章 系统发生网络、超树和无比对方法
12.1 系统发生网络
12.1.1 网状进化型式与机制
12.1.2 系统发生网络的构建方法
12.1.3 网状图的构建软件
12.1.4 系统发生网络的应用
12.2 系统树的整合方法——超树
12.2.1 超树的概念
12.2.2 超树构建方法
12.2.3 超树方法的优缺点
12.3 无比对方法
12.3.1 比对和系统发生的联合估计方法
12.3.2 完全无比对方法
第13章 系统发生假设检验
13.1 系统发生假设检验概述
13.2 似然比检验
13.3 数据随机化检验
13.3.1 比较双树检验
13.3.2 PTP检验和限制树T-PTP检验
13.4 配对位点检验
13.4.1 Templeton检验
13.4.2 KH检验
13.5 非参数自举法
13.5.1 SH检验
13.5.2 AU检验
13.6 参数自举法
13.7 贝叶斯统计检验法
13.8 PAUP*执行的系统发生假设检验方法
13.9 CONSEL软件使用
第14章 系统发生分析的可靠性与影响因素
14.1 系统发生分析方法的可靠性
14.1.1 方法可靠性的评价标准
14.1.2 系统发生分析方法的比较研究
14.1.3 不同构树方法的优缺点
14.2 系统树的可靠性
14.2.1 系统树的两类误差
14.2.2 系统误差和随机误差
14.2.3 检验系统树可靠性的统计学方法
14.3 随机误差及统计分析
14.3.1 评估分支支持度的方法
14.3.2 自举法
14.3.3 自减法
14.3.4 贝叶斯后验概率法
14.3.5 计算分支支持度的软件
14.4 系统误差的消除方法
14.4.1 系统误差的来源
14.4.2 导致系统误差的条件
14.4.3 系统误差的识别
14.4.4 系统误差的消除方法
14.5 系统发生分析疑难解答
14.5.1 有异常分支的系统发生
14.5.2 随机误差
14.5.3 分类单元抽样
14.5.4 序列长度与类型
14.5.5 序列比对问题
14.5.6 进化模型选择问题
14.5.7 建树方法的选择
14.5.8 搜索算法选择
14.5.9 分子进化速率对系统发生的影响
14.5.10 替换速率变异
14.5.11 碱基组成偏向性的影响
14.5.12 碱基组成异质性的影响
14.5.13 外群选择与系统树的赋根问题
14.5.14 谱系缺失的影响
14.5.15 数据缺失对系统发生分析的影响
14.5.16 基因水平转移
14.5.17 序列和位点同源关系
14.5.18 选择作用的影响
14.5.19 重组的影响
14.5.20 分支支持度低的问题
14.5.21 计算时间太长的问题
14.5.22 总结
第15章 不同类型数据的分析策略
15.1 不同类型数据的特点
15.2 DNA序列分析策略和方法
15.2.1 用DNA序列还是蛋白质序列
15.2.2 编码蛋白质DNA序列的分析
15.2.3 DNA序列的加权简约法分析
15.2.4 DNA序列的ML和贝叶斯法分析
15.3 蛋白质序列分析策略和方法
15.3.1 蛋白质序列数据的获得
15.3.2 必须使用蛋白质序列的情况
15.3.3 蛋白质序列的分析策略
15.3.4 蛋白质立体结构分析
15.4 RNA序列分析策略和方法
15.4.1 RNA序列数据的特点
15.4.2 rRNA基因序列系统发生分析策略
15.4.3 rRNA基因序列分析软件
第16章 复杂数据和困难系统发生的分析策略与方法
16.1 早期适应辐射的系统发生
16.2 近期发生过适应辐射的系统发生
16.3 存在长枝吸引问题的系统发生
16.3.1 长枝吸引现象
16.3.2 产生长枝吸引现象的可能原因
16.3.3 识别长枝吸引的方法
16.3.4 消除长枝吸引现象的方法
16.4 大数据集的系统发生
16.4.1 大数据集系统发生及其面临的问题
16.4.2 大数据集系统发生分析策略
16.4.3 大数据集的系统发生分析需要的计算机和软件
16.4.4 大数据集分析实例
16.5 碱基组成异质性数据集的分析
16.5.1 序列组成偏向性及其对系统发生分析的影响
16.5.2 碱基组成异质性数据分析方法
16.5.4 氨基酸组成异质性数据分析方法
16.6 种上与种下数据的联合分析
第17章 多源数据集分析策略和方法
17.1 多源数据集概述
17.2 数据集之间的不相合性及检验方法
17.2.1 不相合性的类型
17.2.2 数据集之间不相合性的原因
17.2.3 数据集之间不相合性的检验方法
17.3 多源数据集的分析策略
17.3.1 联合方法
17.3.2 分类学相合性分析
17.3.3 数据划分方法
17.4 多源数据集的划分分析实例
17.5 谱系基因组学方法
17.5.1 谱系基因组学
17.5.2 谱系基因组学分析策略
17.5.3 谱系基因组学分析方法
第18章 系统树的可视化、注释与应用
18.1 系统树的可视化
18.1.1 TreeView
18.1.2 Dendroscope
18.1.3 Mesquite
18.1.4 FigTree
18.1.5 MrEnt
18.1.6 2D和3D曲面表示方法
18.1.7 iTOL
18.2 系统树的注释
18.2.1 分类学命名标注
18.2.2 分歧年代和地质时代的标注
18.2.3 重建祖先状态
18.2.4 性状进化
18.2.5 协同系统发生
18.3 系统树表达的信息及其应用
18.3.1 拓扑结构和分支长度
18.3.2 系统树的树形及应用
18.3.3 系统发生的不平衡性
18.3.4 系统树用于分析分歧速度
18.4 系统发生的应用
参考文献