本书以人工智能方法和生物组学数据分析为主线,阐述了人工智能中的群智能优化、机器学习、深度学习等算法的基本原理,并探讨了如何将这些算法应用于生物信息学相关问题的研究中,如蛋白质复合物挖掘、关键蛋白质识别、疾病基因预测、多种组学(转录组学、代谢组学、微生物组学)数据与疾病的关联关系预测、circRNA-RBP结合位点预测、RNA甲基化位点预测以及药物发现等。本书系统收集整理了生物组学相关数据库,另结合应用问题,从人工智能算法设计到具体流程计算,再到结果分析,均给出了详细步骤,以上均是本书的特色所在。
样章试读
目录
- 目录
序
前言
第1章 绪论 1
1.1 引言 1
1.2 人工智能 1
1.2.1 人工智能的发展历史 1
1.2.2 人工智能的发展现状 3
1.3 大数据时代下的生物信息学 5
1.3.1 生物信息学 5
1.3.2 组学大数据的诞生 5
1.3.3 组学数据的类型与特点 10
1.3.4 多组学数据融合研究 11
1.4 人工智能在生物信息领域中的应用 12
1.4.1 人工智能与生物医药 12
1.4.2 人工智能在多组学数据分析中的应用 14
1.5 章节安排 18
1.6 小结 21
参考文献 22
第2章 生物多组学知识与数据库介绍 26
2.1 引言 26
2.2 组学基础知识 26
2.2.1 基因组学 26
2.2.2 蛋白质组学 27
2.2.3 转录组学 28
2.2.4 代谢组学 29
2.2.5 微生物组学 30
2.2.6 表观遗传组学 30
2.2.7 单细胞组学 31
2.2.8 时空组学 31
2.3 生物数据资源 32
2.3.1 生物信息学常用数据库 32
2.3.2 基因数据资源与常用工具 34
2.3.3 蛋白质数据资源 34
2.3.4 非编码RNA数据库 35
2.3.5 代谢物数据资源 38
2.3.6 微生物数据库 39
2.3.7 表观遗传组学数据库 40
2.3.8 单细胞组学数据库 41
2.3.9 时空组学数据库 42
2.3.10 疾病及疾病靶点数据库 43
2.3.11 药物数据库 43
2.4 小结 45
参考文献 45
第3章 生物网络特性与相似性 48
3.1 引言 48
3.2 生物网络概述 48
3.2.1 生物网络的构建 48
3.2.2 二分网络和异构网络 50
3.3 生物网络结点的度量方法 50
3.3.1 中心性度量方法 51
3.3.2 PageRank算法 52
3.4 相似性计算方法 53
3.4.1 基于拓扑结构的相似性 53
3.4.2 基于序列的相似性 54
3.4.3 基于表达数据的相似性 54
3.4.4 基于语义本体的相似性 55
3.4.5 基于关联关系的相似性 57
3.4.6 基于分子结构的相似性 60
3.4.7 基于网络传播的相似性 60
3.5 小结 61
参考文献 62
第4章 智能优化算法 64
4.1 引言 64
4.2 粒子群优化算法 64
4.2.1 粒子群优化算法仿生原理 64
4.2.2 基本粒子群优化算法描述 65
4.2.3 基本粒子群优化算法步骤 66
4.3 人工鱼群算法 66
4.3.1 人工鱼群算法仿生原理 66
4.3.2 人工鱼群算法描述 67
4.3.3 人工鱼群算法步骤 68
4.4 人工蜂群算法 68
4.4.1 人工蜂群算法仿生原理 68
4.4.2 人工蜂群算法描述 69
4.4.3 人工蜂群算法步骤 70
4.5 萤火虫算法 71
4.5.1 萤火虫算法仿生原理 71
4.5.2 萤火虫算法描述 71
4.5.3 萤火虫算法步骤 72
4.6 布谷鸟搜索算法 72
4.6.1 布谷鸟搜索算法仿生原理 72
4.6.2 布谷鸟搜索算法描述 74
4.6.3 布谷鸟搜索算法步骤 75
4.7 果蝇优化算法 75
4.7.1 果蝇优化算法仿生原理 75
4.7.2 果蝇优化算法描述 75
4.7.3 果蝇优化算法步骤 76
4.8 花授粉算法 77
4.8.1 花授粉算法仿生原理 77
4.8.2 花授粉算法描述 77
4.8.3 花授粉算法步骤 77
4.9 鸽群优化算法 78
4.9.1 鸽群优化算法仿生原理 78
4.9.2 鸽群优化算法描述 79
4.9.3 鸽群优化算法步骤 80
4.10 小结 80
参考文献 81
第5章 机器学习 85
5.1 引言 85
5.2 逻辑回归 86
5.2.1 逻辑回归原理 86
5.2.2 模型求解 87
5.3 支持向量机 88
5.3.1 支持向量机算法原理 88
5.3.2 核函数 89
5.4 决策树和随机森林 90
5.4.1 决策树 91
5.4.2 随机森林 92
5.5 神经网络 93
5.5.1 单层神经网络 94
5.5.2 多层神经网络 95
5.5.3 激活函数 96
5.6 基于划分的聚类算法 97
5.6.1 k-Means聚类算法 97
5.6.2 k-中心点聚类算法 99
5.7 基于密度的聚类算法 99
5.7.1 DBSCAN算法 99
5.7.2 OPTICS算法 101
5.8 基于层次的聚类算法 102
5.8.1 BIRCH算法 102
5.8.2 变色龙聚类算法 103
5.9 马尔可夫聚类算法 104
5.10 评价指标 106
5.10.1 数值评价指标 107
5.10.2 图形评价指标 109
5.10.3 交叉验证 109
5.11 小结 110
参考文献 110
第6章 深度学习 112
6.1 引言 112
6.2 卷积神经网络 113
6.2.1 卷积的概念 114
6.2.2 卷积神经网络的基本结构 115
6.2.3 卷积神经网络的求解 116
6.3 循环神经网络 117
6.3.1 循环神经网络的基本模型 118
6.3.2 长短期记忆网络 118
6.3.3 门控循环单元 119
6.4 自编码器 120
6.4.1 自编码器原理 121
6.4.2 深度自编码器 121
6.4.3 图自编码器 122
6.5 图神经网络 123
6.5.1 图神经网络原理 123
6.5.2 图神经网络分类 124
6.6 图卷积网络 126
6.6.1 图卷积网络原理 126
6.6.2 图卷积网络的理解 127
6.7 图注意力网络 128
6.7.1 注意力机制 129
6.7.2 图注意力网络模型 130
6.8 Word2vec词嵌入算法 131
6.8.1 词嵌入 132
6.8.2 连续词袋模型 132
6.8.3 跳字模型 132
6.9 小结 133
参考文献 134
第7章 PPI网络及蛋白质复合物挖掘方法 136
7.1 引言 136
7.2 蛋白质复合物 136
7.2.1 蛋白质复合物作用 136
7.2.2 蛋白质复合物结构 137
7.3 基于群智能优化的蛋白质复合物挖掘 139
7.3.1 基于布谷鸟优化算法的蛋白质复合物挖掘 139
7.3.2 基于果蝇优化算法的蛋白质复合物挖掘 144
7.3.3 基于萤火虫优化算法的蛋白质复合物挖掘 148
7.4 基于网络拓扑结构的蛋白质复合物挖掘 153
7.4.1 TP-WDPIN算法原理 153
7.4.2 TP-WDPIN算法流程 155
7.4.3 实验结果与分析 156
7.5 基于密度聚类算法的蛋白质复合物挖掘 159
7.5.1 基于DBSCAN算法的蛋白质复合物挖掘 159
7.5.2 基于OPTICS算法的蛋白质复合物挖掘 162
7.6 基于马尔可夫聚类算法的蛋白质复合物挖掘 165
7.6.1 F-MCL算法原理 165
7.6.2 F-MCL算法流程 166
7.6.3 实验结果与分析 167
7.7 基于商空间的蛋白质复合物挖掘 167
7.7.1 ONCQS算法原理 168
7.7.2 ONCQS算法流程 171
7.7.3 实验结果与分析 172
7.8 小结 174
参考文献 175
第8章 关键蛋白质识别方法 178
8.1 引言 178
8.2 基于多源异构数据融合的关键蛋白质识别 178
8.2.1 多源异构数据介绍 180
8.2.2 基于基因表达、亚细胞定位和PPI数据的关键蛋白质识别 181
8.3 基于二阶邻域与信息熵的关键蛋白质识别 184
8.3.1 NIE算法原理 185
8.3.2 NIE算法流程 187
8.3.3 实验结果与分析 188
8.4 基于人工鱼群算法的关键蛋白质识别 190
8.4.1 AFSO_EP算法原理 190
8.4.2 AFSO_EP算法流程 193
8.4.3 实验结果与分析 193
8.5 基于花授粉算法的关键蛋白质识别 195
8.5.1 FPE算法原理 196
8.5.2 FPE算法流程 198
8.5.3 实验结果与分析 198
8.6 小结 201
参考文献 201
第9章 疾病基因预测 204
9.1 引言 204
9.2 基于二步随机游走算法的癌症基因预测 204
9.2.1 构建异构网络 205
9.2.2 TRWR-MB算法预测 205
9.2.3 实验结果与分析 208
9.3 基于逻辑回归算法的疾病基因预测 209
9.3.1 网络重构 209
9.3.2 LR-RPN算法预测 211
9.3.3 实验结果与分析 213
9.4 基于鸽群优化算法的疾病基因预测 215
9.4.1 问题定义与描述 215
9.4.2 PDG-PIO算法预测 217
9.4.3 实验结果与分析 218
9.5 基于网络信息损失模型的疾病基因预测 221
9.5.1 网络信息损失模型 221
9.5.2 异构网络传播算法 223
9.5.3 InLPCH算法预测 224
9.5.4 实验结果与分析 225
9.6 小结 230
参考文献 230
第10章 非编码RNA与疾病关联关系预测 233
10.1 引言 233
10.2 基于变分自编码器的miRNA与疾病关联关系预测 233
10.2.1 基于VGAE的非线性特征表示 233
10.2.2 基于非负矩阵分解的线性特征表示 235
10.2.3 VGAMF算法预测 235
10.2.4 实验结果与分析 235
10.3 基于矩阵分解的lncRNA与疾病关联关系预测 237
10.3.1 非负矩阵分解算法 237
10.3.2 TDNMF算法预测 238
10.3.3 实验结果与分析 239
10.4 基于卷积神经网络的circRNA与疾病关联关系预测 242
10.4.1 相似性特征融合 243
10.4.2 MSFCNN算法预测 245
10.4.3 实验结果与分析 247
10.5 基于图注意力网络的circRNA与疾病关联关系预测 248
10.5.1 相似性融合 248
10.5.2 GATCDA算法预测 249
10.5.3 实验结果与分析 251
10.6 基于图嵌入方法的circRNA与疾病关联关系预测 254
10.6.1 Metapath2vec + + 图嵌入 254
10.6.2 PCD-MVMF算法预测 255
10.6.3 实验结果与分析 257
10.7 基于图因子分解机的circRNA与疾病关联关系预测 258
10.7.1 因子分解机 258
10.7.2 ICDGFG算法预测 260
10.7.3 实验结果与分析 263
10.8 小结 265
参考文献 266
第11章 circRNA-RBP结合位点预测 270
11.1 引言 270
11.2 基于卷积神经网络的circRNA-RBP结合位点预测 270
11.2.1 癌症特异性结合位点序列 271
11.2.2 多尺度卷积框架 272
11.2.3 CSCRSites算法预测 272
11.2.4 实验结果与分析 273
11.3 基于胶囊网络的circRNA-RBP结合位点预测 275
11.3.1 RBP特异性结合位点 276
11.3.2 变体胶囊网络框架 279
11.3.3 circRB算法预测 280
11.3.4 实验结果与分析 281
11.4 基于循环神经网络的circRNA-RBP结合位点预测 285
11.4.1 膀胱癌中差异表达RBP结合位点 285
11.4.2 基于LSTM的上下文依赖关系学习 288
11.4.3 CRPBsites算法预测 290
11.4.4 实验结果与分析 292
11.5 基于伪孪生神经网络的circRNA-RBP结合位点预测 293
11.5.1 疾病相关RBP结合位点与特征提取 294
11.5.2 基于BiLSTM-Attention的特征学习 295
11.5.3 circ-pSBLA算法预测 297
11.5.4 实验结果与分析 298
11.6 小结 299
参考文献 300
第12章 代谢物与疾病的关联关系预测 302
12.1 引言 302
12.2 基于KATZ算法的代谢物与疾病关联关系预测 302
12.2.1 KATZ算法 303
12.2.2 KATZMDA算法预测 303
12.2.3 实验结果与分析 305
12.3 基于蜂群优化算法的代谢物与疾病关联关系预测 306
12.3.1 相似性网络和网络一致性投影 306
12.3.2 SSABCMDA算法预测 308
12.3.3 实验结果与分析 311
12.4 基于LightGBM的代谢物与疾病关联关系预测 312
12.4.1 轻量级梯度提升树 313
12.4.2 LGBMMDA算法预测 314
12.4.3 实验结果与分析 316
12.5 基于DeepWalk和随机森林的代谢物与疾病关联关系预测 318
12.5.1 DeepWalk网络表征提取 318
12.5.2 NERF算法预测 319
12.5.3 实验结果与分析 320
12.6 基于图卷积网络的代谢物和疾病关联关系预测 326
12.6.1 代谢物与疾病相似性计算与融合 326
12.6.2 MDAGCN算法预测 326
12.6.3 实验结果与分析 329
12.7 小结 331
参考文献 332
第13章 微生物与疾病的关联关系预测 335
13.1 引言 335
13.2 基于Node2vec的微生物和疾病关联关系预测 335
13.2.1 Node2vec 336
13.2.2 LGRSH算法预测 337
13.2.3 实验结果与分析 338
13.3 基于大规模信息网络嵌入算法的微生物和疾病关联关系预测 340
13.3.1 基于LINE算法的特征表示 341
13.3.2 MSLINE算法预测 342
13.3.3 实验结果与分析 343
13.4 基于结构深度网络嵌入算法的微生物和疾病关联关系预测 345
13.4.1 基于SDNE的特征提取 346
13.4.2 NEMDA算法预测 347
13.4.3 实验结果与分析 348
13.5 基于元路径聚合图神经网络的微生物和疾病关联关系预测 350
13.5.1 基于MAGNN的特征学习 352
13.5.2 MATHNMDA算法预测 353
13.5.3 实验结果与分析 355
13.6 基于去噪自编码器和卷积神经网络的微生物和疾病关联关系预测 358
13.6.1 基于LE和DAE的特征学习 360
13.6.2 MMHN-MDA算法预测 361
13.6.3 实验结果与分析 364
13.7 基于关系图卷积网络的微生物和疾病关联关系预测 367
13.7.1 基于R-GCN的特征学习 367
13.7.2 TNR-GCN算法预测 367
13.7.3 实验结果与分析 370
13.8 小结 371
参考文献 372
第14章 RNA甲基化位点预测及模式分析 375
14.1 引言 375
14.2 基于卷积神经网络的mRNA中m6A甲基化位点预测 375
14.2.1 mRNA中m6A数据集构建 376
14.2.2 序列特征编码 376
14.2.3 基于多模态CNN的m6A甲基化位点预测 378
14.2.4 实验结果与分析 379
14.3 基于随机森林的lncRNA中m6A甲基化位点预测 381
14.3.1 lncRNA中m6A数据集构建 381
14.3.2 序列特征与基因组特征编码 382
14.3.3 基于RF的m6A甲基化位点预测 385
14.3.4 实验结果与分析 386
14.4 基于非负矩阵分解的RNA共甲基化模式分析 387
14.4.1 多数据集中RNA甲基化水平提取 388
14.4.2 基于NMF的共甲基化模式分析 389
14.4.3 实验结果与分析 390
14.5 基于机器学习的RNA甲基化位点预测平台开发 392
14.5.1 基因组特征编码与基因组坐标 392
14.5.2 基于机器学习的甲基化位点预测模型构建 393
14.5.3 Web界面实现与编程环境 393
14.5.4 实验结果与分析 393
14.6 小结 395
参考文献 395
第15章 药物发现 398
15.1 引言 398
15.2 基于双重图神经网络的药物和药物相互作用预测 398
15.2.1 药物分子表示 398
15.2.2 基于SA-DMPNN的子结构提取 400
15.2.3 DGNN-DDI算法预测 401
15.2.4 实验结果与分析 403
15.3 基于残差图卷积神经网络的药物和药物相互作用预测 407
15.3.1 多源异构网络构建 407
15.3.2 基于ResGCN的编码器 408
15.3.3 MSResG算法预测 410
15.3.4 实验结果与分析 410
15.4 基于符号图神经网络的药物靶标相互作用预测 412
15.4.1 药物靶标符号图构建 413
15.4.2 SHGNN算法预测 414
15.4.3 实验结果与分析 420
15.5 基于BiGRU和GraphSAGE的药物分子毒性预测 426
15.5.1 基于BiGRU的分子序列特征提取 427
15.5.2 基于GraphSAGE的分子结构特征提取 428
15.5.3 MTBG算法预测 429
15.5.4 实验结果与分析 430
15.6 基于聚类约束的药物重定位研究 432
15.6.1 药物与疾病的属性特征提取 432
15.6.2 药物与疾病的网络聚类特征提取 433
15.6.3 基于DRGCC算法的药物重定位 436
15.6.4 实验结果与分析 436
15.7 小结 440
参考文献 440