本书介绍了Hadoop生态系统架构功能与原理;分布式文件系统HDF-SHDFS;MapReduce编程模型及应用开发;YARN原理及配置;Hadoop伪分布式环境的搭建与配置测试;Hadoop完整分布式的集群配置搭建;Zookeeper分布式协作框架;HDFSHA原理功能与配置测试;ResourceManagerHA原理与配置;通过实际案例介绍了网站用户行为分析、网站后台日志分析和二次排序;介绍数据仓库Hive的原理及安装部署、Hive的基本操作及实战操作;大数据协作框架Sqoop、Flume、Oozie及Hue的原理、配置、使用及其在企业项目中使用的架构;HBase的概念、HBase内部管理(region分裂、分配、合并)、HBase架构设计及表的存储设计;HBaseshell基本使用;HBaseJavaAPI使用及HBase应用案例。
样章试读
目录
- 目录
第1章 Hadoop概述 1
1.1 大数据应用发展前景 1
1.2 Hadoop简介 4
1.3 Hadoop架构 8
1.4 Hadoop生态系统 11
1.5 Hadoop 3.x新特性 12
第2章 Hadoop环境部署 15
2.1 环境部署准备工作 15
2.2 Hadoop部署方式概述 20
2.3 本地运行模式 20
2.4 基于完全分布式模式部署 21
2.5 MapReduce日志 32
2.6 集群时间同步 35
第3章 Hadoop分布式文件存储 37
3.1 HDFS 文件系统架构剖析 37
3.2 HDFS的概念详解 39
3.3 SecondaryNameNode 配置 42
3.4 HDFS 中本地存储目录的配置分析 44
3.5 环境安装和HDFS API 47
第4章 Hadoop 3.x之YARN和MapReduce 52
4.1 YARN的架构与应用监控 52
4.2 MapReduce编程模型 58
4.3 MapReduce Shuffle过程详解剖析 70
第5章 MapReduce案例分析 77
5.1 电商网站用户行为日志统计分析 77
5.2 旅行网站订单类型统计项目 84
5.3 倒排索引 88
第6章 Zookeeper 92
6.1 分布式协作框架Zookeeper 92
6.2 Zookeeper单机模式安装及zkCli基本命令使用 95
6.3 Zookeeper分布式集群安装部署 98
第7章 Hadoop 3.x之高可用性及联邦架构 101
7.1 HDFS HA 架构原理设计 101
7.2 配置HDFS HA部署、启动和测试 104
7.3 配置HDFS HA自动故障转移及测试 112
7.4 ResourceManager HA架构原理 117
7.5 ResourceManager HA配置、部署、启动及测试 119
7.6 NameNode Federation架构原理 124
7.7 NameNode Federation配置与测试 127
7.8 Hadoop 3.x自带工具DistCp使用 130
第8章 MapReduce高级编程之案例篇 133
8.1 MapReduce高级编程之二次排序 133
8.2 MapReduce高级编程之Join编程 143
8.3 网站用户行为日志分析 149
第9章 大数据仓库Hive之基础篇 153
9.1 Hive简介 153
9.2 Hive安装部署 155
9.3 MySQL保存元数据 159
9.4 HiveServer2访问方式 164
9.5 Hive基本shell交互式命令 165
9.6 Hive常用属性配置 166
第10章 大数据仓库Hive之深入篇 169
10.1 Hive数据类型 169
10.2 Hive数据库的基本操作 170
10.3 Hive数据表的基本操作 172
10.4 Hive数据表类型 176
10.5 Hive数据操纵 177
10.6 Hive数据查询 180
10.7 Hive分区表与分桶表 191
10.8 自定义函数 194
10.9 常见Hive调优策略 198
第11章 大数据仓库Hive之案例篇 205
11.1 Hive压缩与配置 205
11.2 Hive文件存储格式 210
11.3 Hive实战案例:网站访问日志分析 217
11.4 Hive实战案例:MovieLens数据分析 222
第12章 分布式数据库HBase225
12.1 HBase概述 225
12.2 HBase的体系架构 226
12.3 HBase数据模型与存储结构 227
12.4 HBase部署 232
12.5 HBaseshell 操作 236
12.6 HBaseJava API使用 247
第13章 HBase进阶篇 257
13.1 HBase架构深入剖析 257
13.2 HBase创建表时的预分区 260
13.3 HBase表设计 263
13.4 HBase表属性 269
13.5 HBase管理工具 273
13.6 HBase与Hive集成 278
第14章 数据同步框架DataX 283
14.1 DataX概述 283
14.2 DataX架构 285
14.3 DataX安装部署 287
14.4 同步MySQL数据到HDFS案例 289
14.5 DataX参数传递 295
14.6 同步HDFS数据到MySQL案例 297
第15章 大数据协作框架之Flume 300
15.1 Flume设计架构 300
15.2 Flume环境搭建 303
15.3 Flume常用组件的详细介绍 306
15.4 案例分析:收集数据至HDFS 311
15.5 Flume企业实战案例 313
主要参考文献 317