注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库Hadoop海量数据处理

Hadoop海量数据处理

Hadoop海量数据处理

定 价:¥99.80

作 者: 许政
出版社: 清华大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787302666943 出版时间: 2024-08-01 包装: 平装-胶订
开本: 16开 页数: 字数:  

内容简介

  《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。《Hadoop海量数据处理》通俗易懂、案例丰富、实用性强,适合Hadoop初学者和进阶人员阅读,也适合大数据工程师、数据分析工程师和数据科学家等大数据技术从业人员和爱好者阅读,还适合作为高等院校和相关培训机构的大数据教材。

作者简介

  许政毕业于哈尔滨工业大学,获硕士学位。现居深圳,任某一线大厂大数据架构师。参加工作以来,带领团队完成了多个百亿级大数据平台的建设。在实时计算方面有深厚的实践经验。熟悉多种大数据技术框架,如Hadoop、Spark、Flink、Elasticsearch、Kafka、HBase、ZooKeeper等。被CSDN评为优秀博主,撰写了大数据技术相关博文100余篇,博客访问量高达240多万。运维自己的独立博客网站。在大数据实时处理技术和人工智能算法方面有深入的研究,申请发明专利10余项。

图书目录

第1篇  Hadoop基础知识
第1章  大数据概述 2
1.1  大数据简介 2
1.2  大数据的特点 2
1.3  大数据的发展前景 3
1.4  大数据技术生态体系 4
1.4.1  数据采集与传输类 4
1.4.2  数据存储与管理类 5
1.4.3  资源管理类 5
1.4.4  数据计算类 5
1.4.5  任务调度类 6
1.5  大数据部门的组织架构 6
1.6  小结 7
第2章  Hadoop概述 8
2.1  Hadoop简介 8
2.2  Hadoop的发展历史 8
2.3  Hadoop的三大发行版本 9
2.4  Hadoop的优势 10
2.5  Hadoop各版本之间的区别 10
2.6  Hadoop的组成 11
2.6.1  HDFS架构简介 11
2.6.2  YARN架构简介 12
2.6.3  MapReduce架构简介 13
2.7  小结 14
第3章  Hadoop环境搭建与配置 15
3.1  搭建开发环境 15
3.1.1  对操作系统的要求 15
3.1.2  对软件环境的要求 17
3.1.3  下载和安装JDK 18
3.1.4  配置JDK环境变量 19
3.1.5  下载和安装Hadoop 19
3.1.6  配置Hadoop的环境变量 19
3.1.7  配置Hadoop的系统参数 20
3.1.8  解读Hadoop的目录结构 21
3.2  配置本地运行模式 22
3.2.1  在Linux环境下运行Hadoop官方的Grep案例 22
3.2.2  在Linux环境下运行Hadoop官方的WordCount案例 23
3.2.3  在Windows环境下搭建Hadoop 23
3.2.4  在Windows环境下运行WordCount案例 25
3.3  配置伪分布式模式 26
3.3.1  启动HDFS并运行MapReduce程序 26
3.3.2  启动YARN并运行MapReduce程序 31
3.3.3  配置历史服务器 35
3.3.4  配置日志的聚集功能 36
3.4  配置完全分布式模式 38
3.4.1  分布式集群环境准备 39
3.4.2  配置完全分布式集群 42
3.4.3  配置Hadoop集群单点启动 46
3.4.4  测试完全分布式集群 47
3.4.5  配置Hadoop集群整体启动 48
3.4.6  配置Hadoop集群时间同步 50
3.5  小结 52
第2篇  Hadoop分布式存储技术
第4章  HDFS概述 54
4.1  HDFS的背景和定义 54
4.1.1  HDFS产生的背景 54
4.1.2  HDFS的定义 54
4.2  HDFS的优缺点 55
4.2.1  HDFS的优点 55
4.2.2  HDFS的缺点 56
4.3  HDFS的组成架构 56
4.4  设置HDFS文件块的大小 58
4.5  小结 59
第5章  HDFS基础操作 60
5.1  HDFS的Shell命令操作 60
5.1.1  HDFS的帮助命令 60
5.1.2  显示HDFS的目录信息 62
5.1.3  创建HDFS目录 62
5.1.4  将本地文件复制到HDFS中 62
5.1.5  将HDFS中的文件复制到本地文件系统中 63
5.1.6  输出HDFS文件内容 63
5.1.7  追加HDFS文件内容 64
5.1.8  修改HDFS文件操作权限 65
5.1.9  将本地文件移动至HDFS中 65
5.1.10  复制HDFS文件 66
5.1.11  移动HDFS文件 66
5.1.12  上传HDFS文件 67
5.1.13  下载HDFS文件 67
5.1.14  删除文件或目录 67
5.1.15  批量下载HDFS文件 68
5.1.16  显示文件的末尾 68
5.1.17  统计目录的大小 69
5.1.18  设置HDFS中的文件副本数量 69
5.2  HDFS的API调用操作 69
5.2.1  准备开发环境 69
5.2.2  通过API创建目录 72
5.2.3  通过API上传文件 73
5.2.4  通过API下载文件 73
5.2.5  通过API删除目录 74
5.2.6  通过API修改文件名称 74
5.2.7  通过API查看文件详情 75
5.2.8  通过API判断文件和目录 76
5.2.9  通过I/O流上传文件 77
5.2.10  通过I/O流下载文件 77
5.2.11  通过I/O流定位文件读取位置 78
5.3  小结 79
第6章  HDFS的读写原理和工作机制 80
6.1  剖析HDFS的写数据流程 80
6.1.1  剖析文件写入流程 80
6.1.2  计算网络拓扑节点的距离 82
6.1.3  机架感知 83
6.2  剖析HDFS的读数据流程 83
6.3  剖析NameNode和SecondaryNameNode 的工作机制 85
6.3.1  解析NN和2NN的工作机制 85
6.3.2  解析FsImage和Edits文件 88
6.3.3  CheckPoint时间设置 94
6.3.4  NameNode故障处理 95
6.3.5  集群安全模式 97
6.3.6  NameNode多目录配置 99
6.4  剖析DataNode 100
6.4.1  解析DataNode的工作机制 100
6.4.2  保证数据的完整性 101
6.4.3  设置掉线时限参数 102
6.4.4  服役新的数据节点 102
6.4.5  退役旧的数据节点 109
6.4.6  DataNode多目录配置 111
6.5  小结 112
第7章  Hadoop 3.x的新特性 113
7.1  纠删码技术 113
7.1.1  探究纠删码技术原理 113
7.1.2  简述纠删码模式布局方案 113
7.1.3  解读纠删码策略 114
7.1.4  查看纠删码 115
7.1.5  设置纠删码 115
7.2  复制HDFS集群间的数据 116
7.2.1  采用scp实现HDFS集群间的数据复制 116
7.2.2  采用distcp实现HDFS集群间的数据复制 116
7.3  解决海量小文件的存储问题 116
7.3.1  HDFS存储小文件的弊端 117
7.3.2  将海量小文件存储为HAR文件 117
7.4  配置HDFS回收站 118
7.4.1  回收站的功能参数说明 118
7.4.2  解析回收站的工作机制 119
7.4.3  开启回收站的功能 119
7.4.4  修改访问回收站的用户名称 119
7.4.5  测试回收站的功能 120
7.4.6  恢复回收站中的数据 120
7.4.7  清空回收站 121
7.5  HDFS快照管理 121
7.6  小结 122
第3篇  MapReduce分布式编程框架
第8章  MapReduce概述 124
8.1  MapReduce的定义 124
8.2  MapReduce的优缺点 124
8.2.1  MapReduce的优点 124
8.2.2  MapReduce的缺点 125
8.3  MapReduce的核心编程思想 126
8.3.1  深入理解核心思想 126
8.3.2  MapReduce进程解析 128
8.4  官方的WordCount源码解析 128
8.5  小结 131
第9章  MapReduce开发基础 132
9.1  Hadoop的序列化概述 132
9.1.1  序列化与反序列化的定义 132
9.1.2  进行序列化的原因 132
9.1.3  Hadoop序列化的特点 132
9.2  数据序列化的类型 132
9.2.1  基本类型 133
9.2.2  集合类型 133
9.2.3  用户自定义类型 133
9.2.4  序列化类型案例实战 134
9.3  如何开发MapReduce程序 143
9.3.1  MapReduce编程规范 143
9.3.2  WordCount案例实战 144
9.4  小结 152
第10章  MapReduce框架的原理 153
10.1  InputFormat数据输入解析 153
10.1.1  切片与MapTask的并行度决定机制 153
10.1.2  FileInputFormat的切片机制解析 154
10.1.3  CombineTextInputFormat的切片机制 155
10.1.4  CombineTextInputFormat案例实战 157
10.1.5  归纳FileInputFormat的其他子类 165
10.1.6  KeyValueTextInputFormat案例实战 167
10.1.7  NLineInputFormat案例实战 175
10.1.8  自定义InputFormat案例实战 184
10.2  解析MapReduce的工作流程 194
10.3  剖析Shuffle的工作机制 198
10.3.1  Shuffle机制简介 198
10.3.2  Partition分区简介 199
10.3.3  Partition分区案例实战 199
10.3.4  WritableComparable排序简介 210
10.3.5  WritableComparable全排序案例实战 211
10.3.6  WritableComparable区内排序案例实战 221
10.3.7  Combiner合并简介 230
10.3.8  Combiner合并案例实战 231
10.3.9  GroupingComparator分组简介 238
10.3.10  GroupingComparator分组案例实战 238
10.4  剖析MapTask的工作机制 247
10.5  剖析ReduceTask的工作机制 248
10.6  OutputFormat数据输出类详解 249
10.6.1  OutputFormat接口实现类简介 250
10.6.2  自定义OutputFormat接口实现类案例实战 250
10.7  Join的多种应用 258
10.7.1  Reduce Join案例实战 258
10.7.2  Map Join案例实战 267
10.8  小结 277
第11章  MapReduce数据压缩 278
11.1  数据压缩概述 278
11.2  MapReduce支持的压缩编码器 278
11.3  选择压缩方式 279
11.3.1  Gzip压缩 280
11.3.2  Bzip2压缩 280
11.3.3  LZO压缩 280
11.3.4  Snappy压缩 280
11.4  配置压缩参数 281
11.5  压缩实战案例 281
11.5.1  实现数据流的压缩和解压缩 281
11.5.2  实现Map输出端压缩 285
11.5.3  实现Reduce输出端压缩 287
11.6  小结 290
第12章  YARN资源调度器 291
12.1  解析YARN的基本架构 291
12.2  剖析YARN的工作机制 292
12.3  作业提交全过程 295
12.4  资源调度器的分类 296
12.5  任务的推测执行 298
12.6  小结 299
第13章  Hadoop企业级优化 300
13.1  HDFS优化 300
13.2  MapReduce优化 301
13.2.1  剖析MapReduce程序运行慢的原因 301
13.2.2  MapReduce的优化方法 302
13.3  小结 304
第4篇  项目实战
第14章  Hadoop高可用集群搭建实战 306
14.1  HA高可用简介 306
14.2  HDFS-HA的工作机制 307
14.2.1  HDFS-HA的工作要点 307
14.2.2  HDFS-HA的自动故障转移工作机制 308
14.3  搭建HDFS-HA集群 310
14.3.1  准备集群环境 310
14.3.2  规划集群节点 312
14.3.3  下载和安装JDK 313
14.3.4  配置JDK环境变量 313
14.3.5  安装ZooKeeper集群 314
14.3.6  配置ZooKeeper集群 314
14.3.7  启动ZooKeeper集群 315
14.3.8  配置HDFS-HA集群 316
14.3.9  配置HDFS-HA自动故障转移 319
14.4  搭建YARN-HA集群 320
14.4.1  YARN-HA集群的工作机制 320
14.4.2  配置YARN-HA集群 321
14.5  小结 323
第15章  统计TopN经典项目案例实战 324
15.1  项目案例构建流程 324
15.1.1  创建输入文件 324
15.1.2  搭建一个Maven工程 325
15.1.3  定义序列化对象 329
15.1.4  编写Mapper文件 330
15.1.5  编写Reducer文件 332
15.1.6  编写Driver文件 333
15.1.7  打包Maven工程 334
15.1.8  启动Hadoop集群 334
15.1.9  运行TopN程序 335
15.2  小结 336
  
Hadoop海量数据处理:技术原理与项目实践
  
目录
  
·VI·
  
  
·XI·
  
  
  
  
  
  

本目录推荐