大数据技术及应用：基于Python语言

定　价：¥69.00

作　者：	严宣辉等
出版社：	电子工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787121421693	出版时间：	2021-10-01	包装：
开本：	16开	页数：	360	字数：

内容简介

　　目前，社会对大数据工程技术人才的需求大大增加，因此向计算机和电子信息类相关专业学生传授大数据知识和技术方法，提高他们在各领域应用大数据的能力具有重大意义。本书共9章，围绕大数据的基本概念和大数据处理的主要环节编写。第1章主要介绍大数据的概念、特点和构成；第2章主要介绍在Windows系统中安装Linux虚拟机及构建Hadoop分布式集群的方法；第3章主要介绍大数据采集工具的使用及数据预处理的常用方法；第4章首先介绍Hadoop的发展历史、软件生态、核心组件和命令结构，然后以HDFS为重点，介绍其体系结构和特点，并详细介绍HDFS的交互式命令；第5章介绍大数据环境下存储工具HBase的数据模型；第6章介绍Hive的存储模型，第7章介绍在Hadoop平台上利用Python设计MapReduce程序的基本思路；第8章介绍大数据分析与挖掘过程中的常用算法；第9章介绍数据可视化的常用方法及常用工具。本书的内容与实际应用紧密结合，目的是让读者能了解大数据的基本概念、理解大数据技术的基本原理、初步掌握大数据处理和分析的基本方法，为未来应用大数据思维和大数据分析方法解决工作中的实际问题打下良好的基础。本书适合作为高等学校计算机类和电子信息类相关专业大数据技术相关课程的教材，可供本科生、研究生使用，同时也适合对大数据技术感兴趣的广大读者进行自学和实践时使用。

作者简介

　　严宣辉，男，福建师范大学数学与信息学院副教授、理学博士，硕士生导师，数字福建环境监测物联网实验室副主任、福建省人工智能学会理事。先后担任过学院实验室主任、公共计算机教研室主任和计算机科学系主任等工作。福建省精品在线开放课程\

图书目录

目录
第1章绪论\t1
1．1 大数据的基本概念\t1
1．2 大数据的价值和作用\t4
1．3 大数据带来的思维方式变革\t7
1．4 大数据处理技术基础\t9
1．4．1 大数据处理的主要环节\t9
1．4．2 大数据的技术支撑\t11
1．4．3 流行的大数据技术\t13
1．5 大数据面临的技术挑战\t15
1．6 本章小结\t16
1．7 习题\t16
第2章大数据实验环境构建\t18
2．1 在Windows中安装Linux虚拟机\t18
2．1．1 创建虚拟机\t19
2．1．2 虚拟机启动初始化\t21
2．1．3 克隆虚拟机\t22
2．2 Linux操作基础\t23
2．2．1 软件包管理工具\t23
2．2．2 目录和文件操作\t24
2．2．3 用户和权限管理命令\t25
2．2．4 修改文件的访问权限\t25
2．2．5 压缩和解压缩\t27
2．2．6 网络配置命令\t27
2．2．7 系统服务命令\t28
2．2．8 查找命令\t29
2．3 建立Linux集群\t29
2．3．1 VMware Workstation的网络模式简介\t30
2．3．2 集群规划和网络设置\t31
2．3．3 配置虚拟机的网络参数\t33
2．3．4 关闭防火墙和SELinux\t36
2．3．5 SSH免密登录\t37
2．4 Hadoop系统简介\t41
2．4．1 Hadoop的生态系统\t41
2．4．2 Hadoop集群的类型\t42
2．5 构建Hadoop“伪分布式”集群\t42
2．5．1 安装JDK\t42
2．5．2 安装Hadoop软件\t44
2．5．3 配置SSH免密登录\t45
2．5．4 配置Hadoop\t45
2．5．5 启动Hadoop\t48
2．6 构建“完全分布式”Hadoop集群\t49
2．6．1 配置Hadoop集群的主节点\t49
2．6．2 将配置文件发送到从节点\t52
2．7 测试Hadoop集群\t52
2．7．1 测试HDFS\t52
2．7．2 测试WordCount程序\t56
2．8 安装Zookeeper\t57
2．8．1 在“伪分布”模式下安装Zookeeper\t57
2．8．2 在“完全分布”模式下安装Zookeeper\t58
2．9 用Ambari构建和管理Hadoop集群\t60
2．9．1 安装Ambari\t61
2．9．2 用Ambari管理和配置Hadoop集群\t61
2．10 本章小结\t63
2．11 习题与实验\t63
第3章大数据采集与预处理\t66
3．1 大数据采集概述\t66
3．1．1 大数据的来源\t66
3．1．2 数据容量的单位\t67
3．1．3 大数据采集的基本方法\t67
3．2 常用的大数据采集工具简介\t68
3．2．1 基于Python的网页采集框架Scrapy\t69
3．2．2 日志收集工具Flume\t74
3．3 数据属性的类型\t79
3．3．1 “属性”的类型\t79
3．3．2 属性类型的转换\t80
3．4 数据预处理\t80
3．4．1 数据变换\t81
3．4．2 数据清洗\t84
3．4．3 使用OpenRefine清洗数据\t86
3．4．4 数据集成\t89
3．5 本章小结\t91
3．6 习题\t91
第4章 Hadoop分布式文件系统\t94
4．1 Hadoop\t94
4．1．1 Hadoop的发展历史\t95
4．1．2 Hadoop的优势\t96
4．1．3 Hadoop生态\t96
4．1．4 Hadoop的核心组件\t97
4．1．5 Hadoop集群与资源管理\t99
4．1．6 Hadoop命令结构\t102
4．2 HDFS体系结构\t104
4．2．1 HDFS的设计目标\t104
4．2．2 HDFS中的NameNode和DataNodes\t105
4．2．3 文件系统命名空间（The File System Namespace）\t108
4．2．4 数据容错\t108
4．2．5 副本的管理与使用\t109
4．3 HDFS初探\t110
4．3．1 开始HDFS旅程\t110
4．3．2 添加数据文件\t111
4．3．3 从HDFS中下载文件\t111
4．3．4 关闭HDFS\t111
4．3．5 利用Web Console访问HDFS\t111
4．4 HDFS常用CLI命令\t113
4．4．1 HDFS CLI总览\t113
4．4．2 常用HDFS文件操作命令\t115
4．5 利用pyhdfs实现HDFS的文件访问\t119
4．5．1 pyhdfs的安装与应用案例\t120
4．5．2 pyhdfs的HdfsClient类\t120
4．6 pyhdfs应用实战\t133
4．7 本章小结\t135
4．8 习题与实验\t135
第5章 HBase基础与应用\t137
5．1 HBase简介\t137
5．2 HBase安装\t138
5．3 HBase初探\t139
5．4 HBase的数据模型\t143
5．4．1 HBase数据模型相关术语\t143
5．4．2 概念模式/视图（Conceptual View）\t145
5．4．3 物理模式/视图（Physical View）\t146
5．4．4 命名空间（Namespace）\t147
5．5 HBase Shell\t147
5．5．1 HBase Shell概述\t147
5．5．2 创建表（create）\t149
5．5．3 修改表/列族（alter table / column family）\t153
5．5．4 添加数据（put）\t155
5．5．5 获取行或单元（get）\t156
5．5．6 扫描并输出数据（scan）\t157
5．5．7 统计表的行数（count）\t158
5．5．8 删除指定值（delete）\t159
5．5．9 其他常用shell命令\t160
5．5．10 HBase Shell中的对象引用\t162
5．6 利用Jython实现HBase的访问\t162
5．6．1 Jython环境设置\t162
5．6．2 Jython访问HBase\t163
5．6．3 利用scan变量HBase中的数据\t164
5．7 本章小结\t165
5．8 习题与实验\t165
第6章 Hive基础与应用\t167
6．1 Hive简介\t167
6．1．1 数据库与数据仓库\t168
6．1．2 Hive体系结构与接口\t168
6．2 Hive的存储模型\t169
6．3 Hive初探\t171
6．4 Hive的数据定义―DDL\t175
6．4．1 数据库的相关操作\t175
6．4．2 数据表的创建\t177
6．4．3 数据表和分区的修改\t182
6．4．4 数据表的其他操作\t189
6．5 Hive的数据操纵――DML\t194
6．6 Hive的数据检索――Hive-QL\t201
6．7 本章小结\t206
6．8 习题与实验\t207
第7章分布式计算框架MapReduce\t209
7．1 MapReduce概述\t209
7．1．1 第一个MapReduce的Python程序\t210
7．1．2 MapReduce工作原理\t212
7．1．3 MapReduce作业的工作流程\t212
7．1．4 MapReduce的输入/输出\t214
7．2 WordCount实例详解\t214
7．2．1 WordCount程序源码\t214
7．2．2 WordCount程序执行\t215
7．2．3 WordCount程序原理\t216
7．3 Hadoop Streaming\t217
7．3．1 Hadoop Streaming的工作原理\t218
7．3．2 打包提交作业\t218
7．3．3 Streaming工具的用法\t219
7．3．4 常见问题应用技巧\t222
7．4 MapReduce作业管理\t223
7．5 MapReduce Python代码的测试\t225
7．6 利用Python的迭代器和生成器优化wordCount程序\t227
7．6．1 Python中的迭代器\t227
7．6．2 Python中的生成器\t228
7．6．3 itertools模块\t229
7．6．4 优化wordCount程序\t232
7．7 MapReduce程序设计模式\t233
7．7．1 数据集介绍\t233
7．7．2 聚合查询模式（Summarization Patterns）\t235
7．7．3 过滤模式（Filtering Patterns）\t241
7．7．4 数据连接模式（Join Patterns）\t245
7．8 用MRJob库编写MapReduce程序\t250
7．8．1 第一个MRJob程序\t250
7．8．2 MRJob应用详解\t253
7．8．3 MRJob的协议\t256
7．8．4 MRJob的其余设置\t259
7．9 本章小结\t260
7．10 习题与实验\t261
第8章大数据分析与挖掘\t262
8．1 数据的描述性分析\t262
8．1．1 数据的集中趋势度量\t262
8．1．2 数据的离散趋势度量\t263
8．1．3 数据的偏态特性度量\t266
8．1．4 数据相关性计算\t267
8．2 回归分析\t271
8．2．1 一元线性回归（Linear Regression）\t271
8．2．2 其他类型的回归模型\t274
8．3 分类算法简介\t275
8．3．1 逻辑回归\t275
8．3．2 近邻分类算法\t277
8．3．3 决策树算法\t279
8．4 聚类算法简介\t285
8．4．1 主要的聚类算法类型\t285
8．4．2 聚类质量度量指标\t286
8．4．3 k-Means算法\t288
8．5 分布式大数据挖掘算法典型案例\t290
8．6 本章小结\t295
8．7 习题与实验\t296
第9章大数据可视化\t298
9．1 引言\t298
9．2 大数据可视化的常用方法\t300
9．2．1 趋势型大数据可视化方法\t300
9．2．2 对比型大数据可视化方法\t302
9．2．3 比例型大数据可视化方法\t304
9．2．4 分布型大数据可视化\t305
9．2．5 文本大数据可视化\t306
9．2．6 关系网络大数据可视化\t307
9．2．7 时空大数据可视化\t308
9．2．8 层次结构大数据可视化\t309
9．2．9 高维大数据可视化\t310
9．3 大数据可视化常用工具简介\t311
9．3．1 Tableau大数据可视化工具简介\t312
9．3．2 Python的Matplotlib库简介\t314
9．4 基于ECharts的可视化示例\t318
9．4．1 ECharts使用准备\t319
9．4．2 ECharts 基础概念概览\t320
9．4．3 ECharts示例\t320
9．5 本章小结\t326
9．6 习题与实验\t326
附录A HDFS交互命令\t328
附录B pyhdfs其他类说明\t339
参考文献\t344