注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书教育/教材/教辅教材研究生/本科/专科教材数据清洗与ETL技术

数据清洗与ETL技术

数据清洗与ETL技术

定 价:¥48.00

作 者: 冯广 等
出版社: 清华大学出版社
丛编项: 大数据系列丛书
标 签: 暂缺

购买这本书可以去


ISBN: 9787302600817 出版时间: 2022-04-01 包装:
开本: 16开 页数: 字数:  

内容简介

  本书为大数据时代下的产物,由浅入深地介绍大数据及其相关知识,在大数据的背景下着重介绍ETL数据处理技术,同时引入数据清洗的知识,理论与实际相结合,突出所长。在理论上,本书突出重点与难点,较为系统地介绍大数据的各项基本技术。在实践操作上,本书贴近生活,切实理解,紧跟实验进行,并从中萃取精华。同时本书还介绍ETL技术的主流工具,结合当下一些项目进行运用,并综合课后思考题,使读者在学习中体会大数据的乐趣,翱游在大数据的海洋中。 本书可作为高校新兴专业——数据科学专业的配套教材,也可作为其他专业的选修课教材,还可作为初学者的学习教程。

作者简介

  冯广,男,硕士生导师,现任广东工业大学网络信息与现代教育技术中心副主任,博士,网络规划师,硕士研究生导师。长期从事计算机网络技术、网络控制技术和控制科学与控制工程领域的教学与科研工作。主要研究方向有网络与信息化控制、优化控制、RFID技术、计算机网络等。

图书目录

第1章从大数据到ETL1

1.1大数据概述1

1.1.1大数据的定义2

1.1.2大数据的基本性质2

1.1.3大数据的影响4

1.1.4大数据带来的挑战7

1.2科学处理数据9

1.3ETL简介10

1.3.1ETL的基本定义10

1.3.2ETL的基本过程11

1.3.3ETL的架构体系11

1.3.4ETL的必要性13

1.3.5ETL的分类14

1.3.6基本ETL过程与数据清理的区别14

1.3.7ETL现状与发展15

1.4数据抽取16

1.4.1数据抽取的概念16

1.4.2分类抽取16

1.4.3数据抽取的原则和方法17

1.5数据转换17

1.5.1数据转换的概念17

1.5.2类型转换17

1.6数据加载18

1.6.1数据加载的概念18

1.6.2数据加载方式18

1.7实验任务——处理论文的年份19

1.8小结23

1.9习题23第2章数据抽取25

2.1数据源25

2.1.1关系数据库25

2.1.2非关系数据库27

2.1.3通用程序库28

2.2数据抽取方式29

2.2.1全量抽取29

2.2.2增量抽取29

2.2.3增量抽取的比较分析30

2.3Hadoop的数据抽取32

2.3.1Hadoop简介32

2.3.2Hadoop研究现状32

2.3.3环境搭建34

2.3.4数据采集34

2.4Web文件的数据抽取35

2.4.1Web文件简介35

2.4.2主要工作35

2.4.3主要工具——Connotate35

2.4.4应用分析——基于页面标签的Web结构化数据抽取37

2.5数据库的数据抽取41

2.5.1数据库简介41

2.5.2主要应用——基于ETL工具软件的数据抽取43

2.6文本文件的数据抽取44

2.6.1文本文件数据抽取及应用领域44

2.6.2网络爬虫44

2.7实验任务——MySQL环境搭建及数据抽取46

2.7.1MySQL在Windows下的搭建46

2.7.2MySQL在Linux下的搭建47

2.7.3案例分析50

2.8小结54

2.9习题54第3章数据转换56

3.1数据转换56

3.1.1数据转换的概念56

3.1.2数据转换的标准57

3.1.3数据转换的方法57

3.1.4数据之间的关联58

3.2数据清洗59

3.2.1数据清洗的主要内容59

3.2.2数据清洗研究现状60

3.2.3数据清洗的必要性61

3.2.4数据清洗的问题61

3.2.5数据清洗对工具的要求62

3.2.6数据清洗的流程62

3.2.7数据清洗的原理63

3.2.8数据清洗的方法63

3.3Python下的数据清洗65

3.3.1Python概述65

3.3.2Python的特点66

3.3.3Python Pandas——数据清洗67

3.4数据转换工具75

3.4.1Data Stage75

3.4.2Kettle78

3.4.3Informatica PowerCenter81

3.4.4ETL Automation82

3.4.5SSIS82

3.4.6几种工具之间的比较83

3.5实验任务——Kettle的分类安装及案例分析84

3.5.1Kettle的分类安装84

3.5.2案例分析——利用Kettle处理错误代码行84

3.6小结87

3.7习题87第4章数据加载89

4.1数据加载89

4.1.1数据加载的概念89

4.1.2数据加载机制89

4.2数据加载技术90

4.2.1加载技术90

4.2.2全量数据加载流程91

4.3数据仓库93

4.3.1数据仓库基本内容94

4.3.2数据仓库架构97

4.3.3数据仓库设计98

4.3.4数据仓库的规划和需求分析99

4.3.5数据仓库的建模100

4.3.6数据仓库的物理模型分析107

4.3.7数据仓库的物理模型设计109

4.4加载SQL123

4.4.1SQL的基本内容123

4.4.2MySQL集群体125

4.5加载MyCat128

4.5.1MyCat简介128

4.5.2MyCat的关键特性128

4.5.3拓扑结构129

4.5.4MyCat的功能描述129

4.5.5MyCat下载安装132

4.6加载数据流134

4.6.1流概述134

4.6.2数据流的基本性质135

4.6.3数据流的基本操作136

4.6.4数据流的描述方法137

4.7小结138

4.8习题138第5章大数据ETL实现139

5.1Spark的分布式ETL实现139

5.1.1Spark概述140

5.1.2Spark数据模型——RDD140

5.1.3Spark的安装配置141

5.1.4分布式ETL总体架构143

5.1.5分布式转换引擎的实现144

5.1.6SparkStreaming的实时同步实现147

5.2Spark完成在ETL时的相关技术148

5.2.1SparkApplication提交逻辑分析149

5.2.2Spark交互模式150

5.2.3使用Spark实现ETL151

5.2.4小结151

5.3Hive的ETL实现152

5.3.1Hive简介152

5.3.2Hadoop伪分布式集群搭建152

5.3.3Hive的安装配置156

5.3.4Hive的基本操作158

5.4Sqoop的ETL实现169

5.4.1Sqoop简介169

5.4.2Sqoop的安装部署169

5.4.3Sqoop的常用命令170

5.4.4案例分析——利用Sqoop进行ETL操作173

5.5小结176

5.6习题176第6章案例分析177

6.1校园大数据建设177

6.1.1校园大数据建设背景177

6.1.2校园大数据检索需求178

6.1.3总体目标178

6.1.4建设内容179

6.1.5数据抽取180

6.1.6数据转换180

6.1.7数据仓库的建设182

6.1.8项目效益184

6.2反洗钱系统中的ETL应用185

6.2.1反洗钱简介185

6.2.2反洗钱系统中ETL的重要性185

6.2.3反洗钱系统中的ETL设计186

6.3电信行业中的ETL应用190

6.3.1背景知识190

6.3.2设计目的191

6.3.3ETL架构设计191

6.3.4ETL接口设计193

6.3.5控制实现195

6.4云计算下的ETL设计198

6.4.1云计算简介198

6.4.2传统数据仓库ETL面临的困境198

6.4.3ETL系统设计199

6.4.4ETL工作流199

6.5BI项目中的ETL应用201

6.5.1BI概述201

6.5.2ETL功能架构202

6.5.3ETL数据流202

6.5.4ETL作业调度205

6.5.5ETL监控和日志207

6.5.6数据质量检测209

6.5.7BI项目中的ETL实现210

6.6小结215

6.7习题215参考文献216


本目录推荐