注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库构建数据湖仓

构建数据湖仓

构建数据湖仓

定 价:¥68.00

作 者: 美 比尔·恩门,美 玛丽·莱文斯 著;上海市静安区国际数据管理协会译
出版社: 清华大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787302624479 出版时间: 2023-03-01 包装: 平装-胶订
开本: 16开 页数: 字数:  

内容简介

  在数据湖仓的所有新增要素中,排名第一的就是可以利于数据分析和机器学习所用的分析基础设施。分析基础设施包括一众大家广为熟悉的东西,当然也包括一些可能对大家还有些陌生或略带新鲜感的概念。比如包括:元数据、数据血缘、 数据体量的度量 、数据创建的历史记录、数据转换描述。 数据湖仓的第二个新增要素,是识别和使用通用连接器。通用连接器允许合并和比较所有不同来源的数据。如果没有通用连接器,就很难(实际上是几乎不可能)将数据湖仓中的不同数据关联起来。但有了这个中西,就可以关联任何类型的数据。 使用数据湖仓,就有可能实现以往任何其它方式都不可行或不可能实现的某种程度的数据分析和机器学习。 但与其它架构一样,我们需要理解数据湖仓的架构以及它的能力,以便于我们基于这种架构创建数据分析蓝图和开展数据分析规划。

作者简介

  胡博,国际数据管理协会(DAMA)中国理事,国家重点研发计划课题负责人。发表过学术论文20余篇,在云平台、数据中台等方面授权国家发明专利12项;是中国计算机学会高级会员、中国计算机协会服务计算专委会执行委员、SCI期刊IJWSR 执行主编、华中农业大学、深圳大学、武汉科技大学和海南师范大学硕士生导师。

图书目录

引言
第一章向数据湖仓演进
1.技术的演进3
2.组织内的全部数据8
3.商业价值在哪里?12
4.数据湖13
5.当前数据架构的挑战14
6.数据湖仓的出现15
第二章数据科学家和终端用户
1.数据湖20
2.分析基础设施21
3.不同的受众21
4.分析工具不同22
5.分析目的不同23
6.分析方法不同24
7.数据类型不同24
第三章数据湖仓中的不同类型数据
1.数据的类型28
2.不同数据的容量31
3.跨越不同类型数据的关联数据32
4.基于访问概率对数据进行分片33
5.模拟和物联网环境中的关联数据33
6.分析基础设施35
第四章开放的湖仓环境
1.开放系统的演进38
2.与时俱进的创新39
3.建立在开放、标准文件格式之上的非结构化湖仓39
4.开源数据湖仓软件40
5.数据湖仓提供超越SQL的开放API41
6.数据湖仓支持开放数据共享42
7.数据湖仓支持开放数据探索43
8.数据湖仓通过开放数据目录简化数据发现44
9.利用云原生架构的数据湖仓45
10.向开放的数据湖仓演进46
第五章机器学习和数据湖仓
1.机器学习47
2.机器学习需要湖仓提供什么?48
3.从数据中挖掘出新价值48
4.解决这个难题48
5.非结构化数据问题49
6.开源的重要性51
7.发挥云的弹性优势51
8.为数据平台设计“MLOps”52
9.案例:运用机器学习对胸透X光片进行分类53
10.数据湖仓的非结构化组件的演进55
第六章数据湖仓中的分析基础设施
1.元数据58
2.数据模型59
3.数据质量60
4.ETL61
5.文本ETL62
6.分类标准62
7.数据体量63
8.数据血缘64
9.KPI65
10.数据的粒度66
11.事务66
12.键66
13.处理计划67
14.汇总数据67
15.最低要求68
第七章数据湖仓中的数据融合
1.湖仓和数据湖仓69
2.数据的源头70
3.不同类型的分析70
4.通用标识符72
5.结构化标识符72
6.重复数据73
7.文本环境中的标识符74
8.文本数据和结构化数据的融合76
9.匹配的重要性81
第八章跨数据湖仓架构的分析类型
1.已知查询83
2.启发式分析85
第九章数据湖仓仓务管理
1.数据集成和互操作92
2.数据湖仓的主数据及参考数据94
3.数据湖仓的隐私、保密和数据保护96
4.数据湖仓中面向未来的数据97
5.面向未来的数据的五个阶段101
6.数据湖仓的例行维护108
第十章可视化
1.将数据转化为信息110
2.什么是数据可视化?为什么它很重要?112
3.数据可视化、数据分析和数据解释之间的差异113
4.数据可视化的优势115
第十一章数据湖仓架构中的数据血缘
1.计算链124
2.数据选取126
3.算法差异126
4.文本数据血缘127
5.其他非结构化环境的数据血缘128
6.数据血缘129
第十二章数据湖仓架构中的访问概率
1.数据的高效排列131
2.数据的访问概率131
3.数据湖仓中不同的数据类型133
4.数据量的相对差异133
5.数据分片的优势134
6.使用大容量存储134
7.附加索引135
第十三章跨越鸿沟
1.合并数据136
2.不同种类的数据137
3.不同的业务需求137
4.跨越鸿沟137
第十四章数据湖仓中的海量数据
1.海量数据的分布145
2.高性能、大容量的数据存储146
3.附加索引和摘要146
4.周期性的数据过滤148
5.数据标记法148
6.分离文本和数据库149
7.归档存储149
8.监测活动150
9.并行处理151
第十五章数据治理与数据湖仓
1.数据治理的目的152
2.数据生命周期管理154
3.数据质量管理156
4.元数据管理的重要性157
5.随着时间推移的数据治理157
6.数据治理的类型158
7.贯穿数据湖仓的数据治理159
8.数据治理的注意事项160
第十六章现代数据仓库
1.应用程序的普及162
2.信息孤岛163
3.复杂网络环境164
4.数据仓库165
5.数据仓库的定义166
6.历史数据167
7.关系模型167
8.数据的本地形式168
9.集成数据的需要169
10.时过境迁170
11.当今世界170
12.不同体量的数据172
13.数据与业务的关系173
14.将数据纳入数据仓库173
15.现代数据仓库174
16.什么时候我们不再需要数据仓库?175
17.数据湖176
18.以数据仓库作为基础177
19.数据堆栈178

本目录推荐