注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库机器学习大数据平台的构建、任务实现与数据治理:使用Azure、DevOps、MLOps

机器学习大数据平台的构建、任务实现与数据治理:使用Azure、DevOps、MLOps

机器学习大数据平台的构建、任务实现与数据治理:使用Azure、DevOps、MLOps

定 价:¥98.00

作 者: [美] 弗拉德·里斯库蒂亚(Vlad Riscutia)著 叶伟民、刘华、余灵 译
出版社: 清华大学出版社
丛编项:
标 签: 暂缺

购买这本书可以去


ISBN: 9787302657637 出版时间: 2024-04-01 包装: 平装-锁线胶订
开本: 16开 页数: 字数:  

内容简介

  主要内容● 数据字典和数据治理● 数据质量管控、合规和分发● 构建自动化管道以提高可靠性● 数据摄取、存储和分发● 支持生产环境中的数据建模、分析和机器学习

作者简介

  Vlad Riscutia是微软的软件架构师。

图书目录

第1 章 简介                 1
1.1 什么是数据工程        2
1.2 本书读者对象         3
1.3 什么是数据平台        3
1.3.1 数据平台的构成      4
1.3.2 基础设施即代码,无代码基础设施          6
1.4 使用云构建           7
1.4.1 IaaS、PaaS 和SaaS    7
1.4.2 网络、存储和计算    7
1.4.3 如何使用Azure       8
1.4.4 与Azure 交互        8
1.5 实现Azure 数据平台    11
1.6 本章小结            13
第Ⅰ部分 基础设施
第2 章 存储                17
2.1 在数据平台中存储数据   18
2.1.1 跨多个数据织物存储数据            19
2.1.2 SSOT            20
2.2 Azure Data Explorer简介              22
2.2.1 部署Azure Data Explorer集群            23
2.2.2 使用Azure Data Explorer           26
2.2.3 解决查询限制问题   29
2.3 Azure Data Lake Storage简介              30
2.3.1 创建Azure Data Lake Storage 账户       30
2.3.2 使用Azure Data Lake Storage           31
2.3.3 集成Azure Data Explorer           32
2.4 数据摄取            34
2.4.1 数据摄取频率      34
2.4.2 加载类型         36
2.4.3 数据重建和重新加载  38
2.5 本章小结            41
第3 章 DevOps             43
3.1 什么是DevOps         44
3.2 Azure DevOps 简介     47
3.3 部署基础设施         50
3.3.1 导出Azure Resource Manager 模板      51
3.3.2 创建Azure DevOps 服务连接            54
3.3.3 部署Azure Resource Manager 模板      56
3.3.4 理解Azure Pipelines  60
3.4 部署Azure Data Explorer对象和分析          61
3.4.1 使用Azure DevOps 市场扩展            63
3.4.2 将所有内容都存储在Git并自动部署所有内容 67
3.5 本章小结            68
第4 章 编排                69
4.1 导入Bing COVID-19 开放数据集             70
4.2 Azure Data Factory 简介   72
4.2.1 设置数据源        73
4.2.2 设置数据接收器    75
4.2.3 设置管道         79
4.2.4 设置触发器        82
4.2.5 使用Azure Data Factory进行编排         84
4.3 Azure Data Factory 的DevOps             84
4.3.1 从Git 部署Azure Data Factory           87
4.3.2 设置访问控制      88
4.3.3 部署生产环境的Azure Data Factory        90
4.3.4 小结            92
4.4 使用Azure Monitor 进行监控              93
4.5 本章小结            95
第Ⅱ部分 具体的工作任务
第5 章 数据处理            99
5.1 数据建模技术        100
5.1.1 规范化和反规范化  100
5.1.2 数据仓库        103
5.1.3 半结构化数据     104
5.1.4 小结           107
5.2 身份钥匙环         108
5.2.1 构建身份钥匙环    109
5.2.2 理解钥匙环       111
5.3 时间线            113
5.3.1 构建时间线视图    113
5.3.2 使用时间线       115
5.4 应用DevOps 以保证数据处理能够按计划可靠地运行             116
5.4.1 使用Git 追踪和处理函数           116
5.4.2 使用Azure Data Factory构建钥匙环       117
5.4.3 扩展规模        123
5.5 本章小结           127
第6 章 数据分析           129
6.1 开发环境和生产环境分离下如何访问数据      130
6.1.1 对生产数据处理后再部分复制到开发环境           132
6.1.2 将生产数据完全复制到开发环境       133
6.1.3 在开发环境中提供生产数据的只读视图   133
6.1.4 小结           135
6.2 设计数据分析的工作流程             136
6.2.1 原型           138
6.2.2 开发和用户验收测试           139
6.2.3 生产环境        141
6.2.4 小结           143
6.3 让数据科学家能够自助移动数据          144
6.3.1 基本原则和相关背景           145
6.3.2 数据合约        145
6.3.3 管道验证        146
6.3.4 事后分析        150
6.3.5 小结           151
6.4 本章小结           151
第7 章 机器学习           153
7.1 训练一个机器学习模型             154
7.1.1 使用scikit-learn训练模型           155
7.1.2 高消费者模型实现  156
7.2 引入Azure Machine Learning           158
7.2.1 创建工作区       158
7.2.2 创建Azure Machine Learning 计算目标  159
7.2.3 设置Azure Machine Learning 存储     160
7.2.4 在云中运行机器学习          162
7.2.5 小结           167
7.3 MLOps             167
7.3.1 从Git 部署       168
7.3.2 存储管道ID      171
7.3.3 小结           172
7.4 机器学习的编排      172
7.4.1 连接Azure Data Factory与Azure Machine Learning         173
7.4.2 机器学习编排     175
7.4.3 小结           178
7.5 本章小结           179
第Ⅲ部分 数据治理
第8 章 元数据             183
8.1 理解大数据平台中元数据的需求         184
8.2 介绍Azure Purview    186
8.3 维护数据字典        190
8.3.1 设置扫描        190
8.3.2 浏览数据字典     194
8.3.3 小结           195
8.4 管理数据术语表      196
8.4.1 添加新的术语     196
8.4.2 审查术语        198
8.4.3 自定义模板和批量
导入           198
8.4.4 小结           200
8.5 了解Azure Purview 的高级功能             200
8.5.1 追踪数据血缘     200
8.5.2 分类规则        201
8.5.3 REST API        203
8.5.4 小结           204
8.6 本章小结           204
第9 章 数据质量           207
9.1 数据测试概述        207
9.1.1 可用性测试       208
9.1.2 正确性测试       209
9.1.3 完整性测试       210
9.1.4 异常检测测试     212
9.1.5 小结           214
9.2 使用Azure Data Factory进行数据质量检查    214
9.2.1 使用Azure Data Factory进行测试        215
9.2.2 执行测试        218
9.2.3 创建和使用模板   219
9.2.4 小结           221
9.3 扩展数据测试        221
9.3.1 支持多个数据平台  221
9.3.2 按计划运行测试和触发运行测试        223
9.3.3 编写测试        224
9.3.4 存储测试定义和结果           228
9.4 本章小结           231
第10 章 合规              233
10.1 数据分类          234
10.1.1 特征数据      234
10.1.2 遥测数据      235
10.1.3 用户数据      235
10.1.4 用户拥有的数据  236
10.1.5 业务数据      236
10.1.6 小结         236
10.2 将敏感数据变得不那么敏感             237
10.2.1 聚合         238
10.2.2 匿名化        239
10.2.3 伪匿名化      242
10.2.4 数据掩码      246
10.2.5 小结         246
10.3 访问控制模型       247
10.3.1 安全组        248
10.3.2 保护Azure Data Explorer        250
10.3.3 小结         255
10.4 GDPR 和其他考虑因素             256
10.4.1 数据处理      256
10.4.2 数据主体请求   256
10.4.3 其他考虑因素   259
10.5 本章小结          259
第11 章 数据分发          261
11.1 数据分发概述       262
11.2 构建数据API       264
11.2.1 Azure Cosmos DB简介         266
11.2.2 填充Cosmos DB集合         269
11.2.3 检索数据      271
11.2.4 小结         274
11.3 机器学习模型如何对外提供服务          274
11.4 共享数据进行批量复制             274
11.4.1 分离计算资源   275
11.4.2 Azure Data Share简介         277
11.4.3 小结         282
11.5 数据共享的最佳实践  282
11.6 本章小结          284
附录A Azure 服务          285
附录B KQL 快速参考        287
附录C 运行代码示例        289

本目录推荐