基于PySpark的高级数据分析

定　价：¥78.00

作　者：	Akash Tandon，Sandy Ryza，Uri Laserson，Sean Owen和Josh Wills 著
出版社：	中国电力出版社
丛编项：
标　签：	暂缺

购买这本书可以去

当当网 (¥67.10)

ISBN：	9787519891862	出版时间：	2024-10-01	包装：	平装-胶订
开本：	16开	页数：		字数：

内容简介

　　本书的主要内容有：熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。

作者简介

　　Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人，领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC（项目管理委员会）的成员，同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师，也是Slack的前数据工程主管。

图书目录

目录
前言 1
第1 章大数据分析 7
11 使用大数据 8
12 Apache Spark 和PySpark10
121 组件 10
122 PySpark 12
123 生态系统 13
13 Spark 30 14
14 PySpark 处理数据科学问题 15
15 本章小结16
第2 章 PySpark 数据分析简介 17
21 Spark 架构 19
22 安装PySpark 21
23 设置我们的数据 24
24 使用DataFrame API 分析数据 31
25 DataFrames 的快速汇总统计 35
26 DataFrame 的透视和重塑 37
27 关联DataFrame 并选择特征40
28 评分和模型评估 42
29 本章小结44
第3 章音乐推荐和音频编码器的数据集 47
31 设置数据48
32 我们对推荐系统的要求 51
33 数据准备55
34 构建第一个模型 58
35 算法筛查推荐 62
36 推荐质量评估 64
37 计算AUC 66
38 选择超参数 68
39 给出推荐71
310 本章小结 72
第4 章使用决策树和决策森林进行预测 75
41 决策树和决策森林 76
42 准备数据79
43 第一颗决策树 84
44 决策树超参数 92
45 调试决策树 94
46 重温分类特征 98
47 随机森林102
48 进行预测105
49 本章小结105
第5 章异常检测与K-means 聚类算法 107
51 K-means 聚类 108
52 识别异常网络流量 109
53 初次尝试聚类 112
54 选择K 值 114
55 利用SparkR 实现可视化 118
56 特征归一化 123
57 分类变量124
58 使用熵（Entropy）标签 126
59 聚类实战128
510 本章小结 130
第6 章通过LDA、Spark NLP 了解维基百科 133
61 隐含狄利克雷分布 134
62 获取数据135
63 Spark NLP 137
64 解析数据139
65 使用Spark NLP 准备数据 141
66 TF-IDF 146
67 计算TF-IDF 147
68 创建LDA 模型 148
69 本章小结151
第7 章基于出租车行程数据的时空序列数据分析 153
71 数据准备155
711 将日期格式字符串转换为时间戳 157
712 处理无效记录 159
72 地理空间分析 161
721 介绍GeoJSON 161
722 GeoPandas 163
73 PySpark 会话化 166
74 本章小结170
第8 章金融风险评估 171
81 金融术语172
82 VaR 的计算方法 173
821 方差与协方差 173
822 历史模拟法 173
823 蒙特卡罗模拟 174
83 我们的模型 174
84 获取数据175
85 准备数据177
86 决定因子权重 180
87 抽样 184
88 试验运行187
89 可视化收益分布 191
810 本章小结 192
第9 章分析基因组学数据和BDG 项目 193
91 从建模中解耦存储 194
92 设置ADAM 197
93 介绍如何使用ADAM 处理基因组数据 198
931 使用ADAM CLI 进行文件格式转换 199
932 使用PySpark 和ADAM 采集基因组学数据 200
94 预测转录因子结合位点 206
95 本章小结212
第10 章基于深入学习和PySpark LSH 的图像相似度
检测 215
101 PyTorch 216
102 准备数据 217
103 图像矢量表示的深度学习模型 219
1031 图像嵌入 219
1032 将图像嵌入导入 PySpark 222
104 使用PySpark LSH 进行图像相似搜索 223
105 本章小结 228
第11 章使用MLflow 管理机器学习生命周期 229
111 机器学习生命周期 229
112 MLflow 231
113 实验跟踪 232
114 管理和服务ML 模型 236
115 创建并使用MLflow 项目 239
116 本章小结 243