大规模数据分析和建模：基于Spark与R

定　价：¥89.00

作　者：	[美] 哈维尔·卢拉辛（Javier Luraschi），凯文·郭（Kevin，Kuo 著，魏博译译
出版社：	机械工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787111661016	出版时间：	2020-07-01	包装：	平装
开本：	16开	页数：	260	字数：

内容简介

　　这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章，简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题，包括分布式R、Streaming和社区贡献等。

作者简介

　　Javier Luraschi是大规模数据科学诸多库的发明者，包括sparklyr、r2d3、pins和cloudml。 Kevin Kuo构建了机器学习库，并领导了Kasa AI的开放保险研究。 Edgar Ruiz构建了企业级的数据解决方案工具，包括dbplot、tidypredict和modeldb。

图书目录

序言1
前言3
第1章引言9
11 概述10
12 Hadoop10
13 Spark12
14 R16
15 sparklyr19
16 小结20
第2章开始21
21 概述21
22 预备操作22
221 安装sparklyr23
222 安装Spark23
23 连接24
24 使用Spark25
241 网络接口25
242 分析28
243 建模28
244 数据30
245 扩展30
246 分布式R31
247 流式数据31
248 日志32
25 断开连接33
26 使用RStudio33
27 资源35
28 小结36
第3章分析37
31 概述37
32 数据导入40
33 数据整理41
331 内置函数42
332 相关性43
34 可视化45
341 使用ggplot246
342 使用dbplot47
35 建模49
36 沟通51
37 小结54
第4章建模56
41 概述56
42 探索性数据分析58
43 特征工程65
44 监督式学习68
441 广义线性回归72
442 其他模型73
45 非监督式学习73
451 数据准备74
452 主题建模75
46 小结77
第5章管道操作78
51 概述78
52 创建工作80
53 用例81
54 操作模式83
55 交互性84
56 部署86
561 批打分87
562 实时打分88
57 小结90
第6章集群92
61 概述92
62 本地化94
621 管理器94
622 发行版98
63 云端100
631 亚马逊101
632 Databricks102
633 谷歌103
634 IBM105
635 微软106
636 Qubole107
64 Kubernetes107
65 工具108
651 RStudio108
652 Jupyter109
653 Livy110
66 小结111
第7章连接112
71 概述112
711 边缘节点114
712 Spark主目录114
72 本地模式115
73 单机模式116
74 YARN116
741 YARN客户端117
742 YARN集群117
75 Livy118
76 Mesos120
77 Kubernetes121
78 云模式121
79 批量模式122
710 工具123
711 多次连接123
712 故障排除124
7121 记录日志124
7122 Spark Submit124
7123 Windows126
713 小结126
第8章数据127
81 概述127
82 读取数据129
821 路径129
822 模式130
823 内存131
824 列132
83 写入数据133
84 复制数据134
85 文件格式135
851 CSV136
852 JSON137
853 Parquet138
854 其他139
86 文件系统140
87 存储系统140
871 Hive141
872 Cassandra142
873 JDBC142
88 小结143
第9章调试144
91 概述144
911 计算图146
912 时间线148
92 配置148
921 连接设置150
922 提交设置151
923 运行时设置152
924 sparklyr设置153
93 分区156
931 隐式分区156
932 显式分区157
94 缓存158
941 检查点159
942 内存159
95 重洗160
96 序列化161
97 配置文件161
98 小结162
第10章扩展163
101 概述163
102 H2O165
103 图模型169
104 XGBoost173
105 深度学习176
106 基因组学179
107 空间数据181
108 故障排除183
109 小结183
第11章分布式R185
111 概述185
112 用例187
1121 定制解析器188
1122 分区建模189
1123 网格搜索191
1124 Web API192
1125 模拟193
113 分区194
114 分组195
115 列196
116 context参数197
117 函数198
118 程序包199
119 集群需求200
1191 安装R200
1192 Apache Arrow201
1110 故障排除203
11101 工作节点日志204
11102 解决超时205
11103 检查分区206
11104 调试工作节点206
1111 小结207
第12章数据流208
121 概述208
122 转换211
1221 分析212
1222 建模213
1223 管道214
1224 分布式R215
123 Kafka216
124 Shiny218
125 小结220
第13章社区贡献221
131 概述221
132 Spark API223
133 Spark扩展224
134 使用Scala代码226
135 小结228
附录A 补充参考代码229