注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术工业技术自动化技术、计算技术套路!机器学习:北美数据科学家的私房课

套路!机器学习:北美数据科学家的私房课

套路!机器学习:北美数据科学家的私房课

定 价:¥68.00

作 者: 林荟
出版社: 电子工业出版社
丛编项:
标 签: 工业技术 自动化技术

购买这本书可以去


ISBN: 9787121326585 出版时间: 2017-10-01 包装:
开本: 16开 页数: 332 字数:  

内容简介

  数据科学家目前是北美*热门的职业之一,平均年薪突破10万美元。但数据科学并不是一个低门槛的行业,除了对数学、统计、计算机等相关领域的技术要求以外,还要相关应用领域的知识。本书的写作对象是那些现在从事数据分析相关行业,或者之后想从事数据分析行业的人,意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学能解决的问题,数据科学家需要的技能,及背后的“分析哲学”。对于新手而言,一开始就直奔艰深的理论,很容易因为困难而失去兴趣*终放弃。因此本书倡导的是一种循序渐进的启发教学路径,着重在于数据科学的实际应用,让读者能够重复书中的结果,学习数据分析技能*好的方式是实践!为了平衡理论和应用,书中包括了一些选学小节,用来介绍更多的模型数理背景或给出必要的参考资料来源。抽丝剥茧介绍技术内核,帮助大家知其然,同时知其所以然。希望笔者在北美从事数据科学工作多年踏遍大大小小不计其数的坑换来的经验,能够帮助读者更加顺利地成为数据科学家!

作者简介

  2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科,爱荷华州立大学统计学院硕士和博士。曾任爱荷华州立大学兽医学院统计咨询师(2009-2013)及商学院分析咨询师(2012-2013)。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。

图书目录

第1章白话数据科学1

1.1什么是数据科学3

1.2什么是数据科学家5

1.2.1数据科学家需要的技能6

1.2.2数据科学算法总结10

1.3数据科学可以解决什么问题20

1.3.1前提要求20

1.3.2问题种类22

1.4小结25

第2章数据集26

2.1服装消费者数据26

2.2航空公司满意度调查33

2.3生猪疫情风险预测数据37

第3章数据分析流程41

3.1从问题到数据42

3.2从数据到信息44

3.3从信息到行动46

第4章数据预处理47

4.1介绍47

4.2数据清理50

4.3缺失值填补52

4.3.1中位数或众数填补53

4.3.2K—近邻填补54

4.3.3装袋树填补56

4.4中心化和标量化56

4.5有偏分布59

4.6处理离群点63

4.7共线性66

4.8稀疏变量70

4.9编码名义变量71

4.10小结73

第5章数据操作75

5.1数据读写76

5.1.1取代传统数据框的tibble对象76

5.1.2高效数据读写:readr包80

5.1.3数据表对象读取83

5.2数据整合91

5.2.1base包:apply()91

5.2.2plyr包:ddply()函数93

5.2.3dplyr包96

5.3数据整形102

5.3.1reshape2包102

5.3.2tidyr包105

5.4小结107

第6章基础建模技术109

6.1有监督和无监督109

6.2误差及其来源111

6.2.1系统误差和随机误差111

6.2.2因变量误差117

6.2.3自变量误差121

6.3数据划分和再抽样122

6.3.1划分训练集和测试集123

6.3.2重抽样131

6.4小结135

第7章模型评估度量136

7.1回归模型评估度量136

7.2分类模型评估度量139

7.2.1Kappa统计量141

7.2.2ROC曲线143

7.2.3提升图145

7.3小结146

第8章特征工程148

8.1特征构建149

8.2特征提取152

8.2.1初步探索特征153

8.2.2主成分分析158

8.2.3探索性因子分析163

8.2.4高维标度化167

8.2.5知识扩展:3种降维特征提取方法的理论171

8.3特征选择177

8.3.1过滤法178

8.3.2绕封法188

8.4小结195

第9章线性回归及其衍生196

9.1普通线性回归197

9.1.1最小二乘线性模型197

9.1.2回归诊断201

9.1.3离群点、高杠杆点和强影响点204

9.2收缩方法205

9.2.1岭回归205

9.2.2Lasso209

9.2.3弹性网络212

9.3知识扩展:LASSO的变量选择功能213

9.4主成分和偏最小二乘回归215

9.5小结221

第10章广义线性模型压缩方法222

10.1初识GLMNET223

10.2收缩线性回归227

10.3逻辑回归235

10.3.1普通逻辑回归235

10.3.2收缩逻辑回归236

10.3.3知识扩展:群组lasso逻辑回归239

10.4收缩多项回归243

10.5泊松收缩回归246

10.6小结249

第11章树模型250

11.1分裂准则252

11.2树的修剪256

11.3回归树和决策树260

11.4装袋树268

11.5随机森林273

11.6助推法277

11.7知识扩展:助推法的可加模型框架283

11.8知识扩展:助推树的数学框架286

11.8.1数学表达286

11.8.2梯度助推数值优化289

11.9小结290

第12章神经网络292

12.1投影寻踪回归(PROJECTIONPURSUITREGRESSION)293

12.2神经网络(NEURALNETWORKS)296

12.3神经网络拟合299

12.4训练神经网络300

12.5用CARET包训练神经网络302

12.6小结311

参考文献312

本目录推荐