Python数据挖掘实战

定　价：¥79.00

作　者：	方小敏著
出版社：	电子工业出版社
丛编项：
标　签：	暂缺

购买这本书可以去

ISBN：	9787121404610	出版时间：	2021-01-01	包装：	平装
开本：	16开	页数：	244	字数：

内容简介

　　从解决工作实际问题出发，提炼总结工作中Python 常用的数据处理、数据挖掘实战方法与技巧。本书通俗易懂地介绍数据挖掘过程中可能用到的回归模型、分类模型、聚类、关联、时间序列分析等技术。在不影响学习理解的前提下，尽可能地避免使用晦涩难懂的Python 编程、统计术语或模型公式。本书定位是带领Python 数据分析初学者入门，并能解决学习、工作中大部分的问题或需求。入门后如还需要进一步进阶学习，可自行扩展阅读相关书籍或资料，学习是永无止境的，正所谓师傅领进门，修行在个人”。

作者简介

　　方小敏，资深机器学习工程师；中山大学数字治理研究中心技术顾问；曾服务于腾讯等知名互联网企业，熟练掌握Python、R、Spark、Hive、TensorFlow等工具进行机器学习。

图书目录

第１章数据挖掘基础／1
1．1 数据挖掘是什么／1
1．1．1 数据挖掘算法的类型／2
1．1．2 数据挖掘需要的技能／4
1．1．3 数据挖掘的常见误区／6
1．2 数据挖掘的常见问题／8
1．2．1 预测问题／9
1．2．2 分类问题／9
1．2．3 聚类问题／11
1．2．4 关联问题／12
1．3 数据挖掘的标准流程／13
1．3．1 商业理解／14
1．3．2 数据理解／14
1．3．3 数据准备／14
1．3．4 模型构建／15
1．3．5 模型评估／15
1．3．6 模型部署／15
1．4 数据分析和数据挖掘的区别／16
1．4．1 数据分析／16
1．4．2 数据挖掘／17
第２章回归模型／18
2．1 回归模型简介／18
2．2 相关分析／20
2．2．1 依存关系／20
2．2．2 相关系数的计算／21
2．2．3 相关系数的方向与大小／22
2．2．4 居民购物习惯相关分析案例／23
2．3 简单线性回归分析／25
2．3．1 线性回归方程解读／25
2．3．2 使用最小二乘法求解回归方程／26
2．3．3 使用广告投放费用预测销售额案例／28
2．4 多重线性回归分析／33
2．4．1 使用最小二乘法求解多重线性回归方程／33
2．4．2 使用广告投放费用与客流量预测销售额案例／36
2．5 一元非线性回归／39
2．5．1 一元非线性回归模型／39
2．5．2 一元非线性回归模型求解／40
2．5．3 使用上线天数预测活跃用户数案例／41
第３章分类模型／48
3．1 分类模型基础／48
3．1．1 分类模型的建模五步骤／49
3．1．2 分类模型评估指标／50
3．1．3 K折交叉验证／53
3．2 KNN模型／54
3．2．1 KNN模型原理／54
3．2．2 使用商户数据预测是否续约案例／55
3．3 贝叶斯分类／64
3．3．1 贝叶斯分类的核心概念／65
3．3．2 朴素贝叶斯分类／67
3．3．3 朴素贝叶斯分类算法在离散型特征上的求解／68
3．3．4 朴素贝叶斯分类算法在连续型特征上的求解／71
3．3．5 使用议员在议案上的投票记录预测其所属党派案例／83
3．3．6 根据商户数据预测其是否续约案例／85
3．3．7 根据新闻文本预测其所属分类案例／86
3．4 决策树／89
3．4．1 决策树分类／89
3．4．2 决策树分类算法原理／91
3．4．3 使用高中生基本信息预测其是否计划升学案例／93
3．4．4 案例解读／102
3．5 随机森林／104
3．5．1 随机森林的特点／104
3．5．2 网格搜索／106
3．5．3 使用随机森林算法提升决策树算法效果案例／107
3．6 支持向量机／111
3．6．1 支持向量机的核心原理／111
3．6．2 根据葡萄酒成分数据预测其分类案例／116
3．7 逻辑回归／118
3．7．1 逻辑回归的核心概念／118
3．7．2 逻辑回归的数学推导／119
3．7．3 使用住户信息预测房屋是否屋主所有案例／120
第４章特征工程／124
4．1 描述性统计分析／125
4．2 数据标准化／127
4．2．1 Min-Max标准化／128
4．2．2 Z-Score 标准化／129
4．2．3 Normalizer归一化／131
4．3 数据变换／132
4．3．1 二值化／132
4．3．2 分桶／135
4．3．3 幂变换／138
4．4 缺失值处理／139
4．4．1 删除缺失值所在的行／140
4．4．2 均值/众数/中值填充／141
4．4．3 模型填充／142
4．5 降维／143
4．5．1 主成分分析／143
4．5．2 因子分析／154
第５章聚类算法／160
5．1 K均值算法／161
5．1．1 K均值算法的核心概念／161
5．1．2 电信套餐制定案例／164
5．2 DBSCAN算法／169
5．2．1 DBSCAN算法核心概念／170
5．2．2 用户常活动区域挖掘案例／173
5．3 层次聚类算法／175
5．3．1 演示：聚类层次的计算过程／175
5．3．2 基于运营商基站信息挖掘商圈案例／178
第６章关联算法／184
6．1 关联规则／185
6．1．1 关联规则的核心概念／186
6．1．2 超市关联规则挖掘案例／188
6．1．3 超市关联规则解读／192
6．2 协同过滤／192
6．2．1 协同过滤算法的实现／193
6．2．2 安装scikit-surprise模块／196
6．2．3 基于电影数据的协同过滤案例／197
6．3 奇异值分解／201
第７章时间序列／206
7．1 时间序列分解／206
7．1．1 非季节性时间序列分解／207
7．1．2 季节性时间序列／211
7．2 序列预测／214
7．2．1 把不平稳的时间序列转换成平稳的时间序列／214
7．2．2 自回归模型／219
7．2．3 移动平均模型／220
7．2．4 自回归移动平均模型／221
第８章模型持久化／226
8．1 保存模型／226
8．2 恢复模型／228
8．3 管道模型／229