统计学习基础：数据挖掘、推理与预测

定　价：¥45.00

作　者：	（美）Trevor Hastie等著；范明等译；范明译
出版社：	电子工业出版社
丛编项：	国外计算机科学教材系列
标　签：	数据库存储与管理

购买这本书可以去

ISBN：	9787505393318	出版时间：	2004-01-01	包装：	胶版纸
开本：	26cm	页数：	381	字数：

内容简介

　　随着计算机和信息时代的到来，统计问题的规模和复杂性都有了急剧增加。数据存储、组织和检索领域的挑战导致一个新领域“数据挖掘”的产生。数据挖掘是一个多学科交叉领域，涉及数据库技术、机器学习、统计学、神经网络、模式识别、知识库、信息提取、高性能计算等诸多领域，并在工业、商务、财经、通信、医疗卫生、生物工程、科学等众多行业得到了广泛的应用。本书试图将学习领域中许多重要的新思想汇集在一起，并且在统计学的框架下解释它们。尽管有些数学细节是必要的，但本书强调的是方法和它们的概念基础，而不是理论性质。本书内容广泛，从有指导的学习（预测）到无指导的学习，应有尽有。包括神经网络、支持向量机、分类树和提升等主题，是同类书籍中介绍得最全面的，适合从事数据挖掘和机器学习研究的读者阅读。TrevorHastie，RobertTibshirani和JeromeFriedman都是斯坦福大学统计学教授，并在这个领域做出了杰出的贡献。Hastie和Tibshirani提出了广义和加法模型，并出版专著“GeneralizedAdditiveModels”。Hastie的主要研究领域为：非参数回归和分类、统计计算以及生物信息学、医学和工业的特殊数据挖掘问题。他提出主曲线和主曲面的概念，并用S-PLUS编写了大量统计建模软件。Tibshirani的主要研究领域为：应用统计学、生物统计学和机器学习。他提出了套索的概念，还是“AnIntroductiontotheBootstrap”一书的作者之一。Friedman是CART、MARS和投影寻踪等数据挖掘工具的发明人之一。他不仅是位统计学家，而且是物理学家和计算机科学家，先后在物理学、计算机科学和统计学的一流杂志上表发论文80余篇。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战，这导致了统计学领域新工具的发展，并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础，但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法，但强调的是概念，而不是数学。许多例子附以彩图。本书内容广泛，从有指导的学习（预测）到无指导的学习，应有尽有。包括神经网络、支持向量机、分类树和提升等主题，是同类书籍中介绍得最全面的。本书可作为高等院校相关专业本科生和研究生的教材，对于统计学相关人员、科学界和业界关注数据挖掘的人，本书值得一读。

作者简介

　　TrevorHastie，RobertTibshirani和JeromeFriedman都是斯坦福大学统计学教授，并在这个领域做出了杰出的贡献。Hastie和Tibshirani提出了广义和加法模型，并出版专著“GeneralizedAdditiveModels”。Hastie的主要研究领域为：非参数回归和分类、统计计算以及生物信息学、医学和工业的特殊数据挖掘问题。他提出主曲线和主曲面的概念，并用S-PLUS编写了大量统计建模软件。Tibshirani的主要研究领域为：应用统计学、生物统计学和机器学习。他提出了套索的概念，还是“AnIntroductiontotheBootstrap”一书的作者之一。Friedman是CART、MARS和投影寻踪等数据挖掘工具的发明人之一。他不仅是位统计学家，而且是物理学家和计算机科学家，先后在物理学、计算机科学和统计学的一流杂志上表发论文80余篇。

图书目录

第1章绪论
第2章有指导学习概述
2.1 引言
2.2 变量类型和术语
2.3 两种简单预测方法：最小二乘方和最近邻法
2.4 统计判决理论
2.5 高维空间的局部方法
2.6 统计模型. 有指导学习和函数逼近
2.7 结构化回归模型
2.8 受限的估计方法类
2.9 模型选择和偏倚-方差权衡
文献注释
习题
第3章回归的线性方法
3.1 引言
3.2 线性回归模型和最小二乘方
3.3 从简单的一元回归到多元回归
3.4 子集选择和系数收缩
3.5 计算考虑
文献注释
习题
第4章分类的线性方法
4.1 引言
4.2 指示矩阵的线性回归
4.3 线性判别分析
4.4 逻辑斯缔回归
4.5 分离超平面
文献注释
习题
第5章基展开与正则化
5.1 引言
5.2 分段多项式和样条
5.3 过滤和特征提取
5.4 光滑样条
5.5 光滑参数的自动选择
5.6 无参逻辑斯缔回归
5.7 多维样条函数
5.8 正则化和再生核希尔伯特空间
5.9 小波光滑
文献注释
习题
第6章核方法
6.1 一维核光滑方法
6.2 选择核的宽度
6.3 IRp上的局部回归
6.4 IRp上结构化局部回归模型
6.5 局部似然和其他模型
6.6 核密度估计和分类
6.7 径向基函数和核
6.8 密度估计和分类的混合模型
6.9 计算考虑
文献注释
习题
第7章模型评估与选择
7.1 引言
7.2 偏倚. 方差和模型复杂性
7.3 偏倚-方差分解
7.4 训练误差率的乐观性
7.5 样本内预测误差的估计
7.6 有效的参数个数
7.7 贝叶斯方法和BIC
7.8 最小描述长度
7.9 Vapnik-Chernovenkis维
7.10 交叉验证
7.11 自助法
文献注释
习题
第8章模型推理和平均
8.1 引言
8.2 自助法和极大似然法
8.3 贝叶斯方法
8.4 自助法和贝叶斯推理之间的联系
8.5 EM算法
8.6 从后验中抽样的MCMC
8.7 装袋
8.8 模型平均和堆栈
8.9 随机搜索：冲击
文献注释
习题
第9章加法模型. 树和相关方法
9.1 广义加法模型
9.2 基于树的方法
9.3 PRIM——凸点搜索
9.4 MARS：多元自适应回归样条
9.5 分层专家混合
9.6 遗漏数据
9.7 计算考虑
文献注释
习题
第10章提升和加法树
10.1 提升方法
10.2 提升拟合加法模型
10.3 前向分步加法建模
10.4 指数损失函数和AdaBoost
10.5 为什么使用指数损失
10.6 损失函数和健壮性
10.7 数据挖掘的“现货”过程
10.8 例：垃圾邮件数据
10.9 提升树
10.10 数值优化
10.11 提升适当大小的树
10.12 正则化
10.13 可解释性
10.14 实例
文献注释
习题
第11章神经网络
11.1 引言
11.2 投影寻踪回归
11.3 神经网络
11.4 拟合神经网络
11.5 训练神经网络的一些问题
11.6 例：模拟数据
11.7 例：ZIP编码数据
11.8 讨论
11.9 计算考虑
文献注释
习题
第12章支持向量机和柔性判别
12.1 引言
12.2 支持向量分类器
12.3 支持向量机
12.4 线性判别分析的推广
12.5 柔性判别分析
12.6 罚判别分析
12.7 混合判别分析
12.8 计算考虑
文献注释
习题
第13章原型方法和最近邻
13.1 引言
13.2 原型方法
13.3 K-最近邻分类器
13.4 自适应的最近邻方法
13.5 计算考虑
文献注释
习题
第14章无指导学习
14.1 引言
14.2 关联规则
14.3 聚类分析
14.4 自组织映射
14.5 主成分. 曲线和曲面
14.6 独立成分分析和探测性投影寻踪
14.7 多维定标
文献注释
习题
术语表
参考文献