注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库数据库理论数据挖掘实用机器学习技术(原书第2版)

数据挖掘实用机器学习技术(原书第2版)

数据挖掘实用机器学习技术(原书第2版)

定 价:¥48.00

作 者: (新西兰)威滕(Witten,I.H.),(新西兰)弗兰克(Frank,E.) 著,董琳 等译;董琳译
出版社: 机械工业出版社
丛编项: 计算机科学丛书
标 签: 数据库存储与管理

ISBN: 9787111182054 出版时间: 2006-02-01 包装: 胶版纸
开本: 小16开 页数: 362 字数:  

内容简介

  本书介绍数据挖掘的基本理论与实践方法。主要内容包括:各种模型(决策树、关联规则、线性模型、聚类、贝叶斯网以及神经网络)以及在实践中的运用,所存在缺陷的分析。安全地清理数据集、建立以及评估模型的预测质量的方法,并且提供了一个公开的数据挖掘工作平台Weka。Weka系统拥有进行数据挖掘任务的图形用户界面,有助于理解模型,是一个实用并且深受欢迎的工具。.本书逻辑严密、内容翔实、极富实践性,适合作为高等学校本科生或研究生的教材,也可供相关技术人员参考。正如所有受到商业注目的新兴技术一样,数据挖掘的运用也是极其多样化的。言过其实的报导声称可以建立算法:在数据的海洋里发现秘密。但事实上机器学习中没有魔术,没有隐藏的力量,没有炼金术。有的只是一些可以将有用的信息从原始数据中提炼出来的清晰明了的实用技术。本书叙述了这些技术并展示了它们是如何工作的。..本书对1999年的初版做了重大的改动。虽说核心概念没有变化,但本书做了更新,反映出过去五年的变化。新版的重要部分包括了30种新的技术;一个加强了互动界面的Weka机器学习工作平台;有关神经网络的完整信息,一个有关贝叶斯网络的新章节;诸如此类,不胜枚举。本书提供了机器学习理论概念的完整基础,此外还对实际工作中应用的相关工具和技术提了一些建议,在本书中你将发现:成功数据挖掘技术的核心算法——历经考验的真实技术及领先前沿的方法。转换输入或输出,改善性能的方法。可下载的Weka软件,它集合了能承担数据挖掘任务的机器学习算法,包括对数据进行预处理。分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。...

作者简介

  Ian H.Witten,新西兰怀卡托大学计算机科学系教授,ACM和新西兰皇家学会成员,曾荣获2004年国际信息处理研究协会(IFIP)颁发的Namur奖项。他的著作包括《Managing Gigabytes:Compressirlg and Indexing Documents and Images》、《How to Build a Digital Library》以及众多的期刊和学会文章。

图书目录

出版者的话.
专家指导委员会
译者序
中文版前言

前言
第一部分机器学习工具与技术
第1章绪论
1.1数据挖掘和机器学习
1.1.1描述结构模式
1.1.2机器学习
1.1.3数据挖掘
1.2简单的例子:天气问题和其他
1.2.1天气问题
1.2.2隐形眼镜:一个理想化的问题
1.2.3鸢尾花:一个经典的数值型数据集
1.2.4CPU性能:介绍数值预测
1.2.5劳资协商:一个更真实的例子
1.2.6大豆分类:一个经典的机器学习的成功例子
1.3应用领域
1.3.1决策包含评判
1.3.2图像筛选
1.3.3负载预测
1.3.4诊断
1.3.5市场和销售
1.3.6其他应用
1.4机器学习和统计学
1.5用于搜索的概括
1.5.1枚举概念空间
1.5.2偏差
1.6数据挖掘和道德
1.7补充读物
第2章输入:概念.实例和属性
2.1概念
2.2样本
2.3属性
2.4输入准备
2.4.1数据收集
2.4.2ARFF格式
2.4.3稀疏数据
2.4.4属性类型
2.4.5残缺值
2.4.6不正确的值
2.4.7了解数据
2.5补充读物
第3章输出:知识表达
3.1决策表
3.2决策树
3.3分类规则
3.4关联规则
3.5包含例外的规则
3.6包含关系的规则
3.7数值预测树
3.8基于实例的表达
3.9聚类
3.10补充读物
第4章算法:基本方法
4.1推断基本规则
4.1.1残缺值和数值属性
4.1.2讨论
4.2统计建模
4.2.1残缺值和数值属性
4.2.2用于文档分类的贝叶斯模型
4.2.3讨论
4.3分治法:创建决策树
4.3.1计算信息量
4.3.2高度分支属性
4.3.3讨论
4.4覆盖算法:建立规则
4.4.1规则与树
4.4.2一个简单的覆盖算法
4.4.3规则与决策列
4.5挖掘关联规则
4.5.1项集
4.5.2关联规则
4.5.3有效地建立规则
4.5.4讨论
4.6线性模型
4.6.1数值预测:线性回归
4.6.2线性分类:Logistic回归
4.6.3使用感知器的线性分类
4.6.4使用Winnow的线性分类
4.7基于实例的学习
4.7.1距离函数
4.7.2有效寻找最近邻
4.7.3讨论
4.8聚类
4.8.1基于距离的迭代聚类
4.8.2快速距离计算
4.8.3讨论
4.9补充读物
第5章可信度:评估机器学习结果
5.1训练和测试
5.2预测性能
5.3交叉验证
5.4其他估计法
5.4.1留一法
5.4.2自引导法
5.5数据挖掘方案比较
5.6预测概率
5.6.1次损失函数
5.6.2信息损失函数
5.6.3讨论
5.7计算成本
5.7.1成本敏感分类
5.7.2成本敏感学习
5.7.3上升图
5.7.4ROC曲线
5.7.5反馈率-精确率曲线
5.7.6讨论
5.7.7成本曲线
5.8评估数值预测
5.9最短描述长度原理
5.10聚类方法中应用MDL原理
5.11补充读物
第6章实现:真正的机器学习方案
6.1决策树
6.1.1数值属性
6.1.2残缺值
6.1.3修剪
6.1.4估计误差率
6.1.5决策树归纳的复杂度
6.1.6从决策树到规则
6:1.7C4.5:选择和选项
6.1.8讨论
6.2分类规则
6.2.1选择测试的标准
6.2.2残缺值,数值属性
6.2.3生成好的规则
6.2.4使用全局优化
6.2.5从局部决策树中获得规则
6.2.6包含例外的规则
6.2.7讨论
6.3扩展线性模型
6.3.1最大边际超平面
6.3.2非线性类边界
6.3.3支持向量回归
6.3.4核感知器
6.3.5多层感知器
6.3.6反向传播法
6.3.7径向基函数网络
6.3.8讨论
6.4基于实例的学习
6.4.1减少样本集数量
6.4.2修剪干扰样本集
6.4.3属性加权
6.4.4推广样本集
6.4.5用于推广样本集的距离函数
6.4.6推广的距离函数
6.4.7讨论
6.5数值预测
6.5.1模型树
6.5.2建树
6.5.3修剪树
6.5.4名词性属性
6.5.5残缺值
6.5.6模型树归纳伪代码
6.5.7从模型树到规则
6.5.8局部加权线性回归
6.5.9讨论
6.6聚类
6.6.1选择聚类的个数
6.6.2递增聚类
6.6.3类别效用
6.6.4基于概率的聚类
6.6.5EM算法
6.6.6扩展混合模型
6.6.7贝叶斯聚类
6.6.8讨论..
6.7贝叶斯网络
6.7.1做出预测
6.7.2学习贝叶斯网络
6.7.3算法细节
6.7.4用于快速学习的数据结构
6.7.5讨论
第7章转换:处理输入和输出
7.1属性选择
7.1.1独立于方案的选择
7.1.2搜索属性空间
7.1.3特定方案选择
7.2离散数值属性
7.2.1无指导离散
7.2.2基于熵的离散
7.2.3其他离散方法
7.2.4基于熵和基于误差的离散
7.2.5离散属性转换成数值属性
7.3一些有用的转换
7.3.1主分量分析
7.3.2随机投影,
7.3.3从文本到属性向量
7.3.4时间序列
7.4自动数据清理
7.4.1改进决策树
7.4.2稳健回归
7.4.3侦察异情
7.5组合多种模型
7.5.1装袋
7.5.2考虑成本的装袋
7.5.3随机化
7.5.4提升
7.5.5叠加回归
7.5.6叠加logistic回归
7.5.7选择树
7.5.8Logistic模型树
7.5.9堆栈
7.5.10误差纠正输出编码
7.6使用没有类标的数据
7.6.1用于分类的聚类
7.6.2联合训练
7.6.3EM和联合训练
7.7补充读物
第8章继续:扩展和应用
8.1从大型的数据集里学习
8.2融合领域知识
8.3文本和网络挖掘
8.4对抗情形
8.5无处不在的数据挖掘
8.6补充读物
第二部分Weka机器学习平台
第9章Weka简介
9.1Weka中包含了什么
9.2如何使用Weka
9.3Weka的其他应用
9.4如何得到Weka
第10章Explorer界面
10.1开始着手
10.1.1准备数据
10.1.2将数据载入探索者
10.1.3建立决策树
10.1.4查看结果
10.1.5重做一遍
10.1.6运用模型
10.1.7运行错误的处理
10.2探索“探索者”
10.2.1载入及过滤文件
10.2.2训练和测试学习方案
10.2.3自己动手:用户分类器
10.2.4使用元学习器
10.2.5聚类和关联规则
10.2.6属性选择
10.2.7可视化
10.3过滤算法
10.3.1无指导属性过滤器
10.3.2无指导实例过滤器
10.3.3有指导过滤器
10.4学习算法
10.4.1贝叶斯分类器
10.4.2树
10.4.3规则
10.4.4函数
10.4.5懒惰分类器
10.4.6其他的杂项分类器
10.5元学习算法
10.5.1装袋和随机化
10.5.2提升
10.5.3合并分类器
10.5.4成本敏感学习
10.5.5优化性能
10.5.6针对不同任务重新调整分类器
10.6聚类算法
10.7关联规则学习器
10.8属性选择
10.8.1属性子集评估器
10.8.2单一属性评估器
10.8.3搜索方法
第11章KnowledgeFlow界面
11.1开始着手
11.2知识流组件
11.3配置及连接组件
11.4递增学习
第12章Experimenter界面
12.1开始着手
12.1.1运行一个实验
12.1.2分析所得结果
12.2简单设置
12.3高级设置
12.4分析面板
12.5将运行负荷分布到多个机器上
第13章命令行界面
13.1开始着手
13.2Weka的结构
13.2.1类,实例和包
13.2.2weka.core包
13.2.3weka.classifiers包
13.2.4其他包
13.2.5Javadoc索引
13.3命令行选项
13.3.1通用选项
13.3.2与具体方案相关的选项
第14章嵌入式机器学习
14.1一个简单的数据挖掘程序
14.2讲解代码
14.2.1main()
14.2.2MessageClassifier()
14.2.3updateData()
14.2.4classifyMessage()
第15章编写新学习方案
15.1一个分类器范例
15.1.1buildClassifier()
15.1.2makeTree()
15.1.3computelnfoGain()
15.1.4classifylnstance()
15.1.5main()
15.2与实现分类器有关的惯例
参考文献
索引...

本目录推荐