数据挖掘导论（英文版·原书第2版）

定　价：¥199.00

作　者：	[美] 陈封能，迈克尔·斯坦巴赫著
出版社：	机械工业出版社
丛编项：	经典原版书库
标　签：	暂缺

购买这本书可以去

京东 (¥199.00)

ISBN：	9787111637882	出版时间：	2019-11-01	包装：	平装
开本：	16开	页数：	836	字数：

内容简介

　　本书从算法的角度介绍数据挖掘所使用的主要原理与技术。为了更好地理解数据挖掘技术如何用于各种类型的数据，研究这些原理与技术是至关重要的。本书所涵盖的主题包括：数据预处理、预测建模、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法，为读者提供将数据挖掘应用于实际问题所需的必要背景以及使用方法。

作者简介

　　陈封能（Pang-Ning Tan）密歇根州立大学计算机科学与工程系教授，主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。

图书目录

第1章　绪论 1
11　什么是数据挖掘 4
12　数据挖掘要解决的问题 5
13　数据挖掘的起源 7
14　数据挖掘任务 9
15　本书组织结构 13
16　文献注释 15
17　习题 21
第2章　数据 23
21　数据类型 26
211　属性与度量 27
212　数据集的类型 34
22　数据质量 42
221　测量和数据收集问题 42
222　关于应用的问题 49
23　数据预处理 50
231　聚集 51
232　抽样 52
233　维归约 56
234　特征子集选择 58
235　特征创建 61
236　离散化和二元化 63
237　变量变换 69
24　相似性和相异性的度量 71
241　基础 72
242　简单属性之间的相似度和相异度 74
243　数据对象之间的相异度 76
244　数据对象之间的相似度 78
245　邻近度度量的例子 79
246　互信息 88
* 247　核函数 90
* 248　Bregman散度 94
249　邻近度计算问题 96
2410　选择正确的邻近度度量 98
25　文献注释 100
26　习题 105
第3章　分类：基本概念和技术 113
31　基本概念 114
32　一般的分类框架 117
33　决策树分类器 119
331　构建决策树的基本算法 121
332　表示属性测试条件的方法 124
333　选择属性测试条件的方法 127
334　决策树归纳算法 136
335　示例：Web机器人检测 138
336　决策树分类器的特征 140
34　模型的过拟 147
35　模型选择 156
351　验证集应用 156
352　模型复杂度合并 157
353　统计范围估计 162
354　决策树的模型选择 162
36　模型评估 164
361　保持方法 165
362　交叉验证 165
37　超参数的使用 168
371　超参数选择 168
372　嵌套交叉验证 170
38　模型选择和评估中的陷阱 172
381　训练集和测试集之间的重叠 172
382　使用验证错误率作为泛化错误率
*39　模型比较 173
391　估计准确率的置信区间 174
392　比较两个模型的性能 175
310　文献注释 176
311　习题 185
第4章　分类：其他技术 193
41　分类器的种类 193
42　基于规则的分类器 195
421　基于规则的分类器原理 197
422　规则集的属性 198
423　规则提取的直接方法 199
424　规则提取的间接方法 204
425　基于规则的分类器的特点 206
43　最近邻分类器 208
431　算法 209
432　最近邻分类器的特点 210
44　朴素贝叶斯分类器 212
441　概率论基础 213
442　朴素贝叶斯假设 218
45　贝叶斯网络 227
451　图表示 227
452　推理与学习 233
453　贝叶斯网络的特点 242
46　logistic回归 243
461　logistic回归用作广义线性模型 244
462　学习模型参数 245
463　logistic回归模型的特点 248
47　人工神经网络 249
471　感知机 250
472　多层神经网络 254
473　人工神经网络的特点 261
48　深度学习 262
481　使用协同损失函数 263
482　使用响应激活函数 266
483　正则化 268
484　模型参数的初始化 271
485　深度学习的特点 275
49　支持向量机 276
491　分离超平面的边缘 276
492　线性SVM 278
493　软边缘SVM 284
494　非线性SVM 290
495　SVM的特点 294
410　组合方法 296
4101　组合方法的基本原理 297
4102　构建组合分类器的方法 297
4103　偏置–方差分解 300
4104　装袋 302
4105　提升 305
4106　随机森林 310
4107　组合方法的实验比较 312
411　类不平衡问题 313
4111　类不平衡的分类器构建 314
4112　带类不平衡的性能评估 318
4113　寻找最优的评分阈值 322
4114　综合评估性能 323
412　多类问题 330
413　文献注释 333
414　习题 345
第5章　关联分析：基本概念和算法 357
51　预备知识 358
52　频繁项集的产生 362
521　先验原理 363
522　Apriori算法的频繁项集产生 364
523　候选项集的产生与剪枝 368
524　支持度计数 373
525　计算复杂度 377
53　规则的产生 380
531　基于置信度的剪枝 380
532　Apriori算法中规则的产生 381
533　示例：美国国会投票记录 382
54　频繁项集的紧凑表示 384
541　极大频繁项集 384
542　闭项集 386
*55　其他产生频繁项集的方法 389
*56　FP增长算法 393
561　FP树表示法 394
562　FP增长算法的频繁项集产生 397
57　关联模式的评估 401
571　兴趣度的客观度量 402
572　多个二元变量的度量 414
573　辛普森悖论 416
58　倾斜支持度分布的影响 418
59　文献注释 424
510　习题 438
第6章　关联分析：高级概念 451
61　处理分类属性 451
62　处理连续属性 454
621　基于离散化的方法 454
622　基于统计学的方法 458
623　非离散化方法 460
63　处理概念分层 462
64　序列模式 464
641　预备知识 465
642　序列模式发现 468
* 643　时限约束 473
* 644　可选计数方案 477
65　子图模式 479
651　预备知识 480
652　频繁子图挖掘 483
653　候选生成 487
654　候选剪枝 493
655　支持度计数 493
*66　非频繁模式 493
661　负模式 494
662　负相关模式 495
663　非频繁模式、负模式和负相关模式比较 496
664　挖掘有趣的非频繁模式的技术 498
665　基于挖掘负模式的技术 499
666　基于支持度期望的技术 501
67　文献注释 505
68　习题 510
第7章　聚类分析：基本概念和算法 525
71　概述 528
711　什么是聚类分析 528
712　聚类的不同类型 529
713　簇的不同类型 531
72　K均值 534
721　K均值算法 535
722　K均值：附加的问题 544
723　二分K均值 547
724　K均值和不同的簇类型 548
725　优点与缺点 549
726　K均值作为优化问题 549
73　凝聚层次聚类 554
731　基本凝聚层次聚类算法 555
732　特殊技术 557
733　簇邻近度的Lance-Williams公式 562
734　层次聚类的主要问题 563
735　离群点 564
736　优点与缺点 565
74　DBSCAN 565
741　传统的密度：基于中心的方法 565
742　DBSCAN算法 567
743　优点与缺点 569
75　簇评估 571
751　概述 571
752　无监督簇评估：使用凝聚度和分离度 574
753　无监督簇评估：使用邻近度矩阵 582
754　层次聚类的无监督评估 585
755　确定正确的簇个数 587
756　聚类趋势 588
757　簇有效性的监督度量 589
758　评估簇有效性度量的显著性 594
759　簇有效性度量的选择 596
76　文献注释 597
77　习题 603
第8章　聚类分析：其他问题与算法 613
81　数据、簇和聚类算法的特性 614
811　示例：比较K均值和DBSCAN 614
812　数据特性 615
813　簇特性 617
814　聚类算法的一般特性 619
82　基于原型的聚类 621
821　模糊聚类 621
822　使用混合模型的聚类 627
823　自组织映射 637
83　基于密度的聚类 644
831　基于网格的聚类 644
832　子空间聚类 648
833　DENCLUE：基于密度聚类的一种基于核的方案 652
84　基于图的聚类 656
841　稀疏化 657
842　最小生成树聚类 658
843　OPOSSUM：使用METIS的稀疏相似度最优划分 659
844　Chameleon：使用动态建模的层次聚类 660
845　谱聚类 666
846　共享最近邻相似度 673
847　Jarvis-Patrick聚类算法 676
848　SNN密度 678
849　基于SNN密度的聚类 679
85　可伸缩的聚类算法 681
851　可伸缩：一般问题和方法 681
852　BIRCH 684
853　CURE 686
86　使用哪种聚类算法 690
87　文献注释 693
88　习题 699
第9章　异常检测 703
91　异常检测问题的特性 705
911　异常的定义 705
912　数据的性质 706
913　如何使用异常检测 707
92　异常检测方法的特性 708
93　统计方法 710
931　使用参数模型 710
932　使用非参数模型 714
933　对正常类和异常类建模 715
934　评估统计意义 717
935　优点与缺点 718
94　基于邻近度的方法 719
941　基于距离的异常分数 719
942　基于密度的异常分数 720
943　基于相对密度的异常分数 722
944　优点与缺点 723
95　基于聚类的方法 724
951　发现异常簇 724
952　发现异常实例 725
953　优点与缺点 728
96　基于重构的方法 728
97　单类分类 732
971　核函数的使用 733
972　原点技巧 734
973　优点与缺点 738
98　信息论方法 738
99　异常检测评估 740
910　文献注释 742
911　习题 749
第10章　避免错误发现 755
101　预备知识：统计检验 756
1011　显著性检验 756
1012　假设检验 761
1013　多重假设检验 767
1014　统计检验中的陷阱 776
102　对零分布和替代分布建模 778
1021　生成合成数据集 781
1022　随机化类标 782
1023　实例重采样 782
1024　对检验统计量的分布建模 783
103　分类问题的统计检验 783
1031　评估分类性能 783
1032　以多重假设检验处理二分类问题 785
1033　模型选择中的多重假设检验 786
104　关联分析的统计检验 787
1041　使用统计模型 788
1042　使用随机化方法 794
105　聚类分析的统计检验 795
1051　为内部指标生成零分布 796
1052　为外部指标生成零分布 798
1053　富集 798
106　异常检测的统计检验 800
107　文献注释 803
108　习题 808

Contents
1 Introduction 1
11 What Is Data Mining? 4
12 Motivating Challenges 5
13 The Origins of Data Mining 7
14 Data Mining Tasks 9
15 Scope and Organization of the Book 13
16 Bibliographic Notes 15
17 Exercises 21
2 Data 23
21 Types of Data 26
211 Attributes and Measurement 27
212 Types of Data Sets 34
22 Data Quality 42
221 Measurement and Data Collection Issues 42
222 Issues Related to Applications 49
23 Data Preprocessing 50
231 Aggregation 51
232 Sampling 52
233 Dimensionality Reduction 56