注册 | 登录读书好,好读书,读好书!
读书网-DuShu.com
当前位置: 首页出版图书科学技术计算机/网络数据库数据库挖掘/数据仓库数据挖掘教程

数据挖掘教程

数据挖掘教程

定 价:¥39.00

作 者: Margaret H.Dunham著;郭崇慧[等]译;郭崇慧译
出版社: 清华大学出版社
丛编项: 世界著名计算机教材精选
标 签: 数据库存储与管理

ISBN: 9787302105336 出版时间: 2005-04-01 包装: 胶版纸
开本: 26cm 页数: 280 字数:  

内容简介

  数据挖掘技术是多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。人们希望通过数据挖掘技术找到蕴藏在数据中的有用信息,进而找到尚未发现的知识,为商业竞争、企业生产和管理、政府部门决策以及科学探索等提供信息与知识,这种所谓隐藏在数据中的信息与知识是人的先验知识和经验无法确定的,对于帮助人们作出适当决策是很有价值的。 数据挖掘技术是在统计学、人工智能(特别是机器学习)和数据库技术等多种技术的基础上发展起来的。数据挖掘强调的是大数据量和算法的可伸缩性,它是一门很接近实用的学科,一出现就被许多部门所应用。由于它的实用性和商业效益,近年来人们研究出许多数据挖掘的新方法,并开发了许多数据挖掘的新产品。 本书从数据库的角度对数据挖掘的基本方法和算法进行了系统的介绍。全书共分三部分: 第1部分包括第1~3章,介绍数据挖掘的发展和基本概念;第2部分包括第4~6章,介绍最基本的数据挖掘方法,这部分也是全书的重点;第3部分包括第7~9章,介绍了近年来出现的较新的数据挖掘方法和领域。每章最后两节均为练习和参考文献注释。一部分练习用于检验学生掌握书中所述概念和知识的情况,另一部分练习提出需要进一步研究和思考的问题。每章的参考文献注释则较详细地说明了该章涉及的方法与算法的发展历程和状况,作者花费了很大精力查阅和收集这方面的资料。 本书适合作为计算机专业研究生及高年级本科生教材。作为教科书,书中的内容有一定的深度和广度,对许多方法和算法都作了引导性的叙述。但作为一本基础性的教科书,它不可能包括太广的内容,对近年来发展较快的一些新方法,如粗糙集、贝叶斯网络和支持向量机等,书中并未深入叙述。要想更深入地掌握一些方法和提出改进建议,还需要查阅书中给出的参考文献和一些方法的最新进展。本书还可作为相关领域科技人员的参考书。 作者在她本人的网页上给出了英文原著的演示文稿和勘误表,有兴趣的读者可查阅http://www.engr.smu.edu/~mhd/。除作者给出的勘误之外,译者也发现一些错误和疑似错误之处,在译文中对一般拼写错误、笔误和明显的小错误均未作说明而直接给出了校正,对较大一些的错误则在相应页中的脚注中给出了说明。 郭崇慧博士翻译了第1、4、5章,田凤占博士翻译了第2、6章,靳晓明博士翻译了第3、8、9章,孙建涛博士生翻译了第7章,沈抖硕士生翻译了附录。丛艳硕士参加了部分翻译和校对工作,鲁明羽博士也参加了部分校对工作。陆玉昌教授统一组织了全书的翻译和校对工作,并审阅定稿。 由于译者知识和水平所限,出现错误及疏漏之处敬请指正 译者 2004年4月

作者简介

  Margaret H.Dunham 在俄亥俄州牛津市的迈阿密大学获得了数学学士和数学硕士学位,在Southern Methodist大学获得了计算机科学博士学位。Dunham教授的研究兴趣包括主存数据库、数据挖掘、时序数据库以及移动计算。她目前是IEEE Transactions on Knowledge and Data Engineering 杂志的副主编。她在数据库并发控制和恢复、数据库机、主存数据库以及移动计算等研究领域发表了大量学术论文。

图书目录

目录第1部分导论第1章概述31.1基本数据挖掘任务51.1.1分类51.1.2回归51.1.3时间序列分析61.1.4预测61.1.5聚类71.1.6汇总71.1.7关联规则71.1.8序列发现81.2数据挖掘与数据库中的知识发现81.2.1数据挖掘的发展101.3数据挖掘问题121.4数据挖掘度量131.5数据挖掘的社会影响141.6从数据库观点看数据挖掘141.7数据挖掘的未来发展151.8练习161.9参考文献注释17第2章相关概念192.1数据库/OLTP系统192.2模糊集和模糊逻辑212.3信息检索232.4决策支持系统252.5维数据建模252.5.1多维模式272.5.2索引302.6数据仓储312.7OLAP342.8Web搜索引擎352.9统计学362.10机器学习372.11模式匹配382.12小结392.13练习392.14参考文献注释39第3章数据挖掘技术413.1引言413.2数据挖掘的统计方法423.2.1点估计423.2.2基于汇总的模型453.2.3贝叶斯定理463.2.4假设检验483.2.5回归和相关493.3相似性度量503.4决策树513.5神经网络533.5.1激励函数563.6遗传算法573.7练习603.8参考文献注释61第2部分核 心 课 题第4章分类654.1引言654.1.1分类中的问题674.2基于统计的算法694.2.1回归694.2.2贝叶斯分类744.3基于距离的算法764.3.1简单方法764.3.2K最近邻774.4基于决策树的算法794.4.1ID3834.4.2C4.5和C5.0854.4.3CART874.4.4可伸缩的决策树技术884.5基于神经网络的算法884.5.1传播904.5.2神经网络有指导学习914.5.3径向基函数网络954.5.4感知器964.6基于规则的算法964.6.1从决策树生成规则974.6.2从神经网络生成规则984.6.3不用决策树或神经网络生成规则984.7组合技术1014.8小结1034.9练习1034.10参考文献注释104第5章聚类1075.1引言1075.2相似性和距离度量1105.3异常点1115.4层次算法1125.4.1凝聚算法1135.4.2分裂聚类1175.5划分算法1185.5.1最小生成树1185.5.2平方误差聚类算法1195.5.3K均值聚类1205.5.4最近邻算法1215.5.5PAM算法1225.5.6结合能量算法1255.5.7基于遗传算法的聚类1255.5.8基于神经网络的聚类1265.6大型数据库聚类1285.6.1BIRCH1295.6.2DBSCAN1305.6.3CURE算法1325.7对类别属性进行聚类1355.8比较1375.9练习1385.10参考文献注释138第6章关联规则1416.1引言1416.2大项目集1446.3基本算法1456.3.1Apriori算法1456.3.2抽样算法1496.3.3划分1526.4并行和分布式算法1546.4.1数据并行1546.4.2任务并行1556.5方法比较1576.6增量规则1586.7高级关联规则技术1596.7.1泛化关联规则1596.7.2多层关联规则1606.7.3数量关联规则1606.7.4使用多个最小支持度1616.7.5相关规则1626.8度量规则的质量1626.9练习1646.10参考文献注释164第3部分高 级 课 题第7章Web挖掘1697.1引言1697.2Web内容挖掘1707.2.1爬虫1717.2.2Harvest系统1747.2.3虚拟Web视图1747.2.4个性化1757.3Web结构挖掘1767.3.1PageRank1777.3.2Clever1777.4Web使用挖掘1787.4.1预处理1797.4.2数据结构1817.4.3模式发现1827.4.4模式分析1877.5练习1887.6参考文献注释188第8章空间数据挖掘1908.1引言1908.2空间数据概述1918.2.1空间查询1918.2.2空间数据结构1918.2.3主题地图1958.2.4图像数据库1958.3空间数据挖掘原语1958.4一般化和特殊化1968.4.1渐进求精1968.4.2一般化1978.4.3最近邻1998.4.4STING1998.5空间规则2018.5.1空间关联规则2018.6空间分类算法2038.6.1对ID3的扩展2038.6.2空间决策树2038.7空间聚类算法2048.7.1对CLARANS的扩展2058.7.2SD(CLARANS)2068.7.3DBCLASD2068.7.4BANG2078.7.5WaveCluster2088.7.6近似2088.8练习2098.9参考文献注释209第9章时序数据挖掘2119.1引言2119.2时序事件建模2139.3时间序列2179.3.1时间序列分析2179.3.2趋势分析2189.3.3变换2199.3.4相似性2199.3.5预测2209.4模式检测2219.4.1串匹配2229.5时序序列2249.5.1AprioriAll2259.5.2SPADE2269.5.3一般化2279.5.4特征抽取2299.6时序关联规则2299.6.1事务间关联规则2309.6.2情节规则2309.6.3趋势依赖2319.6.4序列关联规则2339.6.5日历关联规则2339.7练习2349.8参考文献注释234附录A数据挖掘产品236A.1参考文献注释252附录B参考文献253词汇表268第1章导论21.1计算机组织与体系结构21.2结构和功能31.2.1功能31.2.2结构51.3为何要学习计算机组织和体系结构81.4本书概要91.5因特网和Web资源9第2章计算机的演变和性能112.1计算机简史112.1.1第一代:真空管112.1.2第二代:晶体管182.1.3第三代:集成电路202.1.4后续的几代252.2性能设计282.2.1微处理器的速度282.2.2性能平衡292.3Pentium和PowerPC的进展312.3.1Pentium312.3.2PowerPC322.4推荐的参考文献和Web站点332.5关键词、思考题和习题34第二部分计算机系统第3章计算机功能和互连的顶层视图393.1计算机的部件393.2计算机功能423.2.1取指周期和执行周期423.2.2中断453.2.3I/O功能523.3互连结构523.4总线互连543.4.1总线结构543.4.2多总线层次结构563.4.3总线设计要素583.5PCI623.5.1总线结构623.5.2PCI命令663.5.3数据传送673.5.4仲裁693.6推荐的参考文献和Web站点703.7关键词、思考题和习题71附录3A时序图74第4章cache754.1计算机存储系统概述754.1.1存储系统的特性754.1.2存储器分层结构774.2cache存储器原理804.3cache的设计要素834.3.1cache容量834.3.2映射功能834.3.3替换算法914.3.4写策略914.3.5行的大小924.3.6cache数目924.4Pentium 4和PowerPC的cache组织944.4.1Pentium 4的cache组织944.4.2PowerPC的cache组织964.5推荐的参考文献974.6关键词、思考题和习题97附录4A两级存储器的性能特点1014A.1局部性1014A.2两级存储器的操作1044A.3性能104第5章内部存储器1085.1半导体主存储器1085.1.1组织1085.1.2DRAM和SRAM1085.1.3ROM类型1115.1.4芯片逻辑1125.1.5芯片封装1135.1.6模块组织1145.2纠错1165.3高级DRAM组织1215.3.1同步DRAM1215.3.2rambus DRAM1235.3.3带cache的DRAM1255.4推荐的参考文献和Web站点1255.5关键词、思考题和习题125第6章外部存储器1286.1磁盘1286.1.1磁读写机制1286.1.2数据组织和格式化1296.1.3物理特性1316.1.4磁盘性能参数1336.2RAID(磁盘冗余阵列)1366.2.1RAID 0级1376.2.2RAID 1级1416.2.3RAID 2级1426.2.4RAID 3级1426.2.5RAID 4级1436.2.6RAID 5级1436.2.7RAID 6级1446.3光存储器1446.3.1光盘1446.3.2数字视盘1476.4磁带1486.5推荐的参考文献和Web站点1506.6关键词、思考题和习题150第7章输入输出1547.1外部设备1557.1.1键盘/监视器1567.1.2磁盘驱动器1577.2I/O模块1597.2.1模块功能1597.2.2I/O模块结构1617.3编程式I/O1627.3.1概述1627.3.2I/O命令1627.3.3I/O指令1637.4中断驱动式I/O1657.4.1中断处理1657.4.2设计问题1687.4.3Intel 82C59A中断控制器1697.4.4Intel 82C55A可编程外部接口1707.5存储器直接存取(DMA)1727.5.1编程式I/O和中断驱动式I/O的不足1727.5.2DMA功能1727.6I/O通道和处理器1747.6.1I/O功能的演变1747.6.2I/O通道的特性1767.7外部接口:FireWire和InfiniBand1767.7.1接口的类型1767.7.2点对点和多点配置1777.7.3FireWire串行总线1777.7.4InfiniBand1817.8推荐的参考文献和Web站点1847.9关键词、思考题和习题184第8章操作系统支持1888.1操作系统概述1888.1.1操作系统的目标和功能1888.1.2操作系统的类型1908.2调度1978.2.1长调度1988.2.2中调度1988.2.3短调度1988.3存储管理2028.3.1交换2028.3.2分区2038.3.3分页2058.3.4虚拟存储器2078.3.5转换后援缓冲器2098.3.6分段2118.4Pentium Ⅱ与PowerPC存储管理2128.4.1Pentium Ⅱ的存储管理硬件2128.4.2PowerPC存储管理硬件2168.5推荐的参考文献和Web站点2198.6关键词、思考题和习题220第三部分中央处理器第9章计算机算术2279.1算术逻辑单元2279.2整数表示2289.2.1符号幅值表示法2289.2.22的补码表示法2299.2.3不同位长间的转换2319.2.4定点表示法2339.3整数算术2339.3.1取负2339.3.2加法和减法2349.3.3乘法2369.3.4除法2439.4浮点表示2459.4.1原理2459.4.2二进制浮点表示的IEEE标准2489.5浮点算术2509.5.1浮点加法和减法2519.5.2浮点乘法和除法2549.5.3浮点运算的精度问题2559.5.4二进制浮点算术的IEEE标准2569.6推荐的参考文献和Web站点2589.7关键词、思考题和习题259第10章指令集:特征和功能26310.1机器指令特征26310.1.1机器指令要素26310.1.2指令表示26410.1.3指令类型26510.1.4地址数目26610.1.5指令集设计26810.2操作数类型26810.2.1数值26910.2.2字符26910.2.3逻辑数据27010.3Pentium和PowerPC数据类型27010.3.1Pentium数据类型27010.3.2PowerPC数据类型27110.4操作类型27210.4.1数据传送类27410.4.2算术运算类27610.4.3逻辑运算类27610.4.4转换类27810.4.5输入输出类27910.4.6系统控制类27910.4.7控制传递类27910.5Pentium和PowerPC操作类型28410.5.1Pentium操作类型28410.5.2PowerPC操作类型29110.6汇编语言29210.7推荐的参考文献29410.8关键词、思考题和习题294附录10A堆栈29910A.1堆栈实现30010A.2表示式求值301附录10B小数在先和大数在先以及位序30310B.1字节排序30310B.2位排序306第11章指令集:寻址方式和指令格式30811.1寻址方式30811.1.1立即寻址31011.1.2直接寻址31011.1.3间接寻址31011.1.4寄存器寻址31111.1.5寄存器间接寻址31111.1.6偏移寻址31211.1.7堆栈寻址31311.2Pentium和PowerPC寻址方式31411.2.1Pentium寻址方式31411.2.2PowerPC寻址方式31611.3指令格式31811.3.1指令长度31811.3.2位的分配31911.3.3变长指令32211.4Pentium和PowerPC指令格式32511.4.1Pentium指令格式32511.4.2PowerPC指令格式32711.5推荐的参考文献32811.6关键词、思考题和习题329第12章CPU结构和功能33212.1处理器组织33212.2寄存器组织33412.2.1用户可见寄存器33412.2.2控制和状态寄存器33512.2.3微处理器寄存器组织的例子33612.3指令周期33812.3.1间址周期33912.3.2数据流33912.4指令流水34112.4.1流水线策略34112.4.2流水线的性能34512.4.3转移处理34712.4.4Intel 80486的流水线35312.5Pentium处理器35412.5.1寄存器组织35412.5.2MMX寄存器35812.5.3中断处理35812.6PowerPC处理器36112.6.1寄存器组织36112.6.2中断处理36412.7推荐的参考文献36712.8关键词、思考题和习题367第13章精简指令集计算机37013.1指令执行特征37113.1.1操作37213.1.2操作数37313.1.3过程调用37313.1.4结论37413.2大寄存器组方案的使用37413.2.1寄存器窗口37513.2.2全局变量37713.2.3大寄存器组与cache的对比37713.3基于编译器的寄存器优化37913.4精简指令集体系结构38013.4.1CISC的理由38013.4.2精简指令集体系结构特征38213.4.3CISC与RISC特征对比38413.5RISC流水线技术38613.5.1规整指令的流水线技术38613.5.2流水线的优化38713.6MIPS R400038913.6.1指令集38913.6.2指令流水线39213.7SPARC39513.7.1SPARC寄存器组39513.7.2指令集39713.7.3指令格式39913.8RISC与CISC的争论40013.9推荐的参考文献40113.10关键词、思考题和习题401第14章指令级并行性和超标量处理器40514.1概述40514.1.1超标量与超级流水线40614.1.2限制40714.2设计考虑41014.2.1指令级并行性和机器并行性41014.2.2指令发射策略41014.2.3寄存器重命名41314.2.4机器并行性41414.2.5转移预测41514.2.6超标量执行41614.2.7超标量实现41614.3Pentium 441714.3.1由前端到跟踪cache41814.3.2无序执行逻辑42314.3.3整数和浮点执行单元42414.4PowerPC42414.4.1PowerPC 60142414.4.2转移处理42814.4.3PowerPC 62042814.5推荐的参考文献43014.6关键词、思考题和习题431第15章IA64体系结构43515.1推动因素43515.2通常组织43715.3判定、推测和软件流水43815.3.1指令格式43815.3.2汇编语言格式44015.3.3判定执行44115.3.4控制推测44515.3.5数据推测44915.3.6软件流水45015.4IA64指令级体系结构45315.4.1寄存器堆栈45515.4.2当前栈帧标示器和先前功能状态寄存器45615.5Itanium处理器组织45715.6推荐的参考文献和Web站点45815.7关键词、思考题和习题459第四部分控制器第16章控制器操作46416.1微操作46516.1.1指令周期的子周期46516.1.2指令周期46916.2CPU控制47016.2.1功能需求47016.2.2控制信号47116.2.3控制信号举例47216.2.4CPU内部组织47416.2.5Intel 808547516.3硬连线实现47916.3.1控制器输入47916.3.2控制器逻辑48016.4推荐的参考文献48116.5关键词、思考题和习题481第17章微程序式控制48317.1基本概念48317.1.1微指令48317.1.2微程序式控制器48517.1.3Wilkes控制48717.1.4优缺点49117.2微指令排序49117.2.1设计考虑49117.2.2排序技术49117.2.3地址生成49417.2.4LSI11微指令排序49417.3微指令执行49517.3.1微指令分类法49617.3.2微指令编码49817.3.3LSI11微指令执行49917.3.4IBM 3033微指令执行50417.4TI 880050517.4.1微指令格式50517.4.2微顺序器50817.4.3带寄存器的ALU51117.5微程序应用51417.6推荐的参考文献51517.7关键词、思考题和习题515第五部分并行处理的组织第18章并行处理51818.1多处理机组织51918.1.1并行处理机系统类型51918.1.2并行组织52018.2对称多处理机52118.2.1组织52118.2.2多处理机操作系统设计考虑52518.2.3大型机SMP52618.3cache一致性和MESI协议52818.3.1软件解决方案52918.3.2硬件解决方案52918.3.3MESI协议53118.4机群系统53418.4.1机群系统配置53418.4.2操作系统设计问题53618.4.3机群计算机体系结构53718.4.4机群系统与SMP的对比53918.5非均匀存储器存取53918.5.1推动因素54018.5.2组织54018.5.3NUMA的赞成票和反对票54218.6向量计算54218.6.1向量计算方法54318.6.2IBM 3090向量设备54718.7推荐的参考文献55318.8关键词、思考题和习题554附录A计算机组织与体系结构课题559A.1研究性课题559A.2仿真性课题559A.2.1Simple Scalar560A.2.2SMP Cache560A.3阅读/报告类题目560参考文献561

本目录推荐