高可用性系统设计

定　价：¥59.00

作　者：	（美）Evan Marcus，（美）Hal Stern著；汪青青，卢祖英译；汪青青译
出版社：	清华大学出版社
丛编项：
标　签：	系统分析与设计

购买这本书可以去

ISBN：	9787302108658	出版时间：	2005-07-01	包装：	平装
开本：	23cm	页数：	426	字数：

内容简介

　　本书介绍的专家级技术是传授大家如何来设计具备最大可用性及可预测的当机时间的系统。考虑到公司的名誉和利益，在出现事故时，将本应24小时服务的站点关机并不是好的选择。另外，低下的应用程序性能也是很令人烦恼的。本书的作者向大家介绍了如何设计可用性最大化的系统。本书包括以下内容：·实施高效的备份-恢复与磁带管理战略；·使用磁盘阵列来避免由不可抗故障导致的当机；·使用诸如存储区域网（SAN）、网络连接存储（NAS）、虚拟化和集群等技术；·当部分系统出现故障时，高效地恢复应用程序；·通过网络将关键数据复制到远程系统。

作者简介

　　EvanMarcus是VERITASSoftware公司的总工程师和数据可用性专家。他从1992年起就参与高可用性系统的设计工作，当时他与其他人共同设计了第一个基于Sun的商业群集软件的关键部分。他在一家华尔街大型金融机构做过一段时间的股票交易厅系统管理员之后，又在VERITASSoftware做了4年的销售工程师，咨询和撰写包括高可用性，集群和数据恢复等许多不同的问题。他为很多杂志和网站写过文章，包括最近的TechTarget．com，他还是很多业界事件的很受尊敬的发言人。自从完成了本书第l版后，他还成为TheResilientEnterprise（VERITAS2002年出版的关于数据恢复的书，这是VERITAS出版的第一部包括业界作者合作的书）的编辑和特约编辑。Evan拥有利哈伊大学（LehighUniversity）计算机科学的学士学位，同时还是拉特斯哥大学（RutgersU：niversitv）的工商管理硕士。HalStern是SunMicrosvstems的副总裁和杰出的工程师。他是SunServices的首席技术官，负责高可靠系统和其

图书目录

第1章介绍1
1.1 为什么需要一本可用性的书1
1.2 问题解决方法2
1.3 不包括的内容3
1.4 我们的任务3
1.5 可用性指数4
1.6 总结4
1.7 本书的组织结构5
1.8 要点6
第2章测量数据7
2.1 测量可用性7
2.1.1 “9”表示法9
2.1.2 定义停机故障11
2.1.3 引起停机故障的原因11
2.1.4 可用性12
2.1.5 平均数14
2.1.6 可接受性15
2.2 故障模式16
2.2.1 硬件16
2.2.2 环境和物理故障17
2.2.3 网络故障18
2.2.4 文件和打印服务器故障18
2.2.5 数据库系统故障19
2.2.6 网页和应用程序服务器故障20
2.2.7 拒绝服务攻击21
2.3 对测量的信心22
2.3.1 可恢复性22
2.3.2 Sigma（σ）和“9”表示法23
2.4 要点24
第3章可用性的价值25
3.1 高可用性的含义25
3.2 停机故障损失26
3.2.1 停机故障直接损失26
3.2.2 停机故障的间接损失27
3.3 可用性的价值30
3.3.1 例子1：双节点群集配置33
3.3.2 例子2：未知的停机损失36
3.4 可用性变化区间37
3.5 可用性指数图39
3.6 停机过程40
3.6.1 停机41
3.6.2 数据丢失42
3.6.3 降级模式43
3.6.4 预定停机44
3.7 要点46
第4章可用性政治策略 47
4.1 开始游说47
4.1.1 从内部着手47
4.1.2 然后走出去48
4.1.3 开始行动50
4.2 你的听众53
4.2.1 获得听众53
4.2.2 了解听众53
4.3 表达信息53
4.3.1 幻灯演示54
4.3.2 报告54
4.4 传递信息之后55
4.5 要点57
第5章 20条关键的高可用性设计原则57
5.1 # 20：切勿贪便宜 58
5.2 # 19：不要想当然59
5.3 #18：消除单点故障60
5.4 #17：执行安全61
5.5 #16：加强服务器的性能62
5.6 #15：留意速度63
5.7 #14：实施更改控制64
5.8 #13：时时备案65
5.9 #12：采用服务级协议65
5.10 #11：超前策划66
5.11 #10：尽量多试验67
5.12 # 9：隔离你的环境68
5.13 # 8：以史为鉴69
5.14 # 7：设计要留有余地70
5.15 # 6：选择成熟的软件70
5.16 # 5：选择成熟可靠的硬件72
5.17 # 4：重新使用配置73
5.18 # 3：利用外部资源74
5.19 # 2：一步一个脚印75
5.20 #1：尽量简单化……76
5.21 要点78
第6章备份与恢复79
6.1 备份的基本规则79
6.2 备份能否真正提供高可用性81
6.3 对需要什么进行备份 81
6.3.1 对备份进行备份82
6.3.2 获得异地备份82
6.4 备份软件83
6.4.1 商业软件还是自主研发 83
6.4.2 商业备份软件实例83
6.4.3 商业备份软件的特性84
6.5 备份性能86
6.5.1 提高备份性能：找出瓶颈86
6.5.2 解决性能问题90
6.6 备份类型93
6.6.1 增量备份93
6.6.2 数据库增量备份95
6.6.3 缩短备份窗口90
6.6.4 热备份90
6.6.5 数据越少，越省时间
（和空间）97
6.6.6 使用更多的硬件99
6.6.7 复杂的软件特征101
6.7 处理备份磁带和数据104
常规备份安全106
6.8 恢复106
恢复所需要的磁盘空间108
6.9 总结108
6.10 要点109
第7章高度可用的数据管理110
7.1 四个基本原理110
7.1.1 磁盘发生故障的可能性111
7.1.2 磁带盘上的数据111
7.1.3 保护数据111
7.1.4 确保数据的可达112
7.2 数据存储和管理的六个独立层次 112
7.3 磁盘硬件与连通性术语113
7.3.1 SCSI113
7.3.2 光纤通道 115
7.3.3 多路径115
7.3.4 多主机116
7.3.5 磁盘阵列116
7.3.6 热交换116
7.3.7 逻辑设备（LUN）和卷117
7.3.8 JBOD（就是一组磁盘）117
7.3.9 热备件117
7.3.10 写入高速缓存117
7.3.11 存储区域网络（SAN）117
7.4 RAID技术119
7.4.1 RAID的级别119
7.4.2 其他种类的RAID126
7.5 磁盘空间和文件系统131
7.5.1 大磁盘还是小磁盘 132
7.5.2 当LUN填满时会出现什么
情况 132
7.5.3 管理磁盘和卷的可用性133
7.5.4 文件系统的恢复134
7.6 要点134
第8章存储区域网络、网络连接存储与存储虚
拟化136
8.1 存储区域网络136
8.1.1 选用SAN的理由138
8.1.2 SAN硬件设备简介140
8.2 网络连接存储141
8.3 SAN与NAS比较142
8.4 存储虚拟化145
8.4.1 选择存储虚拟化的理由145
8.4.2 存储虚拟化的类型146
8.5 要点149
第9章组网150
9.1 网络故障分类151
9.1.1 网络可靠性挑战151
9.1.2 网络故障模式152
9.1.3 物理设备故障153
9.1.4 IP层故障154
9.1.5 拥塞引起的故障155
9.2 构建冗余网络158
9.2.1 虚拟IP地址158
9.2.2 冗余网络连接159
9.2.3 多重网络的配置162
9.2.4 IP路由冗余164
9.2.5 网络恢复模式选择165
9.3 负载平衡和网络重定向167
9.3.1 循环DNS167
9.3.2 网络重定向168
9.4 动态IP地址170
9.5 网络服务可靠性170
9.5.1 网络服务依赖性171
9.5.2 强化核心服务173
9.5.3 拒绝服务攻击174
9.6 要点176
第10章数据中心和本地环境177
10.1 数据中心177
10.1.1 数据中心机架179
10.1.2 平衡安全性和可访问性181
10.1.3 数据中心观光182
10.1.4 异地主机设施183
10.2 电185
UPS185
10.3 线缆铺设187
10.4 冷却及环境问题189
10.5 系统命名惯例190
10.6 要点192
第11章人与程序193
11.1 系统管理与修正193
11.1.1 维护计划与步骤194
11.1.2 系统修正195
11.1.3 备用设备方针197
11.1.4 预防性维护198
11.2 供应商管理198
11.2.1 选择关键的供应商199
11.2.2 与供应商合作201
11.2.3 在系统恢复中供应商的
角色202
11.3 安全性203
11.3.1 数据中心的安全205
11.3.2 病毒与蠕虫205
11.4 文档206
11.4.1 文档的使用者207
11.4.2 文档与安全208
11.4.3 检查文档208
11.5 系统管理员209
11.6 内部扩增211
故障标识213
11.7 要点213
第12章客户端与用户214
12.1 强化企业客户端214
12.1.1 客户端备份215
12.1.2 客户端补给216
12.1.3 瘦客户端217
12.2 容许数据服务故障218
12.2.1 文件服务器客户端恢复218
12.2.2 数据库应用程序恢复（Database Application Recovery）220
12.2.3 Web客户端恢复（Web Client Recovery）221
12.3 要点223
第13章应用程序设计224
13.1 应用程序恢复概览225
13.1.1 应用程序的故障模式225
13.1.2 应用程序恢复技术226
13.1.3 更软性的故障228
13.2 从系统故障中进行应用程序恢复228
13.2.1 虚拟内存耗尽229
13.2.2 I/O 错误230
13.2.3 数据库应用程序的重新
连接230
13.2.4 网路连通性231
13.2.5 重启网络服务232
13.2.6 网络拥塞、重发和超时
设定233
13.3 内部应用程序故障235
13.3.1 内存访问错误235
13.3.2 内存滥用和恢复236
13.3.3 挂起进程237
13.4 开发人员“卫生学”237
13.4.1 返回值检查238
13.4.2 边界条件检查239
13.4.3 基于值的安全240
13.4.4 日志支持241
13.5 进程复制242
13.5.1 冗余服务进程243
13.5.2 进程状态多路广播244
13.5.3 检查点技术245
13.6 不做假设，管理一切246
13.7 要点247
第14章数据和Web服务248
14.1 网络文件系统服务248
14.1.1 检测RFC故障249
14.1.2 NFS服务器的约束250
14.1.3 文件锁定252
14.1.4 失效文件句柄254
14.2 数据库服务器255
14.2.1 管理恢复时间256
14.2.2 破坏之中求生存258
14.2.3 任何（高）速度下的不安
全状态258
14.3 冗余和可用性260
多个实例对比更大的实例261
14.4 基于Web的服务可靠性262
14.4.1 Web服务器集群262
14.4.2 应用服务器264
14.4.3 目录服务器266
14.4.4 Web服务标准267
14.5 要点268
第15章本地群集和故障转移270
15.1 群集技术简介271
15.2 服务器故障和故障转移273
15.3 逻辑性的以应用为中心的思想275
15.4 故障转移的要求276
15.4.1 服务器278
15.4.2 服务器间的差异278
15.4.3 网络280
15.4.4 磁盘286
15.4.5 应用程序289
15.5 大型群集289
15.6 要点290
第16章故障转移管理和难题291
16.1 故障转移管理软件291
16.2 部件监控292
16.2.1 实施检测的人和关于其他部件监测的问题293
16.2.2 当部件检测失败时294
16.3 进行手工故障转移的时机295
16.4 自主开发的故障转移软件还是商业
软件？297
16.5 商业故障转移管理软件298
16.6 当好的故障转移软件出错时299
16.6.1 脑裂综合症299
16.6.2 不受欢迎的故障转移303
16.7 验证和检测304
16.7.1 状态转换图304
16.7.2 测试作品306
16.8 管理故障转移307
16.8.1 系统监测307
16.8.2 控制台307
16.8.3 工具308
16.8.4 时间问题309
16.9 其他群集话题309
16.9.1 复制数据群集309
16.9.2 群集之间的距离311
16.9.3 负载均衡群集和故障
转移311
16.10 要点312
第17章故障转移结构313
17.1 双节点故障转移结构313
17.1.1 “主－从”故障转移313
17.1.2 “主－主”故障转移318
17.1.3 “主－主”还是
“主－从” 319
17.2 服务组故障转移320
17.3 更大型的群集系统结构322
17.3.1 N对1群集系统322
17.3.2 N加1 群集系统323
17.4 群集系统的规模应该有多大？325
17.5 要点356
第18章数据复制327
18.1 复制概述327
18.2 进行复制的原因328
18.3 复制类型328
18.3.1 四类按延迟时间划分的复
制类型328
18.3.2 五种按启动程序划分的
复制类型332
18.4 有关复制的其他思想345
18.4.1 SAN：复制的另一种方式345
18.4.2 多个目的地系统346
18.4.3 远程应用程序故障转移348
18.5 要点348
第19章虚拟机和资源管理349
19.1 分区和域：系统级的VM350
19.2 容器：操作系统级的VM351
19.3 资源管理352
19.4 要点354
第20章灾难恢复计划355
20.1 DR计划的是与非356
20.2 DR计划的3个主要目标356
20.2.1 员工的健康与保护356
20.2.2 企业的存活357
20.2.3 企业的连续性357
20.3 良好的DR计划357
20.4 准备构建DR计划358
20.5 选择DR现场 362
20.5.1 实际位置362
20.5.2 DR现场安全364
20.5.3 停留在DR现场的时间365
20.6 分发DR计划365
20.6.1 DR计划内容365
20.6.2 分发措施366
20.7 计划受众367
20.8 时间线368
20.9 灾难恢复小组任务指派369
20.9.1 指派人员369
20.9.2 管理层的角色369
20.10 DR计划的多与寡370
20.11 共用DR现场371
20.12 装备DR现场372
20.13 DR计划的测试373
20.13.1 高质量演习的特性374
20.13.2 演习计划374
20.13.3 演习之后378
20.14 三种演习类型379
20.14.1 全面演练379
20.14.2 桌上演练379
20.14.3 电话链演练 380
20.15 灾难对人员的影响 380
20.15.1 对灾难的典型反应 380
20.15.2 企业应采取的措施 381
20.16 要点 382
第21章弹性企业383
21.1 纽约期货交易所383
21.1.1 第一次灾难的发生 385
21.1.2 大型交易所决不该是
这样的 386
21.1.3 对千年虫问题的准备 388
21.1.4 9·11事件 390
21.1.5 恢复运行 391
21.1.6 混乱的交易环境 393
21.1.7 灾难恢复现场的改进 395
21.1.8 新数据中心 396
21.1.9 新交易设施 397
21.1.10 未来的灾难恢复计划 397
21.1.11 技术 398
21.1.12 对人的影响 401
21.2 总结 402
第22章未来技术展望403
22.1 iSCSI403
22.2 InfiniBand404
22.3 全部文件系统还原405
22.4 网格计算406
22.5 刀片计算407
22.6 全球存储储存库408
22.7 自主的、基于政策的计算409
22.8 媒介410
22.9 软件质量和Byzantine可靠性411
22.10 业务连续性412
22.11 要点412
第23章别语 413
23.1 我们怎么到达这里 413