大数据原理：复杂信息的准备、共享和分析

定　价：¥79.00

作　者：	[美] 朱尔斯·伯曼（Jules Berman）著；邢春晓译
出版社：	机械工业出版社
丛编项：	数据科学与工程技术丛书
标　签：	暂缺

购买这本书可以去

ISBN：	9787111572169	出版时间：	2017-08-01	包装：	平装
开本：	16开	页数：	202	字数：

内容简介

　　当大数据资源变得越发复杂时，仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节，重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外，书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容，以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特，涉猎广博，尤以医学大数据分析见长，强调基本原理，不关注编程细节和数学公式，适合企业决策者、技术专家以及计算机相关专业的学生阅读。

作者简介

　　Jules J. Berman　本科毕业于麻省理工学院，在获得了该校的两个科学学士学位（数学、地球与行星科学）后，他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了他的博士后研究工作，并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家，在那里他被任命为马里兰大学医学中心和约翰·霍普金斯医学研究机构的主任。1998年，他在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管，在那里他从事大数据项目工作。2006年，Berman博士成为病理信息学协会主席。2011年，他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者之一。如今，Berman博士是一名自由作家，专注于信息科学、计算机程序设计和病理学三个专业领域的书籍写作。

图书目录

译者序
前言
作者简介
第0章　引言1
0.1　大数据的定义2
0.2　大数据VS小数据2
0.3　大数据在哪里4
0.4　大数据最常见的目的是产生小数据5
0.5　机会6
0.6　大数据成为信息宇宙的中心6
第1章　为非结构化数据提供结构8
1.1　背景8
1.2　机器翻译9
1.3　自动编码11
1.4　索引14
1.5　术语提取16
第2章　标识、去标识和重标识19
2.1　背景19
2.2　标识符系统的特征20
2.3　注册唯一对象标识符21
2.4　糟糕的标识方法24
2.5　在标识符中嵌入信息：不推荐25
2.6　单向哈希函数26
2.7　案例：医院登记27
2.8　去标识化28
2.9　数据清洗29
2.10　重标识30
2.11　经验教训31
第3章　本体论和语义学32
3.1　背景32
3.2　分类：最简单的本体32
3.3　本体：有多个父类的类34
3.4　分类模型选择35
3.5　资源描述框架模式简介38
3.6　本体开发的常见陷阱40
第4章　内省42
4.1　背景42
4.2　自我认知42
4.3　可扩展标记语言44
4.4　meaning简介45
4.5　命名空间与有意义的声明集合体46
4.6　资源描述框架三元组47
4.7　映射49
4.8　案例：可信时间戳50
4.9　总结50
第5章　数据集成和软件互操作性52
5.1　背景52
5.2　调查标准委员会53
5.3　标准轨迹53
5.4　规范与标准56
5.5　版本控制58
5.6　合规问题60
5.7　大数据资源接口60
第6章　不变性和永久性62
6.1　背景62
6.2　不变性和标识符63
6.3　数据对象64
6.4　遗留数据65
6.5　数据产生数据67
6.6　跨机构协调标识符67
6.7　零知识协调68
6.8　管理者的负担69
第7章　测量70
7.1　背景70
7.2　计数70
7.3　基因计数72
7.4　处理否定73
7.5　理解控制74
7.6　测量的实践意义75
7.7　强迫症：伟大数据管理员的标志76
第8章　简单有效的大数据技术77
8.1　背景77
8.2　观察数据78
8.3　数据范围85
8.4　分母87
8.5　频率分布89
8.6　均值和标准差92
8.7　估计分析94
8.8　案例：用谷歌Ngram发现数据趋势95
8.9　案例：预测观众的电影偏好97
第9章　分析99
9.1　背景99
9.2　分析任务99
9.3　聚类、分类、推荐和建模100
9.3.1　聚类算法100
9.3.2　分类算法101
9.3.3　推荐算法101
9.3.4　建模算法101
9.4　数据约简103
9.5　数据标准化和调整105
9.6　大数据软件：速度和可扩展性107
9.7　寻找关系而非相似之处108
第10章　大数据分析中的特殊注意事项111
10.1　背景111
10.2　数据搜索理论111
10.3　理论搜索中的数据112
10.4　过度拟合113
10.5　巨大的偏差113
10.6　数据太多116
10.7　数据修复116
10.8　大数据的数据子集：不可加和不传递117
10.9　其他大数据缺陷117
第11章　逐步走进大数据分析120
11.1　背景120
11.2　步骤1：制定一个问题120
11.3　步骤2：资源评价121
11.4　步骤3：重新制定一个问题121
11.5　步骤4：查询输出充分性122
11.6　步骤5：数据描述122
11.7　步骤6：数据约简123
11.8　步骤7：必要时选择算法123
11.9　步骤8：结果评估和结论断言124
11.10　步骤9：结论审查和验证125
第12章　失败127
12.1　背景127
12.2　失败很常见128
12.3　失败的标准128
12.4　复杂性131
12.5　复杂性何时起作用132
12.6　冗余失败的情况132
12.7　保护钱，不保护无害信息133
12.8　失败之后134
12.9　案例：癌症生物医学信息学网格—遥远的桥135
第13章　合法性140
13.1　背景140
13.2　对数据的准确性和合法性负责140
13.3　创建、使用和共享资源的权利141
13.4　因使用标准而招致的版权和专利侵权行为143
13.5　对个人的保护144
13.6　许可问题145
13.7　未经许可的数据148
13.8　好政策是有力保障150
13.9　案例：哈瓦苏派的故事151
第14章　社会问题153
14.1　背景153
14.2　大数据感知153
14.3　数据共享155
14.4　用大数据降低成本和提高生产效率158
14.5　公众的疑虑160
14.6　从自己做起161
14.7　傲慢和夸张162
第15章　未来164
15.1　背景164
15.1.1　大数据计算复杂，需要新一代超级计算机？165
15.1.2　大数据的复杂程度将超出我们完全理解或信任的能力范围？166
15.1.3　我们需要用超级计算中的最新技术训练出一支计算机科学家组成的团队吗？166
15.1.4　大数据会创建出那些目前没有训练程序的新型数据专业人员吗？166
15.1.5　是否有将数据表示方法通过统一的标准规范化，从而支持跨网络大数据资源的数据集成和软件互操作性的可能？169
15.1.6　大数据将向公众开放？169
15.1.7　大数据弊大于利？170
15.1.8　我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗？171
15.1.9　大数据可以回答那些其他办法不能解决的问题吗？171
15.2　后记171
术语表172
参考文献188
索引196