人工智能云平台：原理、设计与应用

定　价：¥149.00

作　者：	孙皓，郑歆慰，张文凯著
出版社：	人民邮电出版社
丛编项：
标　签：	暂缺

购买这本书可以去

京东 (¥147.50)

ISBN：	9787115543455	出版时间：	2020-08-01	包装：	平装
开本：	16开	页数：	329	字数：

内容简介

　　本书以实践为导向，深入浅出，从人工智能技术、机器学习框架和微服务等概念讲起，对主流的人工智能云平台产品进行剖析和比较，对从训练学习到服务封装再到模型发布应用的全过程进行介绍，并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解，以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识，以目前较为主流的开源人工智能集群管理云平台为例，对相关工程案例进行了深入讲解，帮助读者加深对知识点的理解和掌握。本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时，也希望本书能帮助更多人在人工智能时代找到自己的方向和定位。

作者简介

　　孙皓孙皓，博士，主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖，并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇，指导硕士生10余人。郑歆慰郑歆慰，2014年获得中国科学院大学博士学位，现为中国科学技术大学类脑智能技术及应用国家工程实验室特任副研究员，主要研究方向为机器学习系统，发表论文10余篇，是类脑智能开放平台、OpenPAI、启智社区等的活跃贡献者。张文凯张文凯，博士，中国科学院空天信息创新研究院地理与赛博空间信息技术研究部助理研究员，IEEE会员，主要研究方向为遥感图像处理、多模态数据处理以及智能计算平台开发。担任中国图象图形学报、IEEE Geoscience and Remote Sensing Letters、IET Image Processing、IET Intelligent Transport Systems等期刊审稿人。在国内外核心期刊上发表学术论文10余篇，其中SCI期刊收录8篇。

图书目录

第 1章人工智能云平台简介 / 1
1．1人工智能发展　/　3
1．2人工智能云平台　/　4
1．3云计算与人工智能云平台　/　6
1．4智能框架与人工智能云平台　/　8
1．5人工智能云平台的主要环节与基本组成　/　10
1．6小结　/　13
参考文献　/　13
第 2章　人工智能云平台案例概览 /　15
2．1谷歌AI云平台　/　17
2．1．1AI　Hub /　17
2．1．2AI基础组件　/　18
2．1．3AI平台　/　18
2．2微软Azure机器学习平台　/　20
2．2．1Azure机器学习工作室　/　20
2．2．2Azure机器学习服务　/　20
2．3亚马逊　SageMaker平台 /　21
2．3．1Amazon　SageMaker Ground Truth标注工具 /　22
2．3．2Amazon　SageMaker模型训练与服务提供工具 /　22
2．3．3Amazon　SageMaker推理优化与部署工具集 /　23
2．4企业自有智能平台　/　24
2．4．1业务场景闭环　/　25
2．4．2量身设计，灵活性强　/　26
2．5小结　/　26
参考文献　/　26
第3章　共享存储与数据管理 /　27
3．1基本概念　/　30
3．1．1文件系统分类　/　30
3．1．2存储设计目标　/　34
3．2古老而有活力的NFS　/　35
3．2．1NFS版本更迭　/　35
3．2．2NFS架构介绍　/　37
3．2．3NFS常用配置　/　38
3．3活跃于超算领域的Lustre　/　40
3．3．1Lustre架构分析　/　40
3．3．2Lustre与NFS　/　42
3．3．3Lustre发展趋势　/　43
3．4数据集管理　/　43
3．4．1TFRecord　/　43
3．4．2LMDB　/　47
3．4．3RecordIO　/　50
3．5小结　/　51
参考文献　/　51
第4章　资源管理与调度 /　53
4．1概述　/　55
4．1．1工作流　/　55
4．1．2资源的定义　/　56
4．1．3资源隔离　/　56
4．2Docker简介　/　57
4．2．1什么是Docker？　/　57
4．2．2Docker组成　/　58
4．2．3Docker工作流程　/　59
4．2．4NVIDIA　Docker /　60
4．3任务调度系统架构简介　/　60
4．4基于YARN的调度系统实现　/　63
4．4．1系统架构　/　63
4．4．2部署说明　/　64
4．4．3业务流程　/　65
4．4．4GPU支持　/　65
4．5基于Kubernetes的调度系统实现　/　69
4．5．1系统架构　/　70
4．5．2业务流程　/　71
4．5．3GPU支持　/　72
4．6小结　/　75
参考文献　/　75
第5章　运维监控系统 /　77
5．1Prometheus概述　/　79
5．1．1Prometheus的特点和适用场景　/　79
5．1．2Prometheus组成架构　/　80
5．1．3Prometheus核心概念　/　81
5．2数据采集之Exporter　/　82
5．2．1Node　Exporter /　84
5．2．2NVIDIA　GPU Exporter /　88
5．2．3Prometheus的部署　/　90
5．3数据格式与编程——Prometheus查询语言　/　91
5．3．1初识PromQL　/　92
5．3．2PromQL　操作符 /　92
5．3．3PromQL函数　/　96
5．4数据可视化之Grafana　/　98
5．4．1创建Prometheus数据源　/　99
5．4．2创建数据可视化图形　/　99
5．5告警系统之AlertManager　/　99
5．5．1安装和部署　/　100
5．5．2配置Prometheus使之与AlertManager进行通信　/　103
5．5．3在Prometheus中创建告警规则　/　105
5．6小结　/　106
参考文献　/　106
第6章　机器学习框架 /　107
6．1　SciPy /　109
6．1．1什么是SciPy？　/　109
6．1．2SciPy的特点　/　109
6．1．3使用示例　/　110
6．2scikit-learn　/　111
6．2．1什么是scikit-learn？　/　111
6．2．2scikit-learn的六大功能　/　112
6．2．3scikit-learn示例　/　113
6．3Pandas　/　116
6．3．1什么是Pandas？　/　116
6．3．2Pandas的特点　/　116
6．3．3Pandas示例　/　117
6．4Spark　MLlib和Spark ML /　119
6．4．1什么是Spark　MLlib和Spark ML？ /　119
6．4．2Spark使用示例　/　119
6．5　XGBoost /　121
6．5．1什么是XGBoost？　/　121
6．5．2XGBoost的特点　/　121
6．5．3XGBoost功能和示例　/　122
6．6　TensorFlow /　127
6．6．1什么是TensorFlow？　/　127
6．6．2TensorFlow的特点　/　128
6．6．3TensorFlow使用示例　/　128
6．7PyTorch　/　132
6．7．1什么是PyTorch？　/　132
6．7．2PyTorch的特点　/　133
6．7．3PyTorch使用示例——MNIST分类　/　133
6．8其他　/　136
6．8．1Apache　MXNet /　136
6．8．2Caffe　/　136
6．8．3CNTK　/　137
6．8．4Theano　/　138
6．9小结　/　139
参考文献　/　140
第7章　分布式并行训练 /　141
7．1并行训练概述　/　143
7．2并行编程工具　/　144
7．3深度学习中的并行　/　146
7．3．1算法并行优化　/　146
7．3．2网络并行优化　/　148
7．3．3分布式训练优化　/　151
7．4小结　/　167
参考文献　/　167
第8章　自动机器学习 /　169
8．1AutoML概述　/　171
8．2特征工程　/　172
8．3模型选择　/　175
8．4优化算法选择　/　177
8．5神经架构搜索　/　178
8．5．1NAS综述　/　178
8．5．2细分领域的NAS应用　/　180
8．5．3NAS应用示例　/　182
8．6搜索优化和评估　/　187
8．6．1搜索策略　/　187
8．6．2评估策略　/　189
8．7小结　/　190
参考文献　/　190
第9章　模型构建与发布 /　193
9．1模型构建流程　/　195
9．2基于TensorFlow构建方案　/　195
9．2．1神经网络模型训练　/　196
9．2．2神经网络模型保存　/　199
9．2．3使用命令行工具检测　SavedModel /　200
9．2．4使用contrib．predictor提供服务　/　201
9．2．5使用TensorFlow　Serving提供服务 /　202
9．3基于Seldon　Core的模型部署 /　205
9．3．1Seldon　Core安装 /　206
9．3．2Seldon　Core使用示例 /　207
9．4小结　/　209
参考文献　/　210
第 10章　可视化开发环境 /　211
10．1Jupyter　Notebook /　213
10．2PyCharm　/　216
10．3Visual　Studio Code /　218
10．3．1资源管理器　/　219
10．3．2搜索　/　219
10．3．3源代码管理器　/　219
10．3．4调试　/　220
10．3．5扩展插件　/　221
10．3．6管理　/　221
10．3．7VSCode开发Python　/　222
10．4code-server　/　223
10．4．1code-server安装　/　223
10．4．2code-server启动　/　224
10．4．3code-server安装插件　/　224
10．5TensorBoard　/　227
10．6小结　/　230
参考文献　/　230
第 11章　DIGITS实践 /　231
11．1DIGITS配置　/　233
11．1．1DIGITS安装　/　233
11．1．2DIGITS启动　/　234
11．2DIGITS示例　/　235
11．2．1图像分类　/　235
11．2．2语义分割　/　239
11．3DIGITS源码解析　/　245
11．3．1DIGITS功能介绍　/　248
11．3．2类继承关系　/　251
11．4小结　/　258
参考文献　/　259
第 12章　Kubeflow实践 /　261
12．1什么是Kubeflow？　/　263
12．2Kubeflow部署　/　264
12．3JupyterHub　/　268
12．3．1JupyterHub定义　/　268
12．3．2JupyterHub子系统　/　268
12．3．3JupyterHub子系统交互　/　268
12．4Kubeflow-operator　/　270
12．4．1tf-operator　/　270
12．4．2pytorch-operator　/　281
12．5Katib　/　286
12．5．1Katib组成模块　/　286
12．5．2Katib模块超参数优化　/　287
12．5．3Katib实验运行基本流程　/　288
12．5．4Kubeflow　路线图 /　289
12．6小结　/　289
参考文献　/　290
第 13章　OpenPAI实践 /　291
13．1直观感受　/　294
13．1．1部署OpenPAI　/　294
13．1．2提交一个hello-world任务　/　297
13．1．3作业配置与环境变量　/　298
13．2平台架构　/　301
13．2．1服务列表　/　302
13．2．2工作流　/　303
13．2．3资源分配　/　304
13．3集群运维　/　304
13．3．1可视化页面的集群管理　/　304
13．3．2命令行管理维护工具——paictl．py　/　305
13．4OpenPAI代码导读　/　308
13．4．1在YARN中对GPU调度的支持——Hadoop-AI　/　310
13．4．2YARN作业的编排服务——FrameworkLauncher　/　321
13．5小结　/　328
参考文献　/　329