自然语言处理：基于预训练模型的方法（全彩）

定　价：¥118.00

作　者：	车万翔，郭江，崔一鸣著
出版社：	电子工业出版社
丛编项：	人工智能前沿技术丛书
标　签：	暂缺

购买这本书可以去

ISBN：	9787121415128	出版时间：	2021-07-01	包装：	平装
开本：	16开	页数：		字数：

内容简介

　　自然语言处理被誉为“人工智能皇冠上的明珠”。深度学习等技术的引入为自然语言处理技术带来了一场革命，尤其是近年来出现的基于预训练模型的方法，已成为研究自然语言处理的新范式。本书在介绍自然语言处理、深度学习等基本概念的基础上，重点介绍新的基于预训练模型的自然语言处理技术。本书包括基础知识、预训练词向量和预训练模型三大部分：基础知识部分介绍自然语言处理和深度学习的基础知识和基本工具；预训练词向量部分介绍静态词向量和动态词向量的预训练方法及应用；预训练模型部分介绍几种典型的预训练语言模型及应用，以及预训练模型的新进展。除了理论知识，本书还有针对性地结合具体案例提供相应的PyTorch 代码实现，不仅能让读者对理论有更深刻的理解，还能快速地实现自然语言处理模型，达到理论和实践的统一。本书既适合具有一定机器学习基础的高等院校学生、研究机构的研究者，以及希望深入研究自然语言处理算法的计算机工程师阅读，也适合对人工智能、深度学习和自然语言处理感兴趣的学生和希望进入人工智能应用领域的研究者参考。

作者简介

　　车万翔博士，哈尔滨工业大学计算学部长聘教授、博士生导师，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长；中国计算机学会高级会员。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇，其中AAAI 2013年的文章获得了最佳论文提名奖，论文累计被引用4，600余次（Google Scholar数据），H-index值为37。出版教材 2 部，译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台（LTP）已被600余家单位共享，提供的在线“语言云”服务已有用户1万余人，并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测No.1。2020年获黑龙江省青年科技奖；2015、2016连续两年获Google Focused Research Award（谷歌专注研究奖）；2016年获黑龙江省科技进步一等奖（排名第2）；2012年获黑龙江省技术发明奖二等奖（排名第2）；2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖（排名第2）、首届汉王青年创新奖（个人）等多项奖励。2017年，所主讲的MOOC课程《高级语言程序设计（Python）》获国家精品在线开放课程。郭江麻省理工学院计算机科学与人工智能实验室，博士后研究员。毕业于哈尔滨工业大学社会计算与信息检索研究中心，约翰斯·霍普金斯大学联合培养博士，研究方向为自然语言处理与机器学习。在人工智能、自然语言处理领域国际重要会议及期刊（如ACL、EMNLP、AAAI等）发表论文20余篇。是被业界广泛应用的中文语言技术平台LTP的主要研发者之一。2015年，获百度奖学金；2018年，获中文信息学会“优秀博士学位论文”提名奖。崔一鸣科大讯飞北京研究院副院长、资深级主管研究员。毕业于哈尔滨工业大学，获工学学士和硕士学位，并继续攻读博士学位。主要从事阅读理解、预训练模型等自然语言处理相关领域的核心技术研究工作，致力于推动中文机器阅读理解和中文预训练模型的研究与发展。曾多次获得机器翻译、机器阅读理解、自然语言理解评测冠军，其中包括机器阅读理解权威评测SQuAD、自然语言理解权威评测GLUE等。所研制的中文阅读理解及预训练模型开源项目被业界广泛应用，在GitHub累计获得1万以上星标，HuggingFace平台月均调用量达到100万次。发表学术论文30余篇（包括ACL、EMNLP、AAAI等高水平论文），申请发明专利20余项。担任EMNLP 2021和NLPCC 2021领域主席，担任NLP和AI领域顶级国际会议和国际ESI期刊审稿人职务。

图书目录

目录
推荐序/III
推荐语/IV
前言/V
数学符号/IX
第1 章绪论/1
1.1 自然语言处理的概念/2
1.2 自然语言处理的难点/2
1.2.1 抽象性/ 2
1.2.2 组合性/ 2
1.2.3 歧义性/3
1.2.4 进化性/3
1.2.5 非规范性/3
1.2.6 主观性/3
1.2.7 知识性/3
1.2.8 难移植性/4
1.3 自然语言处理任务体系/4
1.3.1 任务层级/4
1.3.2 任务类别/5
1.3.3 研究对象与层次/6
1.4 自然语言处理技术发展历史/7

第2 章自然语言处理基础/11
2.1 文本的表示/12
2.1.1 词的独热表示/13
2.1.2 词的分布式表示/13
2.1.3 词嵌入表示/19
2.1.4 文本的词袋表示 /19
2.2 自然语言处理任务 /20
2.2.1 语言模型/20
2.2.2 自然语言处理基础任务/23
2.2.3 自然语言处理应用任务/31
2.3 基本问题 /35
2.3.1 文本分类问题/35
2.3.2 结构预测问题/ 36
2.3.3 序列到序列问题/38
2.4 评价指标/40
2.5 小结/43

第3 章基础工具集与常用数据集45
3.1 NLTK 工具集/46
3.1.1 常用语料库和词典资源/46
3.1.2 常用自然语言处理工具集 /49
3.2 LTP 工具集/51
3.2.1 中文分词/51
3.2.2 其他中文自然语言处理功能/52
3.3 PyTorch 基础/52
3.3.1 张量的基本概念/53
3.3.2 张量的基本运算/54
3.3.3 自动微分/57
3.3.4 调整张量形状/58
3.3.5 广播机制/ 59
3.3.6 索引与切片/60
3.3.7 降维与升维 / 60
3.4 大规模预训练数据 /61
3.4.1 维基百科数据/62
3.4.2 原始数据的获取/62
3.4.3 语料处理方法/ 62
3.4.4 Common Crawl 数据/66
3.5 更多数据集 /66
3.6 小结 /68

第4 章自然语言处理中的神经网络基础/69
4.1 多层感知器模型/70
4.1.1 感知器/70
4.1.2 线性回归 /71
4.1.3 Logistic 回归/71
4.1.4 Softmax 回归 /72
4.1.5 多层感知器 /74
4.1.6 模型实现 /76
4.2 卷积神经网络/78
4.2.1 模型结构 /78
4.2.2 模型实现 /80
4.3 循环神经网络/83
4.3.1 模型结构/ 83
4.3.2 长短时记忆网络 / 85
4.3.3 模型实现/ 87
4.3.4 基于循环神经网络的序列到序列模型/88
4.4 注意力模型 /89
4.4.1 注意力机制/89
4.4.2 自注意力模型/90
4.4.3 Transformer/ 91
4.4.4 基于Transformer 的序列到序列模型/93
4.4.5 Transformer 模型的优缺点/ 94
4.4.6 模型实现/94
4.5 神经网络模型的训练/96
4.5.1 损失函数/96
4.5.2 梯度下降 /98
4.6 情感分类实战/101
4.6.1 词表映射/101
4.6.2 词向量层/ 102
4.6.3 融入词向量层的多层感知器/103
4.6.4 数据处理/106
4.6.5 多层感知器模型的训练与测试/108
4.6.6 基于卷积神经网络的情感分类 / 109
4.6.7 基于循环神经网络的情感分类/110
4.6.8 基于Transformer 的情感分类/111
4.7 词性标注实战 /113
4.7.1 基于前馈神经网络的词性标注 /114
4.7.2 基于循环神经网络的词性标注 /114
4.7.3 基于Transformer 的词性标注/116
4.8 小结/116

第5 章静态词向量预训练模型/119
5.1 神经网络语言模型 /120
5.1.1 预训练任务/120
5.1.2 模型实现/124
5.2 Word2vec 词向量 /130
5.2.1 概述/ 130
5.2.2 负采样/133
5.2.3 模型实现/134
5.3 GloVe 词向量/140
5.3.1 概述/140
5.3.2 预训练任务/140
5.3.3 参数估计/140
5.3.4 模型实现/141
5.4 评价与应用/143
5.4.1 词义相关性/144
5.4.2 类比性/146
5.4.3 应用/147
5.5 小结/148

第6 章动态词向量预训练模型/151
6.1 词向量——从静态到动态/ 152
6.2 基于语言模型的动态词向量预训练/153
6.2.1 双向语言模型/153
6.2.2 ELMo 词向量/155
6.2.3 模型实现/156
6.2.4 应用与评价/169
6.3 小结/171

第7 章预训练语言模型/173
7.1 概述/174
7.1.1 大数据/174
7.1.2 大模型/175
7.1.3 大算力/175
7.2 GPT /177
7.2.1 无监督预训练/178
7.2.2 有监督下游任务精调/179
7.2.3 适配不同的下游任务/180
7.3 BERT/182
7.3.1 整体结构/182
7.3.2 输入表示/ 183
7.3.3 基本预训练任务/184
7.3.4 更多预训练任务 /190
7.3.5 模型对比/194
7.4 预训练语言模型的应用/194
7.4.1 概述/194
7.4.2 单句文本分类/195
7.4.3 句对文本分类/ 198
7.4.4 阅读理解/201
7.4.5 序列标注/206
7.5 深入理解BERT /211
7.5.1 概述/ 211
7.5.2 自注意力可视化分析 / 212
7.5.3 探针实验/ 213
7.6 小结/215

第8 章预训练语言模型进阶/217
8.1 模型优化 /218
8.1.1 XLNet/218
8.1.2 RoBERTa/223
8.1.3 ALBERT/227
8.1.4 ELECTRA/229
8.1.5 MacBERT/232
8.1.6 模型对比/234
8.2 长文本处理 /234
8.2.1 概述/234
8.2.2 Transformer-XL/235
8.2.3 Reformer/238
8.2.4 Longformer /242
8.2.5 BigBird/243
8.2.6 模型对比/244
8.3 模型蒸馏与压缩 / 244
8.3.1 概述/244
8.3.2 DistilBERT /246
8.3.3 TinyBERT/ 248
8.3.4 MobileBERT /250
8.3.5 TextBrewer/252
8.4 生成模型/ 257
8.4.1 BART / 257
8.4.2 UniLM/260
8.4.3 T5 /263
8.4.4 GPT-3/264
8.4.5 可控文本生成 /265
8.5 小结/267

第9 章多模态融合的预训练模型/269
9.1 多语言融合/ 270
9.1.1 多语言BERT /270
9.1.2 跨语言预训练语言模型 /272
9.1.3 多语言预训练语言模型的应用/273
9.2 多媒体融合/274
9.2.1 VideoBERT /274
9.2.2 VL-BERT / 275
9.2.3 DALL·E/ 275
9.2.4 ALIGN/276
9.3 异构知识融合/276
9.3.1 融入知识的预训练/277
9.3.2 多任务学习 / 282
9.4 更多模态的预训练模型/285
9.5 小结/ 285
参考文献/287
术语表/297