社交媒体数据挖掘与分析

定　价：¥79.00

作　者：	[美] 加博尔·萨博（Gabor Szabo）著，李凯，吕天阳译
出版社：	机械工业出版社
丛编项：	数据科学与工程技术丛书
标　签：	暂缺

购买这本书可以去

ISBN：	9787111643685	出版时间：	2020-01-01	包装：	平装
开本：	16开	页数：	219	字数：

内容简介

　　《社交媒体数据挖掘与分析》由工作在大规模社交媒体数据处理一线的研发人员撰写，旨在以更为友好、基础、实用的方式帮助你理解在线社交媒体。《社交媒体数据挖掘与分析》围绕着如何探索和理解社交媒体系统的基本组成部分进行组织，从用户角度深入剖析收集和应用社交媒体数据的机制，并通过建立在真实数据集上的代码及分析案例详细阐述相关数据挖掘方法、技术和工具。《社交媒体数据挖掘与分析》共7章，第1章介绍典型用户在社交媒体服务上的行为及其在不同服务中的普遍相似性；第2章主要讨论创造了社交网络的用户之间的连接；第3章主要探讨时间在社交系统中所扮演的角色，并且介绍帮助你理解其作用的工具；第4章回顾自然语言处理技术；第5章介绍分析大型数据集的挑战；第6章展示如何用机器学习技术预测人们喜欢哪类电影，并对预测结果进行评估；第7章由浅入深地分析全书中用于分析不同问题的通用统计模式，以及如何使用类似的分析技术去理解它们。

作者简介

　　加博尔·萨博（Gabor Szabo），致力于社交网络、自组织在线生态系统、交通运输系统和自动驾驶领域的大规模数据分析和建模问题。此前任职于哈佛医学院、圣母大学和惠普实验室，期间的研究重点是描述在线社区和生物系统中的随机组织网络。在此之后，他建立了分布式算法来理解和预测Twitter中的用户行为。他创建了Lyft拼车网络的资源分配模型，最近领导着特斯拉自动辅助驾驶（ Tesla's Autopilot）项目的一个团队。格尔·波拉特坎（Gungor Polatkan），机器学习专家和工程领导者，参与构建了Linkedln和Twitter的服务于个性化内容的大规模分布式数据管道。最近，他领导着Linkedln的AI后端的设计与实现，并将其推荐引擎从无到有地提升为能够从5亿多用户中学习数十亿个系数的超个性化模型。他在Linkedln部署了早一批深度排名模型，用于Linkedln的垂直搜索，改进了其人才搜索功能。他乐于领导团队、指导工程师，并在产品的快速迭代过程中培育技术严谨和工匠精神的文化。在加入Linkedln之前，他曾在Twitter、普林斯顿大学、谷歌、MERL和加州大学伯克利分校的几个著名的应用研究小组工作。他在ML&AI期刊和会议发表并评审过论文，如UAI、ICML和PAMI。P．奥斯卡·柏金（P.Oscar Boykin），在Stripe致力于机器学习基础设施的建设，建立了预测大规模欺诈行为的系统。在加入Stripe之前，Oscar在Twitter工作了4年多的时间，先是致力于广告的建模和预测，而后投身于数据基础设施系统的建设。在Twitter，Oscar与他人合作开发了许多开源scala库，包括Scalding、Algebird、Summingbird和Chill。在加入Twitter之前，Oscar是佛罗里达大学电子与计算机工程系的助理教授。Oscar在加州大学洛杉矶分校获得物理学博士学位，作为合著者在学术期刊和会议上发表了数十篇论文。安东尼奥斯·查基奥普洛斯（Antonios Chalkiopoulos），一位快速和大型数据分布式系统专家，具有在媒体、物联网、零售和金融行业交付生产级数据管道的经验。Antonios是大数据领域的专著作者、开源社区的贡献者、Landoop LTD的联合创始人和CEO。Landoop LTD为动态数据创建了创新性的、曾获奖励的Lenses平台。该平台保证了流数据的可见、可控，它通过直观的Web接口支持数据发现，并为数据的移动、监控、预警、管理、多重租赁、安全提供了全面的SQL支持，为构建和管理实时数据管道和微服务提供了完整的用户体验。

图书目录

译者序
前言
致谢
作者简介
技术编辑简介
第1章用户：谁参与社交媒体
1．1 测量Wikipedia中用户行为的变化
1．1．1 用户活动的多样性
1．1．2 人类活动中的长尾效应
1．2 随处可见的长尾效应：80/20定律
1．3 Twitter上的在线行为
1．3．1 检索用户的Tweet
1．3．2 对数分区
1．3．3 Twitter上的用户活动
1．4 总结
第2章网络：社交媒体如何运行
2．1 社交网络的类型和属性
2．1．1 用户何时创建连接：显式网络
2．1．2 有向图与无向图
2．1．3 节点和边的属性
2．1．4 加权图
2．1．5 由活动构建图：隐式网络
2．2 网络可视化
2．3 度：赢家通吃
2．3．1 连接计数
2．3．2 用户连接的长尾分布
2．3．3 超越理想网络模型
2．4 捕获相关：三角结构、簇和同配性
2．4．1 局部三角结构和簇
2．4．2 同配性
2．5 总结
第3章时序过程：用户何时使用社交媒体
3．1 传统模型如何描述事件发生的时间
3．2 事件间隔时间
3．2．1 与无记忆过程的对比
3．2．2 自相关
3．2．3 与无记忆过程的偏离
3．2．4 用户活动中的时间周期
3．3 个体行为的爆发
3．4 预测长期指标
3．4．1 发现趋势
3．4．2 发现季节性
3．4．3 利用ARIMA预测时间序列
3．5 总结
第4章内容：社交媒体中有什么
4．1 定义内容：聚焦于文本和非结构数据
4．1．1 从文本生成特征：自然语言处理基础
4．1．2 文本中词条的基本统计
4．2 使用内容特征识别主题
4．2．1 话题的流行度
4．2．2 用户个体兴趣有多么多样化
4．3 从高维文本中抽取低维信息
4．4 总结
……
第5章处理大型数据集
第6章学习、映射和推荐
第7章结论