资料简介:
在人工智能时代,不论是否从事大数据开发,掌握大数据的原理和架构早已成为每个工程师的推荐技能。本书结合作者多年大数据开发、应用的经验,深入浅出地阐述大数据的完整知识体系,帮助读者从不同视角找到大数据方向
资料目录:
1? 大数据的前世今生与应用场景 1
大数据的前世今生:大数据简史与大数据生态体系概述 1
从搜索引擎到人工智能:大数据应用发展史 6
大数据应用的搜索引擎时代 6
大数据应用的数据仓库时代 7
大数据应用的数据挖掘时代 7
大数据应用的机器学 8
数据驱动一切:大数据全领域应用场景分析 10
大数据在医疗健康领域的应用 10
大数据在社交媒体领域的应用 12
大数据在金融领域的应用 13
大数据在新零售领域的应用 13
大数据在交通领域的应用 13
2? Hadoop大数据原理与架构 15
移动计算比移动数据更划算 16
从RAID看垂直伸缩到水ping伸缩的演化 19
新技术层出不穷,HDFS依然是存储的王者 23
为什么说MapReduce既是编程模型又是计算框架 29
MapReduce如何让数据完成一次旅行 33
MapReduce作业启动和运行机制 34
MapReduce数据合并与连接机制 37
为什么把Yarn称为资源调度框架 39
程序员应该如何学好大数据技术 44
3? 大数据生态体系主要产品原理与架构 47
Hive是如何让MapReduce实现SQL作的 47
用MapReduce实现SQL数据分析的原理 48
Hive的架构 49
Hive如何实现join作 51
人们并没有觉得MapReduce速度慢,直到Spark出现 53
同样的本质,为何Spark可以更高效 57
Spark的计算阶段 57
Spark的作业管理 61
Spark的执行过程 62
BigTable的开源实现:HBase 63
HBase可伸缩架构 64
HBase可扩展数据模型 65
HBase的高性能存储 66
流式计算的代表:Storm、Spark Streaming、Flink 68
Storm 68
Spark Streaming 70
Flink 71
ZooKeeper是如何保证数据一致性的 74
分布式一致性原理 75
Paos算法与ZooKeeper架构 76
大数据技术应用场景分析 80
4? 大数据开发实践 82
如何自己开发一个大数据SQL引擎 83
Panthera架构 83
Panthera的SQL语法转换 84
比如这条SQL 85
Panthera程序设计 85
Spark的性能优化案例分析 89
Apache开源社区的组织和参与方式 90
软件性能优化 91
大数据开发的性能优化 91
Spark性能优化 92
案例1:Spark任务文件初始化调优 95
案例2:Spark任务调度优化 98
案例3:Spark应用配置优化 102
案例4:作系统配置优化 102
案例5:硬件优化 103
大数据基准测试可以带来什么好处 105
大数据基准测试的应用 105
大数据基准测试工具HiBench 107
从大数据性能测试工具Dew看如何快速开发大数据系统 109
Dew设计与开发 110
Akka的原理与应用 112
大数据开发实践的启示 115
5? 大数据ping台与系统集成 117
大数据ping台 = 互联网产品 + 大数据产品 117
数据采集 119
数据处理 119
数据输出与展示 119
大数据任务调度 120
大数据ping台Lamda架构 120
数据在大数据ping台中的流转 121
大数据从哪里来 123
从数据库导入 123
从日志文件导入 124
前端埋点采集 126
爬虫系统 128
数据的熵 128
大厂如何搭建大数据ping台 129
淘宝大数据ping台 129
美团大数据ping台 130
滴滴大数据ping台 131
学架构就是学架构模式 133
盘点可供中小企业参考的商业大数据ping台 134
大数据解决方案提供商 134
大数据云计算服务商 136
大数据SaaS服务商 138
大数据开放ping台 138
当大数据遇上物联网 139
物联网应用场景分析 139
物联网ping台架构 140
大数据技术在物联网中的应用 141
6? 大数据分析与运营 144
老板想要监控什么运营指标 144
互联网运营的常用数据指标 145
数据可视化图表与数据监控 147
一个用户新增下降的数据分析案例 150
数据分析案例 151
数据分析方法 154
AB测试与灰度发布必知必会 156
A/B测试的过程 157
A/B测试的系统架构 158
灰度发布 159
如何利用大数据成为“增长黑客” 160
Hotmail的增长黑客故事 161
AARRR用户增长模型 161
利用大数据增长用户数量 163
为什么说数据驱动运营 164
7? 大数据算法与机器学习 168
如何对数据进行分类和预测 168
k近邻分类算法 169
数据的距离 170
文本的特征值 171
贝叶斯分类 172
如何发掘数据的关系 174
搜索排序 174
关联分析 177
聚类 179
如何预测用户的喜好 181
基于人口统计的# 182
基于商品属性的# 183
基于用户的协同过滤# 184
基于商品的协同过滤# 185
机器学习的数学原理是什么 186
样本 187
模型 187
算法 188
为什么学机器学习要学数学 189
从感知机到神经网络 190
感知机 191
神经网络 192