
【前提:菜鸟学习的记录过程,如果有不足之处,还请各位大佬大神们指教(感谢)】
一、spark
快速、分布式、可扩展、容错的集群计算
1.1.spark特点:
- 快速
- 易用性
- 通用性
- 随处运行
- 代码简洁
- spark是基于内存计算的大数据分布式计算
1.2 spark 核心模块
1.3 spark 模式
-
单机模式 -local
-
集群模式 -standlone
-
yarn 模式
spark的端口:端口:7077 master
1.4 yarn 模式
**由yarn来运行模式**
工作步