Spark2.0新特性
1.更简单
支持标准的SQL和简化的API
Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API,但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询,Spark 2.0可以运行所有的99个TPC-DS的查询,这需要很多的SQL:2003个功能
在编程API方面,我们已经简化了API
统一Scala/Java下的DataFrames 和 Datasets
SparkSession
更简单、更高性能的Accumulator API
基于DataFrame的Machine Learning API 将成为主要的ML API
Machine Learning 管道持久性
R中的分布式算法
2.更快
Spark 2.0将拥有更快的速度,下图是Spark 2.0和Spark 1.6的速度对比图
3.更智能
通过在DataFrames之上构建持久化的应用程序来不断简化数据流,允许我们统一数据流,支持交互和批量查询
最后修改于 2018-10-23

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。