🌀 技术人生
凡事有交代,件件有着落,事事有回音
Spark2.0新特性

1.更简单

支持标准的SQL和简化的API

Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API,但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询,Spark 2.0可以运行所有的99个TPC-DS的查询,这需要很多的SQL:2003个功能

在编程API方面,我们已经简化了API

统一Scala/Java下的DataFrames 和 Datasets

SparkSession

更简单、更高性能的Accumulator API

基于DataFrame的Machine Learning API 将成为主要的ML API

Machine Learning 管道持久性

R中的分布式算法

2.更快

Spark 2.0将拥有更快的速度,下图是Spark 2.0和Spark 1.6的速度对比图

3.更智能

通过在DataFrames之上构建持久化的应用程序来不断简化数据流,允许我们统一数据流,支持交互和批量查询


最后修改于 2018-10-23

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。