🌀 技术人生
凡事有交代,件件有着落,事事有回音
大数据协作框架

学习了hadoop和hive之后,就可以对例如日志类型的海量数据进行分析处理,数据存储在hdfs上,用mapreduce或者hive来进行处理,但是你会发现还有一些问题

第一个问题:

数据来源?海量数据如何存储到hdfs上?

现实数据来源有两个方面:

/*RDBMS(oracle mysql DB2…….) —> sqoop (SQL to HADOOP)

/*文件(apache nginx日志数据) —–>Flume (实时抽取数据)

第二个问题:

对数据的分析任务Job,至少都是上百上千,如何调度任务? (什么时候执行,多久执行一次,执行频率)

某一些业务的分析,需要许多Job任务共同完成,它们之间有着相互依赖关系,工作流如何调度?

———–> Oozie

第三个问题:

通过上边的你会发现hadoop的生态框架有这么多,如果每一个框架都打开一个WEB UI页面来进行监控,会很麻烦,这时候就需要一个统一的WEB UI来进行监控

————> Hue

以上的

数据转换工具sqoop

文件收集框架Flume

任务调度框架Oozie

大数据WEB工具Hue 统称为大数据协作框架,当然这些只是现在作用于现实中最广泛的


最后修改于 2018-07-13

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。