大数据协作框架
学习了hadoop和hive之后,就可以对例如日志类型的海量数据进行分析处理,数据存储在hdfs上,用mapreduce或者hive来进行处理,但是你会发现还有一些问题
第一个问题:
数据来源?海量数据如何存储到hdfs上?
现实数据来源有两个方面:
/*RDBMS(oracle mysql DB2…….) —> sqoop (SQL to HADOOP)
/*文件(apache nginx日志数据) —–>Flume (实时抽取数据)
第二个问题:
对数据的分析任务Job,至少都是上百上千,如何调度任务? (什么时候执行,多久执行一次,执行频率)
某一些业务的分析,需要许多Job任务共同完成,它们之间有着相互依赖关系,工作流如何调度?
———–> Oozie
第三个问题:
通过上边的你会发现hadoop的生态框架有这么多,如果每一个框架都打开一个WEB UI页面来进行监控,会很麻烦,这时候就需要一个统一的WEB UI来进行监控
————> Hue
以上的
数据转换工具sqoop
文件收集框架Flume
任务调度框架Oozie
大数据WEB工具Hue 统称为大数据协作框架,当然这些只是现在作用于现实中最广泛的
最后修改于 2018-07-13

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。