品牌型号:lenovo ThinkPad X250
体系:Windows 10
软件版本:
大资料处理流程包含:资料采集、资料预处理、资料入库、资料阐发、资料展现。
1、资料采集观点:今朝行业会有两种诠释:一是资料从无到有的过程(web服务器打印的日记、自定义采集的日记等)叫做资料采集;另一方面也有把议决运用Flume等道具把资料采集到指定位置的这个过程叫做资料采集。
2、资料预处理:经过mapreduce程序对采集到的原始日记资料进行预处理,譬如荡涤,规格收拾整顿,滤除脏资料等,而且梳理成点击流模子资料。
3、资料入库:将预处理以后的资料导入到HIVE堆栈中相应的库和表中。
4、资料阐发:项目的中心内容,即依据需要开辟ETL阐发语句,得出各类统计了局。
5、资料展现:将阐发所得资料进行资料可视化,普通议决图表进行展示。