Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结
时间:2022-05-07
本文章向大家介绍Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结,主要内容包括Hadoop离线数据分析平台实战——520项目总结、优化:、扩展:、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
Hadoop离线数据分析平台实战——520项目总结
到这里本次项目也就介绍完了,不过在项目最后简单的介绍一些数字以及项目优化、扩展等情况 通过本次课程的学习,希望同学们对离线数据分析这一块有一个初步的了解, 希望同学们在学习完本课程后,对如何在工作中使用离线数据分析有一个初步的了解。 在本次课程中,我主要目标是放到了如何产生用户浏览数据以及如何解析数据, 对应解析后的数据结果展示,讲解的不是特别的详细, 所以希望同学们在学习之余,自己想想如何能够更好的显示解析后的数据, 最后祝同学们能够有一个好的开始。
实际工作中常见的数字:
如果只有launch和pageview事件,一千万的数据一般文件大小为7G左右。
单台的Nginx+Flume基本可以支持数据的传输操作,
但是最好使用两台机器做负载均衡/容错机制。
如果IP解析采用我们项目中介绍的这种,在集群规模为3+8(3台机器为NN+RM, 8台机器为DN+NM)的情况下,所有的mr和hive程序运行时间在一个小时以内。
优化:
MR程序:
进行hadoop、hbase等参数调优,使用多个reducer等。
Hive程序:
指定使用多个reducer、设置hive执行mr时候的内存参数、调整HQL语句结构等
数据展示:
对应api的产生可以通过添加cache的方式减少查询数据的次数等。
扩展:
数据收集
可以通过Nginx的负载均衡机制动态的根据项目的需要添加Nginx+Flume的数据传输机器,
需要注意的是在采用负载均衡的时候,flume配置中最后在文件产生格式中添加一个编号来分别表示不同的机器产生的日志记录。
数据解析:
利用hadoop的本身优势,可以动态的添加datanode节点,增大数据的执行能力。
数据展示:
可以利用Nginx的负载均衡机制,在nginx服务器之后提供多台tomcat的服务器来提供实际应用。
(和其他的java web程序类似)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 详解Raid级别和知识点
- Centos6系统启动加载流程
- Apache编译后无法正常工作
- 一篇文章彻底搞懂Java虚拟机垃圾回收(GC)机制
- linux下rpm查询软件包依赖和被依赖关系
- 基于ActiveMQ的请求-应答模式
- Maven私服搭建
- Java线程状态详解
- 设计模式~命令模式
- 基于DelayQueue实现的带失效时间的缓存
- 基于AQS实现的简单的Semaphore
- 图解:基于B+树索引结构,MySQL可以这么优化
- Android开发笔记:Retrofit + OkHttp3 + coroutines + LiveData打造一款网络请求框架
- Nginx安装与使用
- 基于Redis实现分布式锁