discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现
我们在进行日志分析的时候,那么日志的数据是杂乱无章的,或则说日志的数据并不是我们都想看到的。所以我们需要对里面的数据进行清洗,说的直白一点就是要过滤里面的字符串。 下面便是我们需要过滤的数据:
183.131.11.98 - - [01/Aug/2014:01:01:05 +0800] "GET /thread-5981-1-1.html HTTP/1.1" 200 18152 "http://www.baidu.com/s?wd=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&pn=30&oq=cocos2dx%203.2%20wp8%E6%94%AF%E6%8C%81&tn=28035039_2_pg&ie=utf-8&rsv_page=1" "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 UBrowser/1.0.349.1252 Safari/537.36"
这里如果对日志不了解或则不了解日志分析,可能会产生问题?为什么过滤这条数据,就能达到清洗的目的。这里所讲的只是核心内容,对于运行mapreduce来处理,可以看后面的文章。我这里重点讲如何把上面的数据,过滤出我们想要的数据。 我们需要什么数据,从about云分析discuz论坛apache日志hadoop大数据项目:概要设计说明书中,我们需要过滤出下面数据:
1.ip地址 2.访问时间 3.url地址 4.用户使用浏览器
过滤分析
1.ip地址获取
上面ip地址还是比较好过滤的,分隔符为- -即可得到我们想要的数据
ipField = line.split("- -")[0].trim();
2.访问时间 访问时间,想获取时间容易,但是想做一个文艺程序员还是得费点功夫。 [01/Aug/2014:01:01:05 +0800] ,对于这个有的采用直接获取01/Aug/2014:01:01:05的这种方式,这种方式没有错,算是一个正常程序员所做的事 情。那么我们该怎么做的文艺优雅一点。这里是直接获取01/Aug/2014:01:01:05 +0800,这里是由相关函数的。
- dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US).parse(time);
我们使用这个函数,将其转换为正常的时间格式。但是我们想要我们中国人能够一眼识别的正常时间。
2014年8月1日 下午07时04分58秒
如果你采用了这种形式20140801070458,这个既不是文艺程序员、也不是正常程序员所做的事情,就只剩下2比程序员这个职称了。 ok,下面我们做的文艺一点。 可是我们怎么才能得到下面时间,一个个进行组合,getYarn()+getMonth......等,完,又步入2比程序员的行列。
- 2014年8月1日 下午07时04分58秒
这里介绍一个简单的方法
- DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,DateFormat.LONG);
- dateField = df1.format(dt);
这样就完美解决这个问题,不需要组合,只需要getDateTimeInstance传递参数即可,更多的时间格式参考Java新api获取年月日时分秒 3.url与浏览器的获取 这里面关键是对转义字符的理解正确,比如如何以双引号作为分隔符,如何以括号为分隔符。 解说完毕直接上代码:
package www.aboutyun.com;
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;
public class test {
public static void StringResolves(String line) throws ParseException {
String ipField, dateField, urlField, browserField;
// 获取ip地址
ipField = line.split("- -")[0].trim();
// 获取时间,并转换格式
int getTimeFirst = line.indexOf("[");
int getTimeLast = line.indexOf("]");
String time = line.substring(getTimeFirst + 1, getTimeLast).trim();
Date dt = null;
DateFormat df1 = DateFormat.getDateTimeInstance(DateFormat.LONG,
DateFormat.LONG);
dt = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss Z", Locale.US)
.parse(time);
dateField = df1.format(dt);
// 获取url
String[] getUrl = line.split(""");
String firtGeturl = getUrl[1].substring(3).trim();
String secondGeturl = getUrl[3].trim();
urlField = firtGeturl + "分隔符" + secondGeturl;
// 获取浏览器
String[] getBrowse = line.split(""");
String strBrowse = getBrowse[5].toString();
String str = "(KHTML, like Gecko)";
int i = strBrowse.indexOf(str);
strBrowse = strBrowse.substring(i);
String strBrowse1[] = strBrowse.split("\/");
strBrowse = strBrowse1[0].toString();
String strBrowse2[] = strBrowse.split("\)");
strBrowse = strBrowse2[1].trim();
System.out.println(ipField);
System.out.println(dateField);
System.out.println(urlField);
System.out.println(strBrowse);
}
public static void main(String[] args) throws ParseException {
// TODO Auto-generated method stub
String browser = "203.100.80.88 - - [01/Aug/2014:19:04:58 +0800] "GET /uc_server/avatar.php?uid=3841&size=small HTTP/1.1" 301 463 "http://www.aboutyun.com/forum.php" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36 SE 2.X MetaSr 1.0";
test.StringResolves(browser );
}
}
运行结果如下:
- 深度学习:能击败欧洲围棋冠军,还能防恶意软件
- Metasploit中的JAVA反向TCP做法的研究
- 商业级别Fortify白盒神器介绍与使用分析
- [WCF安全系列]消息的保护等级[上篇]
- QEMU 1: 使用QEMU创建虚拟机
- [WCF安全系列]绑定、安全模式与客户端凭证类型:NetNamedPipeBinding、NetTcpBinding与NetMsmqBinding
- 操作系统级虚拟化概述
- 让javascript中的异步请求同步起来
- [WCF REST] WebHttpBinding与消息编码
- React 概要
- [WCF REST] UriTemplate、UriTemplateTable与WebHttpDispatchOperationSelector
- [WCF REST] WebServiceHost有何特别之处?
- OSX SIP机制的“那些事”
- [WCF REST] 帮助页面与自动消息格式(JSON/XML)选择
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 【python实现卷积神经网络】卷积层Conv2D实现(带stride、padding)
- reduce学习笔记
- 【python实现卷积神经网络】开始训练
- django实战(五)--增加数据
- 实战django(一)--(你也能看懂的)注册与登录(带前端模板)
- 【python-leetcode23-多路归并】合并k个排序链表
- 实战django(二)--登录实现记住我
- org.apache.ibatis.binding.BindingException: Invalid bound statement (not found): com.gong.mybatis.da
- 【python-leetcode378-二分查找】有序矩阵中的第k小元素
- 使用cookie来记录用户登录次数,为何次数不更新
- (二)golang--windows下vscode的安装以及go环境的配置
- mybatis文件映射之使用#取值时的一些规则
- 【论文笔记】Improved Residual Networks for Image and Video Recognition(ResNet新变体:IResNet)
- SQL语句在MYSQL中的运行过程和各个组件的介绍
- (五)golang--常用的一些玩意