Kettle 添加对应hadoop版本的支持
在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用,从直观感受上,Kettle更容易使用和上手,资料更多,界面更友好。。。 优点很多,这里不一一列举了,关键是它对hadoop的支持我觉得是很全面的。
但是这里面有一个问题出现了,它不支持我现在用的版本,我用的是Hortonworks的HDP1.3,好吧,经过不懈的努力,终于被我搜索到了,哈哈,原来它可以支持的,并且官方已经提供了相应的包提供使用,只是不太好找罢了!下面把更新的过程和大家分享一下。
先提供文中所需内容的下载地址:
1.插件升级包
2.hdp1.3的支持包
https://pentaho.app.box.com/s/0wqy2qty3szv7j3qt2za
我使用的是4.4版本的kettle,大数据插件升级到了1.3.3.1了,所以要更新一下
1.删除plugins下的pentaho-big-data-plugin
2.删除libext/JDBC/pentaho-hadoop-hive-jdbc-shim-1.3.0.jar
3.把pentaho-big-data-shimtastic-1.3.3.1.zip解压到plugins目录下,可以删掉pentaho-big-data-pluginhadoop-configurations 中不要的版本
4. 复制pentaho-hadoop-hive-jdbc-shim-1.3.3.jar 到libext/JDBC下
5.解压pentaho-instaview-templates-shimtastic-1.3.3.zip 到这个目录下,实际上没有这个目录,自己创建一下吧
plugins/spoon/agile-bi/platform/pentaho-solutions/system/instaview/templates/Big Data
更新完插件之后,我们要添加hdp1.3的支持,使用CDH4的童鞋比较幸福,不需要下载这个包,因为插件默认就带有cdh42的版本,支持最新的4.2-4.3
1.解压pentaho-hadoop-shims-hdp13-package-1.3.4.zip放到 pluginspentaho-big-data-pluginhadoop-configurations下面
2.编辑plugins/pentaho-big-data-plugin/plugin.properties文件,设置active.hadoop.configuration为该目录的名称
初始值是active.hadoop.configuration=hadoop-20,我的目录名称为hdp13,所以修改为active.hadoop.configuratio=hdp13
经过测试,目前Hadoop Copy Files和Oozie Job Executor能正常使用,Hadoop Job Executor不能使用,并且只支持旧的mapred的api,不支持最新的mapreduce的api,它自带的demo也运行不起来,报错了。
详细报错如下:
Error executing class org.pentaho.hadoop.sample.wordcount.WordCount.
java.lang.RuntimeException: java.lang.reflect.InvocationTargetException
at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:377)
at java.lang.Thread.run(Thread.java:722)
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor.executeMainMethod(JobEntryHadoopJobExecutor.java:660)
at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:360)
... 1 more
Caused by: java.lang.RuntimeException: Error in configuring object
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
at org.apache.hadoop.mapred.JobConf.getInputFormat(JobConf.java:596)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:1081)
at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1073)
at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)
at org.pentaho.hadoop.sample.wordcount.WordCount.main(WordCount.java:79)
... 7 more
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)
... 22 more
Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:116)
at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:156)
at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:38)
... 27 more
Caused by: java.lang.ClassNotFoundException: com.hadoop.compression.lzo.LzoCodec
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:423)
at java.lang.ClassLoader.loadClass(ClassLoader.java:356)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:264)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:810)
at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:109)
... 29 more
这个问题可能是运行旧的mapred的api导致的,kettle自身的大数据插件上本身就支持hadoop-0.20版本以及CHD4(也是基于0.20版本的),可能是为了兼容的问题,运行hdp的程序的时候也是使用的旧的api,然后就引发了这个错误,这个错误也是报得莫名其妙,源码里面里面都没有使用压缩,我的集群本身也是配置了lzo的,例子运行的时候都能看到加载lzo的类库成功的提示信息。。。 我在hadoop里面运行新版的wordcount例子也是没问题,但是在kettle上就不行,看来只能走改源码的方法了,正好oozie的插件也有不尽如人意的地方,顺便把oozie的插件也修改一下,加上重新启动流程的功能。
不过比较安慰的是Hadoop Copy Files和Oozie Job Executor都可以用,MapReduce我可以配置到oozie里面执行,不要它那个破玩意儿了,太让人闹心了。
如果有用CDH4的童鞋,帮忙试一下你们的能不能用,如果有知道怎么解决这个问题的更好,感激涕零!
最后发一下原始的地址,E文好的童鞋可以自己去看看,找到适合自己的版本!
http://wiki.pentaho.com/display/BAD/4.4+Configuring+Pentaho+for+your+Hadoop+Distro+and+Version
- Vijos P1131 最小公倍数和最大公约数问题【暴力】
- Vjios P1736 铺地毯【暴力,思维】
- Vijos P1116 一元三次方程求解【多解,暴力,二分】
- Python Selenium设计模式-POM
- [快学Python3]HTTP处理 - urllib模块
- Vijos P1786 质因数分解【暴力】
- 模仿百度新闻列表底部的“加载更多”
- Vijos P1035 贪婪的送礼者【模拟】
- Vijos P1114 FBI树【DFS模拟,二叉树入门】
- Vijos P1448 校门外的树【多解,线段树,树状数组,括号序列法+暴力优化】
- 撞库扫号防范
- 分享一个 HTTPS A+ 的 nginx 配置
- Vijos P1785 同学排序【模拟】
- Vijos P1784 数字统计【模拟】
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 面经手册 · 第7篇《ArrayList也这么多知识?一个指定位置插入就把谢飞机面晕了!》
- JsonPath实践(六)
- 自定义Processor组件
- Android开发第三讲,布局管理器
- Android 开发第四讲 TextView的基本使用
- Android 开发第五讲 学习Button了解Button属性
- Android开发第六讲EditText 编辑框
- Android 开发第七讲 RadioButton (单选按钮)
- linux内核写时复制机制源代码解读
- akka-grpc - 应用案例
- Python从入门到大师教程 | 二、搭建Jupyter Notebook环境
- 收益3583万?我是如何快速统计「李子柒」YouTube频道视频累计播放量并计算收益的
- mysql优化篇:where中的like和=的性能分析
- 557. 反转字符串中的单词 III
- 剑指 Offer 03. 数组中重复的数字