sqoop 常用命令整理(二)
时间:2022-04-29
本文章向大家介绍sqoop 常用命令整理(二),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
26.Validate 它用来比较源数据和目标数据的数量 它有三个接口 Validator.
它有三个接口
Validator.
Property: validator
Description: Driver for validation,
must implement org.apache.sqoop.validation.Validator
Supported values: The value has to be a fully qualified class name.
Default value: org.apache.sqoop.validation.RowCountValidator
Validation Threshold
Property: validation-threshold
Description: Drives the decision based on the validation meeting the
threshold or not. Must implement
org.apache.sqoop.validation.ValidationThreshold
Supported values: The value has to be a fully qualified class name.
Default value: org.apache.sqoop.validation.AbsoluteValidationThreshold
Validation Failure Handler
Property: validation-failurehandler
Description: Responsible for handling failures, must implement
org.apache.sqoop.validation.ValidationFailureHandler
Supported values: The value has to be a fully qualified class name.
Default value: org.apache.sqoop.validation.LogOnFailureHandler
27.validate例子
$ sqoop import --connect jdbc:mysql://db.foo.com/corp
--table EMPLOYEES --validate
$ sqoop export --connect jdbc:mysql://db.example.com/foo --table bar
--export-dir /results/bar_data --validate
$ sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES
--validate --validator org.apache.sqoop.validation.RowCountValidator
--validation-threshold
org.apache.sqoop.validation.AbsoluteValidationThreshold
--validation-failurehandler
org.apache.sqoop.validation.LogOnFailureHandler
29.sqoop job 保存常用的作业,以便下次快速调用
--create <job-id> 创建一个新的job. --delete <job-id> 删除job --exec <job-id> 执行job --show <job-id> 显示job的参数 --list 列出所有的job
30.例子
#创建job
$ sqoop job --create myjob -- import --connect jdbc:mysql://example.com/db
--table mytable
#列出所有job
$ sqoop job --list
#查看job
$ sqoop job --show myjob
Job: myjob
Tool: import
Options:
----------------------------
direct.import = false
codegen.input.delimiters.record = 0
hdfs.append.dir = false
db.table = mytable
...
#执行job
$ sqoop job --exec myjob
10/08/19 13:08:45 INFO tool.CodeGenTool: Beginning code generation
...
#重写参数
$ sqoop job --exec myjob -- --username someuser -P
Enter password:
...
31.别的常用工具
sqoop-metastore sqoop-merge
#合并两个目录
$ sqoop merge --new-data newer --onto older --target-dir merged
--jar-file datatypes.jar --class-name Foo --merge-key id
sqoop-codegen sqoop-create-hive-table
#在hive中创建一个名叫emps的和employees一样的表
$ sqoop create-hive-table --connect jdbc:mysql://db.example.com/corp
--table employees --hive-table emps
sqoop-eval
#选择10行数据
$ sqoop eval --connect jdbc:mysql://db.example.com/corp
--query "SELECT * FROM employees LIMIT 10"
#往foo表插入一行
$ sqoop eval --connect jdbc:mysql://db.example.com/corp
-e "INSERT INTO foo VALUES(42, 'bar')"
sqoop-list-databases
$ sqoop list-databases --connect jdbc:mysql://database.example.com/
information_schema
employees
sqoop-list-tables
后面是附录,我把前面攒得一些东西放在这里了。
import的主要参数
--connect <jdbc-uri> jdbc连接地址
--connection-manager <class-name> 连接管理者
--driver <class-name> 驱动类
--hadoop-mapred-home <dir> $HADOOP_MAPRED_HOME
--help help信息
-P 从命令行输入密码
--password <password> 密码
--username <username> 账号
--verbose 打印信息
--connection-param-file <filename> 可选参数
Argument Description
--append 添加到hdfs中已经存在的dataset
--as-avrodatafile 导入数据作为avrodata
--as-sequencefile 导入数据位SequenceFiles
--as-textfile 默认导入数据为文本
--boundary-query <statement> 创建splits的边界
--columns <col,col,col…> 选择列
--direct 使用直接导入快速路径
--direct-split-size <n> 在快速模式下每n字节使用一个split
--fetch-size <n> 一次读入的数量
--inline-lob-limit <n> 最大数值 an inline LOB
-m,--num-mappers <n> 通过实行多少个map,默认是4个,某些数据库8 or 16性能不错
-e,--query <statement> 通过查询语句导入
--split-by <column-name> 创建split的列,默认是主键
--table <table-name> 要导入的表名
--target-dir <dir> HDFS 目标路径
--warehouse-dir <dir> HDFS parent for table destination
--where <where clause> where条件
-z,--compress Enable compression
--compression-codec <c> 压缩方式,默认是gzip
--null-string <null-string> 字符列null值
--null-non-string <null-string> 非字符列null值
export主要参数
--direct 快速导入
--export-dir <dir> HDFS到处数据的目录
-m,--num-mappers <n> 都少个map线程
--table <table-name> 导出哪个表
--call <stored-proc-name> 存储过程
--update-key <col-name> 通过哪个字段来判断更新
--update-mode <mode> 插入模式,默认是只更新,可以设置为allowinsert.
--input-null-string <null-string> 字符类型null处理
--input-null-non-string <null-string> 非字符类型null处理
--staging-table <staging-table-name> 临时表
--clear-staging-table 清空临时表
--batch 批量模式
转义字符相关参数。
Argument Description
--enclosed-by <char> 设置字段结束符号
--escaped-by <char> 用哪个字符来转义
--fields-terminated-by <char> 字段之间的分隔符
--lines-terminated-by <char> 行分隔符
--mysql-delimiters 使用mysql的默认分隔符: , lines: n escaped-by: optionally-enclosed-by: '
--optionally-enclosed-by <char> 复制结束符
- 腾讯云 GAME-TECH 沙龙干货回顾:海外网络拓展及质量把控
- 通过扩展让ASP.NET Web API支持W3C的CORS规范
- 腾讯云GAME-TECH沙龙干货回顾:腾讯游戏云全球化实践
- 腾讯云GAME-TECH沙龙干货回顾:猎豹游戏出海经验分享
- 腾讯云GAME-TECH沙龙干货回顾:绿洲全球化案例分享
- 基于云计算的 CV 移动交互应用研究(1):CV交互+云计算
- ARKit 进阶:物理世界
- HLS 视频点播初探
- 周杰伦读心术背后的技术实现
- 盒子端 CSS 动画性能提升研究
- 把照片唱给你听 :腾讯 AI Lab 国际领先技术邀你「趣」体验
- 因为超算云,你将比别人早10年“抵达”未来
- 网页加速特技之 AMP
- 刷屏的背后:原来腾讯字体是CDC和Monotype联手打造的
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Flutter基础widgets教程-Card篇
- Springboot热部署,使用spring-boot-devtools、springloaded两种方式进行热部署
- SpringBoot中jsp里面的静态资源js、css、images访问不到解决办法
- spring boot jsp里面的静态资源访问不到解决办法
- Flutter基础widgets教程-Center篇
- 如何上传项目到GitHub
- ES6编码规范
- Flutter基础widgets教程-Checkbox篇
- linux的相关命令行
- ORM之JPA
- Salesforce Javascript(三) 小结1
- PGSQL计算时间差
- 20201001_kpay支付项目搭建
- PGSQL分组查询报错
- ConcurrentHashMap#概述