sqoop - Sqoop使用 - 《Hadoop》

1.入门
2.myql<<=>>hdfs
3.其他命令
4.4 sqoop的相关参数
5.原生方式和HCatLog区别
6.注意事项

1.入门

#jar包下载======>注意1.99.7与1.4.7不兼容且功能不完整，因此不适用于生产部署。
wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
#2 完成解压
tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /module/
#3重命名配置文件
mv sqoop-env-template.sh sqoop-env.sh
vim sqoop-env.sh
export HADOOP_COMMON_HOME=/module/hadoop2.6
export HADOOP_MAPRED_HOME=/module/hadoop2.6
export HIVE_HOME=/module/hive1.2
export ZOOKEEPER_HOME=/module/zookeeper3.6
export ZOOCFGDIR=/module/zookeeper3.6
export HBASE_HOME=/module/hbase1.6
#4导入jar包
cp mysql-connector-java-5.1.27-bin.jar /opt/module/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
#5验证
bin/sqoop help
bin/sqoop list-databases --connect jdbc:mysql://hadoop101:3306/ --username root --password root

2.myql<<=>>hdfs

create database company;
create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255));
insert into company.staff(name, sex) values('Thomas', 'Male');
insert into company.staff(name, sex) values('Catalina', 'FeMale');
1.导入hdfs1
bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password root \
--table staff \
--target-dir /sqoop/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"
2.导入hdfs2 must contain '$CONDITIONS' in WHERE clause.
如果query后使用的是双引号，则$CONDITIONS前必须加转移符，防止shell识别为自己的变量。
bin/sqoop import \
--connect jdbc:mysql://hadoop101:3306/company?useSSL=false \
--username root \
--password root \
--target-dir /sqoop/company \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t" \
--query 'select name,sex from staff where 1=1 and $CONDITIONS';
3.导出hdfs到mysql
bin/sqoop export \
--connect jdbc:mysql://hadoop101:3306/company \
--username root \
--password root \
--table staff \
--export-dir /sqoop/company/*  \
-m 1 \
--verbose \
--fields-terminated-by '\t'
4.hcatlog方式
sqoop import \
--connect jdbc:mysql://192.168.52.150:3306/test \
--username root \
--password 123456 \
--query "select * from emp where id>1205 and  \$CONDITIONS" \
--fields-terminated-by '\t' \
--hcatalog-database sqooptohive \
--hcatalog-table emp_hive \
-m 1
参数解读：
        --target-dir (指定目的地)
    --delete-target-dir(目的地目录存在, 先删除)
    -m 2 指定map数

3.其他命令

 查看mysql中所有的数据库
 sqoop list-databases --connect jdbc:mysql://hadoop01:3306 --username root --password 123456
 查看mysql中某个库下所有的表
 sqoop list-tables --connect jdbc:mysql://hadoop01:3306/scm --username root --password 123456
 注意:
    当忘记某个属性的时候, 可以通过使用  --help方式查询

4.4 sqoop的相关参数

参数	说明
—connect	连接关系型数据库的URL
—username	连接数据库的用户名
—password	连接数据库的密码
—driver	JDBC的driver class
—query或—e	将查询结果的数据导入，使用时必须伴随参—target-dir，—hcatalog-table，如果查询中有where条件，则条件后必须加上CONDITIONS关键字。如果使用双引号包含sql，则CONDITIONS前要加上\以完成转义：\$CONDITIONS
—hcatalog-database	指定HCatalog表的数据库名称。如果未指定，default则使用默认数据库名称。提供 —hcatalog-database不带选项—hcatalog-table是错误的。
—hcatalog-table	此选项的参数值为HCatalog表名。该—hcatalog-table选项的存在表示导入或导出作业是使用HCatalog表完成的，并且是HCatalog作业的必需选项。
—create-hcatalog-table	此选项指定在导入数据时是否应自动创建HCatalog表。表名将与转换为小写的数据库表名相同。
—hcatalog-storage-stanza ‘stored as orc tblproperties (“orc.compress”=”SNAPPY”)’ \	建表时追加存储格式到建表语句中，tblproperties修改表的属性，这里设置orc的压缩格式为SNAPPY
-m	指定并行处理的MapReduce任务数量。 -m不为1时，需要用split-by指定分片字段进行并行导入，尽量指定int型。
—split-by id	如果指定-split by, 必须使用$CONDITIONS关键字, 双引号的查询语句还要加\
—hcatalog-partition-keys —hcatalog-partition-values	keys和values必须同时存在，相当于指定静态分区。允许将多个键和值提供为静态分区键。多个选项值之间用，（逗号）分隔。比如： —hcatalog-partition-keys year,month,day —hcatalog-partition-values 1999,12,31
—null-string ‘\N’ —null-non-string ‘\N’	指定mysql数据为空值时用什么符号存储，null-string针对string类型的NULL值处理，—null-non-string针对非string类型的NULL值处理
—hive-drop-import-delims	设置无视字符串中的分割符（hcatalog默认开启）
—fields-terminated-by ‘\t’	设置字段分隔符

5.原生方式和HCatLog区别

方式	支持格式	数据覆盖	字段要求
原生方式	数据格式多包括RCFile, ORCFile, CSV, JSON和SequenceFile等格式	允许	字段名称和个数都可以不相同
HCatalog	仅仅支持普通文本格式	不允许，只能追加	可以不同但是名字必须相同，个数不限制

6.注意事项

整个SQL如果使用 “” 包裹的 $CONDITIONS 关键词前面需要使用\进行转义
当采用SQL的方式来导入数据的时候, SQL的最后面必须添加 $CONDITIONS 关键词