一、Sqoop 概述
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了
让开发人员能够更快速的迭代开发,Sqoop独立成为一个 Apache 项目。
将导入或导出命令转换为 MapReduce 程序来实现。翻译出的 MapReduce 中主要是对 inputformat 和outputformat 进行定制。
二、安装配置
- Sqoop 官网:http://sqoop.apache.org/
- Sqoop下载地址:http://www.apache.org/dyn/closer.lua/sqoop/
1、下载、上传并解压
- 将下载的安装包
sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
上传到虚拟机 linux123 中; - 解压缩软件包;
tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
mv sqoop-1.4.7.bin__hadoop-2.6.0/ /opt/lagou/servers/sqoop-1.4.7/
2、增加环境变量,并使其生效
```shell vi /etc/profile
增加以下内容
export SQOOP_HOME=/opt/lagou/servers/sqoop-1.4.7 export PATH=$PATH:$SQOOP_HOME/bin
source /etc/profile
<a name="kHafc"></a>
## 3、创建、修改配置文件
```shell
# 配置文件位置 $SQOOP_HOME/conf;要修改的配置文件为 sqoop-env.sh
cp sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
# 在文件最后增加以下内容
export HADOOP_COMMON_HOME=/opt/lagou/servers/hadoop-2.9.2
export HADOOP_MAPRED_HOME=/opt/lagou/servers/hadoop-2.9.2
export HIVE_HOME=/opt/lagou/servers/hive-2.3.7
4、拷贝JDBC驱动程序
# 拷贝jdbc驱动到sqoop的lib目录下(备注:建立软链接也可以)
ln -s /opt/lagou/servers/hive-2.3.7/lib/mysql-connector-java-5.1.46.jar /opt/lagou/servers/sqoop-1.4.7/lib/
5、拷贝 jar
- 将
$HIVE_HOME/lib
下的hive-common-2.3.7.jar
拷贝到$SQOOP_HOME/lib
目录下。
建立软链接(软链接需要绝对路径)
ln -s /opt/lagou/servers/hive-2.3.7/lib/hive-common-2.3.7.jar /opt/lagou/servers/sqoop-1.4.7/lib/hive-common-2.3.7.jar
- 将 `$HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar` 拷贝到 `$SQOOP_HOME/lib/` 目录下;
- 如果不拷贝,在创建sqoop job时会报:`java.lang.NoClassDefFoundError: org/json/JSONObject`
```shell
cp $HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar $SQOOP_HOME/lib/
6、安装验证
sqoop version
省略了警告 ... ...
20/06/19 10:37:24 INFO sqoop.Sqoop: Running Sqoop version: 1.4.7
Sqoop 1.4.7
git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8
Compiled by maugli on Thu Dec 21 15:59:58 STD 2017
# 测试Sqoop是否能够成功连接数据库
sqoop list-databases --connect jdbc:mysql://linux123:3306/?useSSL=false --username hive
--password 12345678
... ...
information_schema
hivemetadata
mysql
performance_schema
sys