MySQL - MySQL 大数据导入导出 - 《clown》

（1）导出前关闭日志，避免数据备份过程中频繁记录日志
（2）删除主键，关闭自动增长。在该表中主键其实作用不大，自动增长是需要的（mysql中自动增长的一列一定要为key，所以设置为主键），等待数据转移结束后重新设置回来
（3）删除表中索引。在插入数据时索引的存在会很大程度上影响速度，所以先关闭，转移后重新建立
（4）Mysql系统参数调优，如下：（具体含义后面给出）

innodb_data_file_path = ibdata1:1G:autoextend
innodb_file_per_table = 1
innodb_thread_concurrency = 20
innodb_flush_log_at_trx_commit = 1
innodb_log_file_size = 256M
innodb_log_files_in_group = 3
innodb_max_dirty_pages_pct = 50
innodb_lock_wait_timeout = 120
key_buffer_size=400M
innodb_buffer_pool_size=4G
innodb_additional_mem_pool_size=20M
innodb_log_buffer_size=20M
query_cache_size=40M
read_buffer_size=4M
read_rnd_buffer_size=8M
tmp_table_size=16M
max_allowed_packet = 32M

操作方法：

create table t2 as select * from t1; ```sql CREATE TABLE dn_location3 PARTITION BY RANGE (UNIX_TIMESTAMP(UPLOADTIME)) ( PARTITION p141109 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-09 00:00:00’)), PARTITION p141110 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-10 00:00:00’)), PARTITION p141111 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-11 00:00:00’)), PARTITION p141112 VALUES LESS THAN (UNIX_TIMESTAMP(‘2014-11-12 00:00:00’)) ) as select * from dn_location where uploadtime > ‘2014-08-04’;

create table t2 as select * from dn_location2;

**as创建出来的t2表（新表）缺少t1表（源表）的索引信息，只有表结构相同，没有索引。<br />    此方法效率较高，在前面的实验环境下，42min内将一张表内4600W的数据转到一张新的表中，在create新表时我添加了分区的操作，因此新表成功创建为分区表，这样一步到位的既转移了数据又创建了分区表。此方法平均速度：6570W条/h ，至于该方法其他需要注意的地方，暂时没有去了解。**<br />**使用MySQL的SELECT INTO OUTFILE 、Load data file**<br />**LOAD DATA INFILE语句从一个文本文件中以很高的速度读入一个表中。当用户一前一后地使用SELECT ... INTO OUTFILE 和LOAD DATA INFILE 将数据从一个数据库写到一个文件中，然后再从文件中将它读入数据库中时，两个命令的字段和行处理选项必须匹配。否则，LOAD DATA INFILE 将不能正确地解释文件内容。**<br />**假设用户使用SELECT ... INTO OUTFILE 以逗号分隔字段的方式将数据写入到一个文件中：**
```sql
SELECT * INTO OUTFILE 'data.txt' FIELDS TERMINATED BY ',' FROM table2;

为了将由逗号分隔的文件读回时，正确的语句应该是：

LOAD DATA INFILE 'data.txt' INTO TABLE table2 FIELDS TERMINATED BY ',';

如果用户试图用下面所示的语句读取文件，它将不会工作，因为命令LOAD DATA INFILE 以定位符区分字段值：

LOAD DATA INFILE 'data.txt' INTO TABLE table2 FIELDS TERMINATED BY '\t';

下面是我用来导入导出的命令：

select * into outfile 'ddd.txt' fields terminated by ',' from dn_location;
load data infile 'ddd.txt' into table dn_location2 FIELDS TERMINATED BY ',';

通过该方法导出的数据，是将各字段（只有数据，不导出表结构）数据存在一个文件中，中间以逗号分隔，因为文件中并不包含数据库名或者表名，因此需要在导入导出的时候些明确。该方法在18分钟内导出1.6亿条记录，46min内导入6472W条记录，平均速度：8442W条/h。mysql官方文档也说明了，该方法比一次性插入一条数据性能快20倍。
结论
（1）表数据4600W，建立索引时间10min；表数据1.6亿条，建立索引时间41min，由此可见建立索引的时间与表的数据量有直接关系，其他影响因素比较少；（2）从此处看先插入数据再建索引与先建索引再批量插入数据时间上差距不大，前者稍快一些，开发中应根据实际情况选择。
（3）使用mysqldump ，source

mysqldump -u root -p -q -e -t webgps4 dn_location2 > dn_location2.sql
mysqldump -u root -p -q -e -t --single-transaction webgps4 dn_location2 > dn_location2.sql
source dn_location2.sql

以上是导入导出数据的语句，该方法15分钟导出1.6亿条记录，导出的文件中平均7070条记录拼成一个insert语句，通过source进行批量插入，导入1.6亿条数据耗时将近5小时。平均速度：3200W条/h。后来尝试加上—single-transaction参数，结果影响不大。另外，若在导出时增加-w参数，表示对导出数据进行筛选，那么导入导出的速度基本不变，筛选出的数据量越大，时间越慢而已。对于其中的参数这里进行说明：
–quick，-q 该选项在导出大表时很有用，它强制 mysqldump 从服务器查询取得记录直接输出而不是取得所有记录后将它们缓存到内存中。
—extended-insert, -e 使用具有多个VALUES列的INSERT语法。这样使导出文件更小，并加速导入时的速度。默认为打开状态，使用—skip-extended-insert取消选项。
—single-transaction
该选项在导出数据之前提交一个BEGIN SQL语句，BEGIN 不会阻塞任何应用程序且能保证导出时数据库的一致性状态。它只适用于多版本存储引擎，仅InnoDB。本选项和—lock-tables 选项是互斥的，因为LOCK TABLES 会使任何挂起的事务隐含提交。要想导出大表的话，应结合使用—quick 选项。在本例子中没有起到加快速度的作用 mysqldump -uroot -p —host=localhost —all-databases —single-transaction
-t 仅导出表数据，不导出表结构**

方法二：
一般的数据备份用：mysql路径+bin/mysqldump -u 用户名 -p 密码数据库名 > 导出的文件名
数据还原是： mysql 命令行中 source 文件名。
但是这种方法对大数据量的表进行操作就非常慢。因为他不仅导出了数据还导出了表结构。
在针对大数据量的表时，我们可以用infile和 outfile来操作。
outfile导出数据库数据的用法：
MySQL 大数据导入导出 - 图1
下图我们可以看到6百多万数据35秒就搞定了：
MySQL 大数据导入导出 - 图2

下面我们看看infile的语法：
MySQL 大数据导入导出 - 图3
在infile导入数据的时候，我们还可以做一些优化。我们可以用：

alter table table_name disable keys 关闭普通索引。等数据导入玩，再用：
alter table table_name enable keys 来开启普通索引。这样就不会边导入数据，边整理索引的二叉树儿影响导数据的效率。
如果可以保证数据的正确性，我们可以将表的唯一索引也关闭，之后再开启,不是每条数据就算是唯一的他都要去检测一遍。命令：
set unique_checks=0; #关闭唯一校验
set unique_checks=1;#开启唯一校验
如果是InnoDB存储引擎，我们还可以set auto commit=0;关闭自动提交，来提高效率。InnoDB是按主键的顺序保存的，我们将其主键顺序排列也可以提高效率。