1、kettle介绍
1.1数据仓库
数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建的,对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力,指导业务流程改进,监视时间成本、质量以及控制。
数据仓库是专门用来进行数据分析的,它可以是一个MySQL,也可以是Oracle,也可以将来后面大数据数据库hive,clickhouse等。
1.2数据仓库与数据库区别
数据库:一般用于支撑业务数据的存储
- 网站后台:用户数据、商品数据、订单数据
- 数据仓库:专门为数据数据处理提供数据的
- 业务数据
- 用户行为
- 爬虫数据
- 第三方数据
- 日志数据1.3 ETL
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t )、转换( transform )、加载 ( load )至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起。
1.3.1 ETL总结
功能:实现数据的预处理,数据清洗过程,将原始数据经过ETL处理变成想要的数据,进行下一步的应用
实现
- 抽取:读取需要处理的原始数据
- 转换:将原始数据转换为目标数据
- 过滤:将不需要的数据过滤掉
- 原始数据中有100列
- 实际需要30列
- 过滤掉70列
- 补全:将需要用到的数据补全
- 每一个访问网站或者APP时,会有一个IP地址
- 后台通过IP能获取到我们当前所在的国家、省份、城市
- 转换:原始数据的格式不是我们想要的格式,转换为想要的格式
- 原始数据:22/Aug/2020:12:20:35
- |
- | 转换
- |
- 目标格式:2020-08-22 12:20:35
- 过滤:将不需要的数据过滤掉
- 加载:将处理好的目标数据放入数据仓库中
1.4 Kettle介绍
对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI。
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需·安装
- Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种揖定的格式流出
- Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做
2 windows安装Kettle
2.1 安装JDK
安装JDK
配置JDK环境变量
验证安装的结果
- 在windows命令行执行 java -version2.2 Kettle安装启动
解压安装
- 解压到一个不包含中文的路径中即可
注:kettle也可以到可以到https://sourceforge.net/projects/pentaho/files/下载