1、kettle介绍

1.1数据仓库

数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建的,对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力,指导业务流程改进,监视时间成本、质量以及控制。
image.png
数据仓库是专门用来进行数据分析的,它可以是一个MySQL,也可以是Oracle,也可以将来后面大数据数据库hive,clickhouse等。

1.2数据仓库与数据库区别

  • 数据库:一般用于支撑业务数据的存储
    - 网站后台:用户数据、商品数据、订单数据
    - 数据仓库:专门为数据数据处理提供数据的
    - 业务数据
    - 用户行为
    - 爬虫数据
    - 第三方数据
    - 日志数据

    1.3 ETL

    ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t )、转换( transform )、加载 ( load )至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起。
    image.png

    1.3.1 ETL总结

  • 功能:实现数据的预处理,数据清洗过程,将原始数据经过ETL处理变成想要的数据,进行下一步的应用

  • 实现

    • 抽取:读取需要处理的原始数据
    • 转换:将原始数据转换为目标数据
      • 过滤:将不需要的数据过滤掉
        • 原始数据中有100列
        • 实际需要30列
        • 过滤掉70列
      • 补全:将需要用到的数据补全
        • 每一个访问网站或者APP时,会有一个IP地址
        • 后台通过IP能获取到我们当前所在的国家、省份、城市
      • 转换:原始数据的格式不是我们想要的格式,转换为想要的格式
        • 原始数据:22/Aug/2020:12:20:35
        • |
        • | 转换
        • |
        • 目标格式:2020-08-22 12:20:35
    • 加载:将处理好的目标数据放入数据仓库中

      1.4 Kettle介绍

      对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI。
  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需·安装

  • Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种揖定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

    2 windows安装Kettle

    2.1 安装JDK

    安装JDK
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    配置JDK环境变量
    image.png
    image.png
    image.png
    image.png
    image.png
    image.png
    验证安装的结果
    - 在windows命令行执行 java -version
    image.png

    2.2 Kettle安装启动

    解压安装
    - 解压到一个不包含中文的路径中即可
    image.png
    image.png
    image.png
    注:kettle也可以到可以到https://sourceforge.net/projects/pentaho/files/下载