走进Kettle

Kettle是什么

Kettle是基于java的、免费开源的、可视化的、功能强大的ETL工具。它可以在Window、Linux、Unix上运行,允许你管理来自不同数据库的数据。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成。

ETL是什么

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。

Kettle的结构

Kettle - 图1

Kettle家族四大工具

  • SPOON:允许你通过图形界面来设计ETL转换过程(Transformation)
  • PAN:Pan是一个后台执行的程序,没有图形界面,类似于时间调度器
  • CHEF:任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。
  • KITCHEN:批量使用由Chef设计的任务

    Kettle脚本文件

    Kettle包含两种脚本文件:

  • transformation:完成针对数据的基础转换

  • job则完成整个工作流的控制

    • 在Job下的start模块,有一个定时功能,可以每日,每周等方式进行定时

      参考

      网站

  • Kettle中文网:https://www.kettle.net.cn/

  • kettle的基础概念入门、下载、安装、部署:https://www.kettle.net.cn/2794.html
  • Gitee地址:https://gitee.com/mirrors/Kettle