背景
Kettle作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候,通常采用以下几种方式:使用spoon程序来启动Job,使用crontab或计划任务,自主开发java程序来调用kettle的类库
Kettle
1. Kettle 开源的 ETL 工具
1-1. Kettle 的介绍
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程, 我们经常会遇到各种数据的处理,转换,迁移,所以掌握一种 ETL 工具的使用必不可少。
Kettle 支持图形化的GUI设计界面,然后可以以工作流的形式流转,熟练它可以减少非常多的研发工作量,提高工作效率。
Kettle 允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么。
Kettle 中有两种脚本文件,transformation 和 job.
transformation 完成针对数据的基础转换.
job 则完成整个工作流的控制。
1-2. Kettle 家族产品
Kettle家族目前包括 4 个产品:Spoon、Pan、CHEF、Kitchen。
Spoon 允许你通过图形界面来设计 ETL 转换过程(Transformation)。
Pan 允许你批量运行由 Spoon 设计的 ETL 转换 (例如使用一个时间调度器)。Pan 是一后台执行的程序,没图界面。
Chef 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。
Kitchen 允许你批量使用由 Chef 设计的任务 (例如使用一个时间调度器)。Kitchen 也是后台运行的程序。
安装工具
data-integration
pom
pentaho-kettle
springboot整合kettle
https://blog.csdn.net/xm393392625/article/details/94599548
参考
https://gitee.com/uxue/kettle-scheduler-boot?_from=gitee_search#http://kettle.35youth.cn
https://gitee.com/yaukie/x-smart-kettle-server