操作步骤指引:

新建转换

  1. 新建转换:

image.png

输入要保存的转换名称:
image.png

2、分配任务组:
1、勾选defalut,
2、点击下一步
image.png

控制台

配置输入源

  1. 选择表输入

image.png

拖入到右侧面板中。
image.png

  1. 双击表输入,在弹框中进行连接配置

image.png
**

  1. 单击新建,配置数据源:选择MySQL—>JDBC

连接名称:随便填写
主机名称:IP或者域名
数据库名称:用户自由指定
端口号:3306
image.png
**

  1. 点击测试image.png,如果弹出如下弹框:

image.png
表示已正确连接到数据源。

  1. 点击确定后继续下面步骤

image.png

  1. 点击确定后:

    6.1、展开下拉框选择刚刚保存的数据源
    6.2、然后点击获取SQL查询语句
    image.png

  2. 在弹框中展开表,选择你要输入的表名

image.png

  1. 确定后系统弹出提示框,选择 确定

image.png

  1. 预览数据

image.png

  1. 预览结果

image.png

  1. 退出预览结果,保存表输入

image.png

至此,从数据库接入表数据已完成。

提示:下一次从之前的数据源选择表时,不需要再重新新建数据源,直接从下拉列表选择即可。

接下来,进行数据清洗。

数据清洗

字段选择

  1. 从左侧列表中选择: 转换-->字段选择 ,拖入中间画板。

image.png
image.png

  1. 连接 表输入-->字段选择 ,将鼠标移动到 表输入 中心,出现如下手势时表示可以进行连线

2891586595729_.pic_hd.jpg

按下
鼠标滚轮键不动拖动到字段选择
image.png

  1. 双击 字段选择 ,编辑规则
  2. 注意,有三个Tab: 选择和修改、移除、元数据。

    4.1、选择和修改:在空白处,右键鼠标,选择获取字段
    image.png

获取字段以后,会显示前一个步骤(即,表输入)的所有字段,如下所示:
image.png

这里的选择和修改的意思就是选择要保留的字段,删除不需要的字段。

如何删除字段呢?选中要删除的字段,鼠标右键—>删除选择的行。
image.png

由于表的字段比较多,但是假如我们只想抽取其中的几个字段。如果使用 选择和修改 ,那需要删除很多。
这时我们可以使用 移除 功能。

在使用 移除 功能前,切记把 选择和修改 清空。(操作:右键—>删除全部)。如果不清空,那 移除 是不起作用的。

4.2、 移除
类似 选择和修改 ,获取选择的字段,然后删除想要保留的字段。
image.png
例如,我想保留visit_date、first_visit_date、saler、customer_company_name这4个字段,就把他们删除掉。那么剩下来的其他字段,就是被 移除 的了。此功能和 选择和修改 恰好是相反的逻辑

  1. 点击确定后,在工具栏找到👁图标,单击

image.png

  1. 在弹出的框中选择 字段选择 ,然后点击 快速启动

image.png

输出如下结果,表明我们刚刚在 字段选择 中进行的配置是正确无误的
image.png

接下来,我们对 saler 字段进行清洗。

如上所示,有人名 单军军 ,我们希望将它变成 张单军 .用于演示 字符串替换 功能

字符串替换

  1. 从左侧 转换-字符串替换 拖入右侧画板
  2. 连接 字段选择字符串替换

image.png

  1. 双击字符串替换,配置属性
  2. 右键—插入,然后在下拉框中选择 saler 字段

image.pngimage.png

  1. 搜索:单军军,使用…替换:张单军

image.png

  1. 确定。工具栏👀,选择 字符串替换,快速启动

image.png
image.png

剪切字符串

目标:customer_company_name字段,只保留前4个字符,比如 南京东邦

  1. 转换--剪切字符串
  2. 连接 字符串替换--剪切字符串
  3. 配置如下:

image.png

  1. 调试步骤参考前文

image.png

增加常量

  1. 转换—增加常量
  2. 连接上一步骤
  3. 参照下图增加一个add_field字段

image.png

  1. 调式结果

image.png

字段计算

  1. 脚本—javascript

image.png

  1. 基于上一个步骤 增加常量 生成的add_field字段,我们对其进行计算
  2. 写入如下表达式: 乘以2倍再加3

image.png

上图箭头指示的computed字段,需要在空白处右键—插入,自行添加

  1. 调试

image.png

附注:Javvascript模块是非常灵活的,不局限于做简单的计算,还能进行更多复杂的操作。 目前系统暂时未将计算模块抽离出来形成一个单独的插件,后期会添加上。

过滤记录

  1. 流程—过滤记录

image.png

  1. 可以看到,过滤记录插件需要下游有两个输出分支。即:如果满足条件,把记录给A。

如果不满足记录,把记录给B。为了测试这个组件的功能,我们临时添加两个下游组件。
2.1、流程—空操作(什么也不做)
image.png
改个容易区分的名称

2.2、连接起来
image.png

  1. 配置 过滤记录

image.png

3.1 先配置下游分支,满足条件的输出到A,不满足条件的输出到B
3.2 现在配置条件,点击上图中的步骤2,选择saler
image.png
3.3 再点击上图中的步骤3,value
image.png

4、调试结果(选择排除张单军结果集)
image.png

数据输出

  1. 左侧: 输出--表输出 :

1.1 选择数据库连接
1.2 浏览-选择目标表(附注:当前组件尚未集成自动建表功能,需提前建立目标表)
1.3 裁剪表
1.4 指定数据库字段
image.png

  1. 数据库字段—获取字段

image.png

  1. 确定

执行任务

执行按钮: 工具栏
image.png

启动
image.png

  1. 执行结果:

下图1中所有步骤步骤执行结果都是绿色,表明整个流程是完整无误的

下图2中是执行日志
image.png

下图是每个步骤具体的日志信息:包括输入、输出行数、耗时、速度等信息
image.png

  1. 查询目标数据库表t_zdj,得到了期望的结果

image.png