操作步骤指引:
新建转换
- 新建转换:
输入要保存的转换名称:
2、分配任务组:
1、勾选defalut,
2、点击下一步
控制台
配置输入源
- 选择表输入
拖入到右侧面板中。
- 双击表输入,在弹框中进行连接配置
**
- 单击新建,配置数据源:选择MySQL—>JDBC
连接名称:随便填写
主机名称:IP或者域名
数据库名称:用户自由指定
端口号:3306
**
- 点击测试
,如果弹出如下弹框:
表示已正确连接到数据源。
- 点击确定后继续下面步骤
点击确定后:
6.1、展开下拉框选择刚刚保存的数据源
6.2、然后点击获取SQL查询语句在弹框中展开表,选择你要输入的表名
- 确定后系统弹出提示框,选择
确定
- 预览数据
- 预览结果
- 退出预览结果,保存表输入
至此,从数据库接入表数据已完成。
提示:下一次从之前的数据源选择表时,不需要再重新新建数据源,直接从下拉列表选择即可。
接下来,进行数据清洗。
数据清洗
字段选择
- 从左侧列表中选择:
转换-->字段选择
,拖入中间画板。
- 连接
表输入-->字段选择
,将鼠标移动到表输入
中心,出现如下手势时表示可以进行连线
按下鼠标滚轮键不动拖动到字段选择
- 双击
字段选择
,编辑规则 注意,有三个Tab: 选择和修改、移除、元数据。
4.1、选择和修改:在空白处,右键鼠标,选择获取字段
获取字段以后,会显示前一个步骤(即,表输入)的所有字段,如下所示:
这里的选择和修改的意思就是选择要保留的字段,删除不需要的字段。
如何删除字段呢?选中要删除的字段,鼠标右键—>删除选择的行。
由于表的字段比较多,但是假如我们只想抽取其中的几个字段。如果使用 选择和修改
,那需要删除很多。
这时我们可以使用 移除
功能。
在使用 移除
功能前,切记把 选择和修改
清空。(操作:右键—>删除全部)。如果不清空,那 移除
是不起作用的。
4.2、 移除
类似 选择和修改
,获取选择的字段,然后删除想要保留的字段。
例如,我想保留visit_date、first_visit_date、saler、customer_company_name这4个字段,就把他们删除掉。那么剩下来的其他字段,就是被 移除
的了。此功能和 选择和修改
恰好是相反的逻辑
- 点击确定后,在工具栏找到👁图标,单击
- 在弹出的框中选择
字段选择
,然后点击快速启动
。
输出如下结果,表明我们刚刚在 字段选择
中进行的配置是正确无误的
接下来,我们对 saler
字段进行清洗。
如上所示,有人名 单军军
,我们希望将它变成 张单军
.用于演示 字符串替换
功能
字符串替换
- 从左侧
转换-字符串替换
拖入右侧画板 - 连接
字段选择
和字符串替换
- 双击
字符串替换,配置属性
- 右键—插入,然后在下拉框中选择 saler 字段
- 搜索:单军军,使用…替换:张单军
- 确定。工具栏👀,选择 字符串替换,快速启动
剪切字符串
目标:customer_company_name字段,只保留前4个字符,比如 南京东邦
转换--剪切字符串
- 连接
字符串替换--剪切字符串
- 配置如下:
- 调试步骤参考前文
增加常量
- 转换—增加常量
- 连接上一步骤
- 参照下图增加一个add_field字段
- 调式结果
字段计算
- 脚本—javascript
- 基于上一个步骤
增加常量
生成的add_field字段,我们对其进行计算 - 写入如下表达式: 乘以2倍再加3
上图箭头指示的computed字段,需要在空白处右键—插入,自行添加
- 调试
附注:Javvascript模块是非常灵活的,不局限于做简单的计算,还能进行更多复杂的操作。 目前系统暂时未将计算模块抽离出来形成一个单独的插件,后期会添加上。
过滤记录
- 流程—过滤记录
- 可以看到,过滤记录插件需要下游有两个输出分支。即:如果满足条件,把记录给A。
如果不满足记录,把记录给B。为了测试这个组件的功能,我们临时添加两个下游组件。
2.1、流程—空操作(什么也不做)
改个容易区分的名称
2.2、连接起来
- 配置
过滤记录
3.1 先配置下游分支,满足条件的输出到A,不满足条件的输出到B
3.2 现在配置条件,点击上图中的步骤2,选择saler
3.3 再点击上图中的步骤3,value
4、调试结果(选择排除张单军结果集)
数据输出
- 左侧:
输出--表输出
:
1.1 选择数据库连接
1.2 浏览-选择目标表(附注:当前组件尚未集成自动建表功能,需提前建立目标表)
1.3 裁剪表
1.4 指定数据库字段
- 数据库字段—获取字段
- 确定
执行任务
执行按钮: 工具栏
启动
- 执行结果:
下图1中所有步骤步骤执行结果都是绿色,表明整个流程是完整无误的
下图2中是执行日志
下图是每个步骤具体的日志信息:包括输入、输出行数、耗时、速度等信息
- 查询目标数据库表t_zdj,得到了期望的结果