功能入口

image.png

填写基本信息

基本信息中完成任务名称、负责人、任务类型、引用参数组、描述的填写。

基本信息 说明
任务名称 必填项,中英文开头,支持连字符(-)或下划线(_),长度不超过128个字符
负责人 默认为创建任务的用户,可选择本项目下任一用户为任务负责人
任务类型 必填项,选项为向导模式和SQL模式类型。SQL模式类型支持编写SQL语言读取数据源数据
引用参数组 引用参数组后,当前任务可使用参数组内参数
描述 输入同步任务描述,最长不超过128个字符

说明:
1、离线同步任务引用多个参数组内相同参数项时,系统取排在前面的参数组的参数值;
2、离线同步任务和离线开发任务引用的参数组内有相同的参数项时,取离线同步任务的参数组的参数值;
3、参数组可在“离线开发 - 公共资源”中进行查看和配置;
4、通过ndi.param-set.transfer-first 参数可以调整离线同步任务和离线开发任务的参数优先级(默认值为false:即离线同步任务的参数优先级低于离线开发任务的参数优先级)。

配置数据来源与去向

完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。
image.png

数据来源

基本信息 说明
数据源 必填项,选择数据源类型及数据源名称
查找方式 必填项,选项为库表选择正则匹配,默认为库表选择:
库表选择:支持搜索或直接选择数据库表
正则匹配:通过正则表达式来匹配数据表
特殊字符替换 选择是否开启及替换内容
并发读取 选择是否开启并发读取。读取的数据将会根据切分键,按照并发度切分成指定的份数
流量控制 必填项。默认为不限速

完成数据来源的配置后,可以在右侧配置数据去向的数据源,以及需要写入的表信息等。

数据去向

此处以Hive为例:

基本信息 说明
数据源 必填项,选择数据源类型及数据源名称
库表选择 必填项,选择数据库及表
写入规则 写入规则默认为Insert overwrite,说明如下:
Insert overwrite:覆盖数据,即先删除原表的数据,再执行写入操作
Insert into:以追加的方式向原表尾部追加数据
Insert Ignore:如果数据库已存在相同的记录,则跳过当前插入的这条数据;反之,则插入新的数据
Upsert:更新或插入,如果未找到符合条件的数据,则插入这条数据;反之,则正常更新数据

image.png

配置字段映射

在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持列名匹配不导入以及自定义表达式
image.png

来源表字段信息 说明
列名匹配 1. 系统默认匹配方式,可根据名称建立相应的映射关系。
2. 如果列名无法匹配,则该列来源字段显示为不导入,支持手动修改匹配列。
不导入 目标表中的这个字段将不会导入任何数据,如果目标表字段为非空,会导致任务报错。
自定义表达式 通过自定义表达式的方式导入数据,自定义表达式格式为:${表达式} as ${去向表列名}。


自定义表达式说明:
1、如果输入a,那么这个字段会导入字符串a;
2、输入源端数据库支持的SQL表达式比如current_timestamp as last_modify_time,将任务运行时间导入目标表的last_modify_time字段。

高级设置

高级设置包含作业参数、数据来源与数据去向对应的源端参数与目标端参数。具体参数详见高级设置参数