功能入口
填写基本信息
在基本信息中完成任务名称、负责人、任务类型、引用参数组、描述的填写。
基本信息 | 说明 |
---|---|
任务名称 | 必填项,中英文开头,支持连字符(-)或下划线(_),长度不超过128个字符 |
负责人 | 默认为创建任务的用户,可选择本项目下任一用户为任务负责人 |
任务类型 | 必填项,选项为向导模式和SQL模式类型。SQL模式类型支持编写SQL语言读取数据源数据 |
引用参数组 | 引用参数组后,当前任务可使用参数组内参数 |
描述 | 输入同步任务描述,最长不超过128个字符 |
说明:
1、离线同步任务引用多个参数组内相同参数项时,系统取排在前面的参数组的参数值;
2、离线同步任务和离线开发任务引用的参数组内有相同的参数项时,取离线同步任务的参数组的参数值;
3、参数组可在“离线开发 - 公共资源”中进行查看和配置;
4、通过ndi.param-set.transfer-first 参数可以调整离线同步任务和离线开发任务的参数优先级(默认值为false:即离线同步任务的参数优先级低于离线开发任务的参数优先级)。
配置数据来源与去向
完成基本信息填写后,首先需要在数据来源配置离线同步任务节点的读取端数据源,以及需要同步的表等信息。
数据来源
基本信息 | 说明 |
---|---|
数据源 | 必填项,选择数据源类型及数据源名称 |
查找方式 | 必填项,选项为库表选择和正则匹配,默认为库表选择: 库表选择:支持搜索或直接选择数据库表 正则匹配:通过正则表达式来匹配数据表 |
特殊字符替换 | 选择是否开启及替换内容 |
并发读取 | 选择是否开启并发读取。读取的数据将会根据切分键,按照并发度切分成指定的份数 |
流量控制 | 必填项。默认为不限速 |
完成数据来源的配置后,可以在右侧配置数据去向的数据源,以及需要写入的表信息等。
数据去向
此处以Hive为例:
基本信息 | 说明 |
---|---|
数据源 | 必填项,选择数据源类型及数据源名称 |
库表选择 | 必填项,选择数据库及表 |
写入规则 | 写入规则默认为Insert overwrite,说明如下: Insert overwrite:覆盖数据,即先删除原表的数据,再执行写入操作 Insert into:以追加的方式向原表尾部追加数据 Insert Ignore:如果数据库已存在相同的记录,则跳过当前插入的这条数据;反之,则插入新的数据 Upsert:更新或插入,如果未找到符合条件的数据,则插入这条数据;反之,则正常更新数据 |
配置字段映射
在完成数据来源和数据去向的配置后,需要指定数据来源端和去向端的映射关系。支持列名匹配、不导入以及自定义表达式。
来源表字段信息 | 说明 |
---|---|
列名匹配 | 1. 系统默认匹配方式,可根据名称建立相应的映射关系。 2. 如果列名无法匹配,则该列来源字段显示为不导入,支持手动修改匹配列。 |
不导入 | 目标表中的这个字段将不会导入任何数据,如果目标表字段为非空,会导致任务报错。 |
自定义表达式 | 通过自定义表达式的方式导入数据,自定义表达式格式为:${表达式} as ${去向表列名}。 |
自定义表达式说明:
1、如果输入a,那么这个字段会导入字符串a;
2、输入源端数据库支持的SQL表达式比如current_timestamp as last_modify_time,将任务运行时间导入目标表的last_modify_time字段。
高级设置
高级设置包含作业参数、数据来源与数据去向对应的源端参数与目标端参数。具体参数详见高级设置参数。