智能供应链 - 图1
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
bdp平台中已有许多线上业务产生的数据以供使用,同时还可以导入离线的数据。作为示例,这里将一个评论文本情感分类的数据集上传到bdp中

步骤1. 新建表格

按照下图中步骤,建立一张空的表格 image.png 顺序点击

步骤2.上传数据

按照下图步骤,向第一步中新建的表格中插入数据 image.png 成功后,即可在数据开发管理平台看到新建的任务。 image.png

AI模型开发

1. 拉取数据集

上传完成后,进入AI模型开发模块,可以在任务式调度中,取出bdp中的数据集,用于算法的模型训练。新建任务式流程如下。使用bdp时,需要选择PySpark2.4.3引擎框架,上传自己的执行脚本后即可 image.png
任务式中,提供了取数模板,对模板进行更改即可使用hive提取数据 其中有三处需要用户自行修改

  1. 自定义设置1: 根据bdp中存储的内容,编写sql语句进行取数
  2. 自定义设置2: cookie需要根据用户账号自行设置
  3. 自定义设置3: 自定义一个数据集名称

任务式脚本执行后,可在左侧导航数据栏下看到生成的数据集。

  1. echo '文本内容,标签' > output.csv
  2. # 自定义设置1
  3. hive -e "select content,label from tmp.quality_problem_ok" | sed 's/\t/,/g' >> output.csv
  4. # 自定义设置2
  5. cookie="thor=4727E1DC998674A4900ED668E0B68DB46EE69A80F9780117607ADC30F7EB88B754765482AE32D0CF6013BE50BFD4BDCD357E7F2BEF277023F975BBFD02282678894F8ED9BFC490B93929CC1AAB03B2BCD088759CABAC8F01B8AEF7DA28F909A0A1CD7063DB3C81481AD8B15D99B274E9BD578DFDB869643159427CD40181CE571FD386F8A1870A9EAECA615707753A2503783F9E2EE38EFA81CD9AD4275FE4E1;"
  6. result=`curl -X POST 'https://nfaitp.jdcloud.com/v1/dataset' \
  7. --header "Cookie: ${cookie}" \
  8. --header 'Content-Type: application/json' \
  9. --data '{
  10. # 自定义设置3
  11. "name":"质量问题检测-Demo-auto1",
  12. "labelStatus":1,
  13. "labelType":7,
  14. "datatype":"0",
  15. "desc":"",
  16. "tags":""
  17. }'`

2. 模型训练

在AI模型开发平台中,点击我的项目,新建项目,可以在项目中进行模型训练 image.png

项目分为4种类型,这里以自动化流程为例,使用拉取的数据集进行模型训练。
针对文本分类的场景,我们选择对应的自动化任务,开始训练。 image.png

3. 服务发布

自动化任务执行成功后,可以看到对模型的评估指标,若指标合格,即可点击发布按钮,将模型发布为在线API,以供业务使用。点击发布后需要审核人员进行审核,稍作等待

服务编排

若在一个业务场景中,需要多个模型配合完成任务,可以使用服务编排功能,按照自定义流程图调用多种API,灵活完成业务

步骤1. 新建编排流程

按箭头指向顺序新建流程,点击流程设计按钮,开始编排 image.png

步骤2. 新建编排流程

然后从左侧流程基本节点中,拖拽节点,第一个节点需要数据输入,所以拖拽文件上传节点,最后一个文件需要结果输出,所以拖拽Restful API。 image.png 然后对各API节点进行设置,首先设置调用API的URL image.png 如果是第一个节点,需要填写从什么位置读取数据 image.png 填写完成后,点击运行即可调用API

步骤3. 查看结果

在流程监控-流程运行统计中可以查看执行结果,本次API调用的结果为“有质量问题” image.png