Java 类名:com.alibaba.alink.operator.batch.classification.BertTextClassifierTrainBatchOp
Python 类名:BertTextClassifierTrainBatchOp

功能介绍

在预训练的 BERT 模型的基础上增加一个全连接层,用于进行文本分类。

参数说明

名称 中文名称 描述 类型 是否必须? 取值范围 默认值
labelCol 标签列名 输入表中的标签列名 String
textCol 文本列 文本列 String 所选列类型为 [STRING]
batchSize 数据批大小 数据批大小 Integer 32
bertModelName BERT模型名字 BERT模型名字: Base-Chinese,Base-Multilingual-Cased,Base-Uncased,Base-Cased String “Base-Chinese”
checkpointFilePath 保存 checkpoint 的路径 用于保存中间结果的路径,将作为 TensorFlow 中 Estimatormodel_dir 传入,需要为所有 worker 都能访问到的目录 String null
customConfigJson 自定义参数 对应 https://github.com/alibaba/EasyTransfer/blob/master/easytransfer/app_zoo/app_config.py 中的config_json String
intraOpParallelism Op 间并发度 Op 间并发度 Integer 4
learningRate 学习率 学习率 Double 0.001
maxSeqLength 句子截断长度 句子截断长度 Integer 128
numEpochs epoch 数 epoch 数 Double 0.01
numFineTunedLayers 微调层数 微调层数 Integer 1
numPSs PS 角色数 PS 角色的数量。值未设置时,如果 Worker 角色数也未设置,则为作业总并发度的 1/4(需要取整),否则为总并发度减去 Worker 角色数。 Integer null
numWorkers Worker 角色数 Worker 角色的数量。值未设置时,如果 PS 角色数也未设置,则为作业总并发度的 3/4(需要取整),否则为总并发度减去 PS 角色数。 Integer null
pythonEnv Python 环境路径 Python 环境路径,一般情况下不需要填写。如果是压缩文件,需要解压后得到一个目录,且目录名与压缩文件主文件名一致,可以使用 http://, https://, oss://, hdfs:// 等路径;如果是目录,那么只能使用本地路径,即 file://。 String “”
removeCheckpointBeforeTraining 是否在训练前移除 checkpoint 相关文件 是否在训练前移除 checkpoint 相关文件用于重新训练,只会删除必要的文件 Boolean null

代码示例

以下代码仅用于示意,可能需要修改部分代码或者配置环境后才能正常运行!

Python 代码

  1. url = "http://alink-test.oss-cn-beijing.aliyuncs.com/jiqi-temp/tf_ut_files/ChnSentiCorp_htl_small.csv"
  2. schema = "label bigint, review string"
  3. data = CsvSourceBatchOp() \
  4. .setFilePath(url) \
  5. .setSchemaStr(schema) \
  6. .setIgnoreFirstLine(True)
  7. data = data.where("review is not null")
  8. train = BertTextClassifierTrainBatchOp() \
  9. .setTextCol("review") \
  10. .setLabelCol("label") \
  11. .setNumEpochs(2.) \
  12. .setNumFineTunedLayers(1) \
  13. .setMaxSeqLength(128) \
  14. .setBertModelName("Base-Chinese") \
  15. .linkFrom(data)
  16. AkSinkBatchOp() \
  17. .setFilePath("/tmp/bert_text_classifier_model.ak") \
  18. .setOverwriteSink(True) \
  19. .linkFrom(train)
  20. BatchOperator.execute()

Java 代码

  1. import com.alibaba.alink.operator.batch.BatchOperator;
  2. import com.alibaba.alink.operator.batch.classification.BertTextClassifierTrainBatchOp;
  3. import com.alibaba.alink.operator.batch.sink.AkSinkBatchOp;
  4. import com.alibaba.alink.operator.batch.source.CsvSourceBatchOp;
  5. import org.junit.Test;
  6. public class BertTextClassifierTrainBatchOpTest {
  7. @Test
  8. public void testBertTextClassifierTrainBatchOp() throws Exception {
  9. String url = "http://alink-test.oss-cn-beijing.aliyuncs.com/jiqi-temp/tf_ut_files/ChnSentiCorp_htl_small.csv";
  10. String schema = "label bigint, review string";
  11. BatchOperator <?> data = new CsvSourceBatchOp()
  12. .setFilePath(url)
  13. .setSchemaStr(schema)
  14. .setIgnoreFirstLine(true);
  15. data = data.where("review is not null");
  16. BertTextClassifierTrainBatchOp train = new BertTextClassifierTrainBatchOp()
  17. .setTextCol("review")
  18. .setLabelCol("label")
  19. .setNumEpochs(2.)
  20. .setNumFineTunedLayers(1)
  21. .setMaxSeqLength(128)
  22. .setBertModelName("Base-Chinese")
  23. .linkFrom(data);
  24. new AkSinkBatchOp()
  25. .setFilePath("/tmp/bert_text_classifier_model.ak")
  26. .setOverwriteSink(true)
  27. .linkFrom(train);
  28. BatchOperator.execute();
  29. }
  30. }