目前Easytexminer及其有关依赖已经打入官方镜像,用户可以直接在DSW中建立实例并进行开发。以下为使用步骤:

创建DSW实例

进入 阿里云官网 → 产品 → 人工智能 → 机器学习平台 PAI (直通链接
image.png
注册/登录账户后点击 前往控制台
image.png
选择 交互式建模(DSW),并 创建实例
image.png
选择合适的 GPU 实例资源
image.png
镜像选择官方镜像中的pytorch:1.7PAI-gpu-py36-cu101-ubuntu18.04pytorch:1.8PAI-gpu-py36-cu101-ubuntu18.04

根据以上信息创建实例即可

DSW中使用EasyTexMiner

启动实例,在Terminal运行以下代码,检测EasyTexMiner是否正常运行

  1. # 1. 安装easytexminer
  2. 如果环境里没有安装easytexminer,需要安装一下:
  3. pip install easytexminer-0.0.2-py2.py3-none-any.whl
  4. # 2. 数据准备
  5. wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/easytexminer/tutorials/classification/train.tsv
  6. wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/easytexminer/tutorials/classification/dev.tsv
  7. # 3. 模型训练
  8. CUDA_VISIBLE_DEVICES=0 easytexminer \
  9. --mode=train \
  10. --tables=train.tsv,dev.tsv \
  11. --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  12. --first_sequence=sent1 \
  13. --second_sequence=sent2 \
  14. --label_name=label \
  15. --label_enumerate_values=0,1 \
  16. --pretrain_model_name_or_path=google-bert-tiny-en \
  17. --checkpoint_dir=./classification_cmd_model/ \
  18. --learning_rate=3e-5 \
  19. --epoch_num=10 \
  20. --logging_steps=100 \
  21. --sequence_length=128 \
  22. --train_batch_size=32
  23. # 如果oss连接有问题的话,可以下载预训练模型到本地跑,
  24. # 下载:wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easytexminer_model_zoo/nlv/bert/google-bert-tiny-en/google-bert-tiny-en.tar.gz
  25. # 解压:tar -xvzf google-bert-tiny-en.tar.gz
  26. # 修改如下配置:--pretrain_model_name_or_path=./google-bert-tiny-en/model.ckpt
  27. # 重新运行即可
  28. # 3. 模型检验
  29. easytexminer \
  30. --mode=evaluate \
  31. --tables=dev.tsv \
  32. --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  33. --first_sequence=sent1 \
  34. --second_sequence=sent2 \
  35. --label_name=label \
  36. --label_enumerate_values=0,1 \
  37. --checkpoint_path=./classification_cmd_model/ \

evaluation步骤完成后的预期结果为:
image.png
�更多有关EasyTexMiner的更多应用实践可见于 https://www.yuque.com/easytransfer/easytm/rf25em