目前Easytexminer及其有关依赖已经打入官方镜像,用户可以直接在DSW中建立实例并进行开发。以下为使用步骤:
创建DSW实例
进入 阿里云官网 → 产品 → 人工智能 → 机器学习平台 PAI (直通链接)
注册/登录账户后点击 前往控制台
选择 交互式建模(DSW),并 创建实例 
选择合适的 GPU 实例资源
镜像选择官方镜像中的pytorch:1.7PAI-gpu-py36-cu101-ubuntu18.04 或 pytorch:1.8PAI-gpu-py36-cu101-ubuntu18.04
DSW中使用EasyTexMiner
启动实例,在Terminal运行以下代码,检测EasyTexMiner是否正常运行
# 1. 安装easytexminer如果环境里没有安装easytexminer,需要安装一下:pip install easytexminer-0.0.2-py2.py3-none-any.whl# 2. 数据准备wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/easytexminer/tutorials/classification/train.tsvwget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/easytexminer/tutorials/classification/dev.tsv# 3. 模型训练CUDA_VISIBLE_DEVICES=0 easytexminer \--mode=train \--tables=train.tsv,dev.tsv \--input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \--first_sequence=sent1 \--second_sequence=sent2 \--label_name=label \--label_enumerate_values=0,1 \--pretrain_model_name_or_path=google-bert-tiny-en \--checkpoint_dir=./classification_cmd_model/ \--learning_rate=3e-5 \--epoch_num=10 \--logging_steps=100 \--sequence_length=128 \--train_batch_size=32# 如果oss连接有问题的话,可以下载预训练模型到本地跑,# 下载:wget http://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/easytexminer_model_zoo/nlv/bert/google-bert-tiny-en/google-bert-tiny-en.tar.gz# 解压:tar -xvzf google-bert-tiny-en.tar.gz# 修改如下配置:--pretrain_model_name_or_path=./google-bert-tiny-en/model.ckpt# 重新运行即可# 3. 模型检验easytexminer \--mode=evaluate \--tables=dev.tsv \--input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \--first_sequence=sent1 \--second_sequence=sent2 \--label_name=label \--label_enumerate_values=0,1 \--checkpoint_path=./classification_cmd_model/ \
evaluation步骤完成后的预期结果为:
�更多有关EasyTexMiner的更多应用实践可见于 https://www.yuque.com/easytransfer/easytm/rf25em
