EasyTexMiner使用开发文档 - ModelZoo列表 - 《EasyTexMiner（旧版）》

模型列表
使用方式
- 1. 训练时加载预训练模型
- 2. 预测时指定相应的模型

模型列表

弹内用户可以通过PAI命令的方式调用PAI迁移学习/文本挖掘团队所提供的ModelHub，详细的模型介绍可见弹外文档：

阿里云首页 > 机器学习PAI > ModelHub公共模型仓库 > 自然语言处理（NLP）类模型
预训练模型
| Model | Parameters | | —- | —- | | RoBERTa | | | hit-roberta-base-zh | L=12,H=768,A=12 | | hit-roberta-large-zh | L=24,H=1024,A=16 | | cro-robert-tiny-zh | L=4, H=312,A=12 | | BERT | | | google-bert-base-zh/en | L=12,H=768,A=12 | | google-bert-large-zh/en | L=24,H=1024,A=16 | | google-bert-small-en | L=6,H=768,A=12 | | google-bert-tiny-en | L=2,H=128,A=2 | | pai-bert-large-zh | L=24,H=1024,A=16 | | pai-bert-base-zh | L=12,H=768,A=12 | | pai-bert-small-zh | L=6,H=768,A=12 | | pai-bert-tiny-zh | L=2,H=128,A=2 |

文本分类模型

模型名称	模型介绍	算法名
general_news_classification_base	新闻分类模型	BERT文本分类 text_classify_bert
ecommerce_review_sentiment_analysis_base	电商情感分析模型	BERT文本分类 text_classify_bert
text_anti_spam_5_class_base	文本反垃圾模型	BERT文本分类 text_classify_bert

文本匹配模型

模型名称	模型介绍	算法名
general_text_match_base	通用文本匹配模型	BERT文本匹配 text_match_bert
financial_text_match_base	金融文本匹配模型	BERT文本匹配 text_match _bert
general_qa_match_base	通用问答匹配模型	BERT文本匹配 text _match_bert

序列标注模型

模型名称	模型介绍	算法名
chinese_base_ner_base	中文NER模型	序列标注 sequence_labeling_bert

使用方式

1. 训练时加载预训练模型

只需要将 —pretrain_model_name_or_path 设置为相应的模型名称即可，举例：

# PAI DSW
easytexminer  \
  --mode=train \
  --tables=train.tsv,dev.tsv \
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  --first_sequence=sent1 \
  --second_sequence=sent2 \
  --label_name=label \
  --label_enumerate_values=0,1 \
  --pretrain_model_name_or_path=google-bert-tiny-en \
  --checkpoint_dir=./classification_cmd_model/ \
  --learning_rate=3e-5  \
  --epoch_num=3  \
  --logging_steps=100 \
  --sequence_length=128 \
  --train_batch_size=32

# PAI-Studio
pai -name easytexminer
 -project algo_platform_dev
 -Dmode=train
 -DinputTable=${train_table},${dev_table}
 -DfirstSequence=sent1
 -DsecondSequence=sent2
 -DlabelName=quality
 -DlabelEnumerateValues=0,1
 -DmodelName=text_classify_bert
 -DcheckpointDir=${saved_model_dir}
 -DlearningRate=3e-5
 -DnumEpochs=3
 -DsaveCheckpointSteps=50
 -DbatchSize=32
 -DworkerCount=1
 -DworkerGPU=1
 -DuserDefinedParameters='
    --pretrain_model_name_or_path=google-bert-tiny-en
 '
 -Dbuckets="oss://${oss_bucket_name}?access_key_id=${access_key_id}&access_key_secret=${access_key_secret}&host=${host}"

2. 预测时指定相应的模型

只需要将 —checkpoint_path 设置为相应的模型名称即可，举例：

# PAI DSW
easytexminer \
  --mode=predict \
  --tables=dev.tsv \
  --outputs=dev.pred.tsv \
  --input_schema=label:str:1,sid1:str:1,sid2:str:1,sent1:str:1,sent2:str:1 \
  --output_schema=predictions,probabilities,logits,output \
  --append_cols=label \
  --first_sequence=sent1 \
  --second_sequence=sent2 \
  --checkpoint_path=financial_text_match_base \
  --batch_size 32

# PAI Studio
pai -name easytexminer
 -project algo_platform_dev
 -Dmode=predict
 -DinputTable=${dev_table}
 -DoutputTable=${dev_table}_pred
 -DfirstSequence=sent1
 -DsecondSequence=sent2
 -DoutputSchema=predictions
 -DappendCols=quality
 -DmodelName=text_classify_bert
 -DcheckpointPath=financial_text_match_base
 -DbatchSize=32
 -DworkerCount=1
 -Dbuckets='oss://${oss_bucket_name}/?role_arn=${role_arn}&host=${host}'