简介
在过去的一年里,我们基于PAI-TF推出了一整套易用且高性能的面向NLP的深度迁移学习框架 PAI-EasyTransfer,经过了集团内部10多个BU,20多个业务场景打磨,给NLP和迁移学习用户提供了多种便利,包括业界领先的高性能预训练工具链和预训练ModelZoo,丰富易用的AppZoo,高效的迁移学习算法,以及全面兼容阿里巴巴PAI生态产品,给用户提供从模型训练到部署的一站式服务。<br /> 随着集团内外越来越多的研究和业务是PyTorch开发的,用户也希望能够在PyTorch框架中使用EasyTransfer的ModelZoo、AppZoo等进行开发;开源的一些算法,如近年来发展势头较旺盛的基于BERT的知识蒸馏,DistilBERT,BERT-PKD,TinyBERT等,都以PyTorch的方式进行开源;最后,除却迁移学习以外,NLP/文本挖掘领域还有大量需求不能被满足,如小样本学习、关键词提取、敏感词识别、数据增强等。因此,为了更全面地支持用户在PAI平台上对PyTorch、NLP/文本挖掘算法的开发,我们着手开发了PAI-EasyTexMiner,拥有以下几个特性:
- 易用且高度自定义:除却提供易用简洁的PAI命令形式对前沿算法进行调用以外,还抽象了一定的自定义模块,用户可以根据自己的需求进行模型、数据处理、训练、评估、预测等上进行自定义,降低使用PyTorch开发NLP/文本挖掘算法的门槛。
- 深度可扩展性:可以无缝接入EasyTransfer以及开源代码库如huggingface/transformers的ModelZoo,与EasyTransfer AppZoo无缝对接,如训练出来的模型可以直接进行蒸馏。
- 高性能训练和离线预测: 借助PAI团队在通信优化、资源调度方面的深厚积累,我们可以为用户提供大规模、鲁棒的训练能力,我们采用与EasyVision相同的离线分布式预测底座,使得离线预测更快速、更稳定。
- 一站式在线部署:我们依托PAI团队提供的离线、在线集群,以及模型优化能力,为用户提供方便的模型优化、离在线模型部署服务的能力。用户能通过EAS已有的Processor迅速对模型进行部署。
- 丰富算法库和模型库:我们将会对前沿、以及业务沉淀下来的丰富的算法和模型供用户直接调用。
总体框图
