1. 概述

MNN 工作台内置基于 CNN 的文本分类模型,可以用来训练识别不同文本归属分类的问题。

2. 模型训练

2.1. 训练数据

将分类数据按照类别放在以类别名称命名的文件夹中,该路径下的数据即为训练数据。

图1 所示,该路径下有四个文件夹,分别代表财经彩票房产 ,``家居教育以及股票等6个类别。
每个文件夹中包含对应类别的数据。
截屏2020-08-10下午5.19.49.png
图例 1. 文本分类数据集展示

2.2. 创建工程

  1. 打开 MNN 工作台,进入工作台主界面。

image.png
图例 2. MNN 工作台主界面

  1. 点击 Train a deep learning model,进入模型训练页面。

截屏2020-08-10上午10.07.09.png
图例 3. MNN 工作台模型训练模版选择界面

  1. 图片分类工程在Text目录下,点击Text栏,找到并点击Text Classifier。(首次使用)需要下载 MNN 工作台图像分类训练模版,点击 Download 进行下载

image.png
图例 4. MNN 工作台模型训练模版选择界面

  1. 下载完成,点击 Next 进入项目配置页面,在Project Name上出入项目名称,比如MyTextClassifier,点击Next

截屏2020-08-10下午5.49.45.png图例 5. MNN 工作台文本分类工程配置

  1. 选择目标文件夹,对工程进行保存。

截屏2020-08-10上午10.20.35.png
图例 6. MNN 工作台选择工程保存路径

  1. 点击Next,进入训练工程界面,工作台会自动配置训练环境,首次使用需联网加载相关配置,请耐心等候

截屏2020-08-10下午5.50.15.png
图例 7. MNN 工作台训练工程初始化

2.3 训练流程

工程页面中存在两个配置模块:

  • Data Inputs,数据选择模块,主要进行数据相关操作。
  • Parameters,参数设置模块,用于调节模型训练的相关参数。

点击Training Data中的Select Files,选择训练数据所在的文件夹。工作台会自动读取该文件夹下的数据,并显示类别数目。
截屏2020-08-10下午4.22.20.png
图例 8. MNN 工作台训练工程数据集选择界面

对于参数项:

  • Max Iteration,所选数据需要迭代的次数,系统给了一个默认值100。用户可以根据自己的需求去调节大小,一般该值越大,训练所消耗的时间越久,模型对训练数据的拟合程度越高。

点击Train按键,模型开始训练。
截屏2020-08-10下午4.41.25.png
图例 9. MNN 工作台训练中

页面会显示训练进度条,等待一段时间。当训练完成时,会显示训练结果页面。
截屏2020-08-10下午5.39.50.png图例 10. MNN 工作台训练 Training Loss 图形化界面

该页面主要有数值栏和下方的图表栏:

  • 数值栏,展示的最终模型的状态,分别训练结束时模型在训练集损失数值,在验证集上的准确率以及模型大小。
  • 图表栏,展示训练过程中一些与训练相关的数据变化趋势。

对于上方Tab页中的Training项,数值0.17表示训练完成时,模型在训练数据集上面的损失数值。

损失数值越低表示模型对训练数据集拟合的越好。 下方图表栏显示的是在模型训练过程中损失值的变化曲线。图中该曲线后段损失数值曲线还未平稳,表示模型位完全拟合训练数据,可以适当增加训练迭代次数。

点击Validation项,展示模型在验证集上的准确率:
截屏2020-08-10下午5.41.02.png
图例 11. MNN 工作台训练 Validation 图形化界面

图中tab页Validation项数值表示该模型在验证集上面的准确率为91.14%。

准确率高表示模型的泛化能力不错。 下方图表显示在训练阶段,验证集上准确率的变化曲线。

3. 模型输出和测试

3.1. 模型输出和单项测试

  1. 点击上方tab页的Output项,进入以下界面:
  • Output项中显示当前模型大小(图中为54.2MB)。
  • 右侧信息栏显示当前模型的详细信息。

截屏2020-08-10下午5.42.02.png图例 12. MNN 工作台训练结果界面

  1. 将测试图片拖入左边栏,点击图片,即可显示预测结果。

截屏2020-08-10下午5.44.57.png
图例 13. MNN 工作台训练结果所见即所得验证界面

3.2. 批量测试

MNN 工作台也提供了批量测试的功能,点击tab页的Testing项,进入以下界面:
截屏2020-08-10下午5.45.29.png
图例 14. MNN 工作台批量结果验证界面

  1. 点击Select,选中需要测试的图片所在文件夹。文件夹中的内容当前支持txt格式的文件。点击Test Model开始测试,页面显示测试进度条。

截屏2020-08-10下午5.46.36.png
图例 15. MNN 工作台批量结果验证中

  1. 测试完成后,测试结果以表格形式展示:
  • Class列,该图片的预测分类。
  • Probability列,该分类对应的预测概率。
  • File列,图片的地址。点击地址打开图片所在的文件夹。

截屏2020-08-10下午12.55.14.png
图例 16. MNN 工作台批量验证结果

  1. 点击行左侧的灰色箭头(>),展开显示图片内容。

截屏2020-08-10下午5.47.09.png
图例 17. MNN 工作台批量验证结果详细信息

3.3 Try in Playground

MNN 工作台文本分类模版在训练完成得到 MNN 模型后,暂时还未支持 Playground 展示。具体请阅读4.1 Playground 整体介绍
截屏2020-08-10下午5.42.02.png
图例 18. MNN 工作台结果页 Try in Playground

4. 数据集

THUCNews.zip