1. 集成学习没有知识体系
  2. NLP数据增强知识体系
    1. shuffle
    2. 随机dropout
    3. 把shuffle的数据另存
    4. 正负样本均衡
  3. XGBoost、LGBoost的底层原理没有明白
  4. Bert的底层原理没有明白
  5. LSTM/GRU+Capusules是一个不错模型,这也是目前Kaggle Quora比赛上(短文本分类)最好的baseline之一。

数据增强

正负样本增强

增强前原始分布

标签是0,数量是1107,占比是8.1% 标签是1,数量是1150,占比是8.4% 标签是2,数量是930,占比是6.8% 标签是3,数量是445,占比是3.2% 2倍 标签是4,数量是1231,占比是9.0%

标签是5,数量是386,占比是2.8% 2倍

标签是6,数量是209,占比是1.5% 5 倍

标签是7,数量是1080,占比是7.9%

标签是8,数量是1077,占比是7.8%

标签是9,数量是845,占比是6.2%

标签是10,数量是377,占比是2.7% 2倍

标签是11,数量是1033,占比是7.5%

标签是12,数量是417,占比是3.0% 2倍

标签是13,数量是269,占比是2.0% 2倍

标签是14,数量是549,占比是4.0%

标签是15,数量是1846,占比是1.3e+01% 除以3

标签是16,数量是777,占比是5.7%



增强后

标签是0,数量是1414,占比是5.0%

标签是1,数量是1474,占比是5.2%

标签是2,数量是1491,占比是5.3%

标签是3,数量是1493,占比是5.3%

标签是4,数量是1830,占比是6.5%

标签是5,数量是1722,占比是6.1%

标签是6,数量是1443,占比是5.1%

标签是7,数量是1354,占比是4.8%

标签是8,数量是1366,占比是4.9%

标签是9,数量是1206,占比是4.3%

标签是10,数量是1288,占比是4.6%

标签是11,数量是1605,占比是5.7%

标签是12,数量是1972,占比是7.0%

标签是13,数量是1141,占比是4.1%

标签是14,数量是1013,占比是3.6%

标签是15,数量是2925,占比是1e+01%

标签是16,数量是777,占比是2.8%

标签是17,数量是2622,占比是9.3%

开源源码汇总