- 集成学习没有知识体系
- NLP数据增强知识体系
- shuffle
- 随机dropout
- 把shuffle的数据另存
- 正负样本均衡
- XGBoost、LGBoost的底层原理没有明白
- Bert的底层原理没有明白
- LSTM/GRU+Capusules是一个不错模型,这也是目前Kaggle Quora比赛上(短文本分类)最好的baseline之一。
数据增强
增强前原始分布
标签是0,数量是1107,占比是8.1% 标签是1,数量是1150,占比是8.4% 标签是2,数量是930,占比是6.8% 标签是3,数量是445,占比是3.2% 2倍 标签是4,数量是1231,占比是9.0%
标签是5,数量是386,占比是2.8% 2倍
标签是6,数量是209,占比是1.5% 5 倍
标签是7,数量是1080,占比是7.9%
标签是8,数量是1077,占比是7.8%
标签是9,数量是845,占比是6.2%
标签是10,数量是377,占比是2.7% 2倍
标签是11,数量是1033,占比是7.5%
标签是12,数量是417,占比是3.0% 2倍
标签是13,数量是269,占比是2.0% 2倍
标签是14,数量是549,占比是4.0%
标签是15,数量是1846,占比是1.3e+01% 除以3
标签是16,数量是777,占比是5.7%
增强后
标签是0,数量是1414,占比是5.0%
标签是1,数量是1474,占比是5.2%
标签是2,数量是1491,占比是5.3%
标签是3,数量是1493,占比是5.3%
标签是4,数量是1830,占比是6.5%
标签是5,数量是1722,占比是6.1%
标签是6,数量是1443,占比是5.1%
标签是7,数量是1354,占比是4.8%
标签是8,数量是1366,占比是4.9%
标签是9,数量是1206,占比是4.3%
标签是10,数量是1288,占比是4.6%
标签是11,数量是1605,占比是5.7%
标签是12,数量是1972,占比是7.0%
标签是13,数量是1141,占比是4.1%
标签是14,数量是1013,占比是3.6%
标签是15,数量是2925,占比是1e+01%
标签是16,数量是777,占比是2.8%
标签是17,数量是2622,占比是9.3%