赛题

image.png

思路

  1. 由于数据脱敏且没有映射词表,使得难以使用bert模型进行处理
  2. 要解决的是相似度的判断,就计算相似度,然后和类型做损失函数

解决方案

LSTM

使用LSTM计算句子特征,使用距离公式计算相似度
两个句子分别输入且不共享除embedding外参数
然后结果和label做MSELoss计算

Bert

利用2G的无监督语料训练自己的bert模型
利用run_pretrain和另一个接口实现

实验

LSTM

初步实验结果

效果还行,没有过度的过拟合现象
image.png

image.png

image.png

改进

  1. loss函数还是有点问题
  2. 可以实验Bi-LSTM
  3. 可以实验预训练Skip_Gram提供词向量
  4. 修改网络层,增加embedding维数等
  5. 可以看到在本地训练和测试集上表现的都很不错,但是在实际中拉了跨,还有问题

BiLSTM

如昨天的认识,今天试一试BiLSTM,大体感觉收敛变慢了,但是最终的效果会略好一些

日志

2020/4/9

尝试了BiLSTM
看了调参的方法
重构了代码,发现代码里有大量的语义错(复制粘贴的锅)(就这样还能拿到60分。。。。)
消去了在LSTM后的dropout(感觉这个dropout会导致较多的信息丢失)
跑分创新高:重构代码前只去掉dropout: 67.683分