详细介绍 NLP 中常用的注意力机制方式
原文http://ruder.io/deep-learning-nlp-best-practices/index.html#introduction
中文翻译 https://www.zhihu.com/question/19895141/answer/204043610
中文翻译:如何用深度学习做自然语言处理?这里有份最佳实践清单&version=12020110&nettype=WIFI&fontScale=100&pass_ticket=30TrGL8HP6X36CmM1v1AEUc7sWJSzrQhX3HeFaBscSH1XBTDMVyMsPly8TnDNiG%2B)
词嵌入的最佳维度绝大多数是依赖任务的:一个更小的维度更多在句法任务上工作更好,比如命名实体识别(named entity recognition)(Melamud et al., 2016) [44],或者词性标注(POS)(Plank et al., 2016) [32],尽管一个更大的维度对于更多的语义任务来说更有用,比如情感分析 (Ruder et al., 2016) [45]。
- 用基于注意力机制的seq2seq神经网络进行翻译
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)attn_weights = F.softmax(self.attn(torch.cat((embedded[0], hidden[0]), 1)), dim=1)attn_applied = torch.bmm(attn_weights.unsqueeze(0),encoder_outputs.unsqueeze(0))
