1.1 词汇表征

使用独热编码表示词汇的局限性:不能表示不同词汇之间的关系(不同词之间是正交关系,内积为零)
image.png
词汇的特征化表示:词嵌入(word embedding),同类词的特征值相同或接近
image.png
词嵌入的可视化表示(t-SNE)
image.png

1.2 使用词嵌入

命名实体识别示例
image.png
迁移学习及词嵌入
image.png
词嵌入与人脸编码的关系——很相似,只是不同的约定称呼而已
image.png

1.3 词嵌入的特性

词嵌入的特性:同类词间的差较小
image.png
寻找同类词就是查找相似度函数值最大的那个词
image.png
可使用余弦相似度函数(cosine similarity)作为相似度函数
image.png