1.1 词汇表征
使用独热编码表示词汇的局限性:不能表示不同词汇之间的关系(不同词之间是正交关系,内积为零)
词汇的特征化表示:词嵌入(word embedding),同类词的特征值相同或接近
词嵌入的可视化表示(t-SNE)
1.2 使用词嵌入
命名实体识别示例
迁移学习及词嵌入
词嵌入与人脸编码的关系——很相似,只是不同的约定称呼而已
1.3 词嵌入的特性
词嵌入的特性:同类词间的差较小
寻找同类词就是查找相似度函数值最大的那个词
可使用余弦相似度函数(cosine similarity)作为相似度函数