人类语言 & 单词含义

如何表示一个单词的含义？ Lecture 1: 词向量（Word Vectors） & Word2vec - 图1

WordNet：一个单词的含义有它的同义词集合和上位词集合定义
- 缺点：
  - 忽略了细微差别，eg. 两个单词可能只在某些语境下才是同义词
  - 词库很难持续更新单词的新含义
  - 定义比较主观
  - 需要人工创造并调整词库
  - 无法量化单词之间的相似度
one-hot 向量表示：用一个单词对应元素为1、其余元素都为0的稀疏向量表示一个单词
- eg. motel = [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0], hotel = [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0]
- 缺点：
  - 所有向量都相互正交，即无法有效表示两个单词之间的相似度
  - 向量维度过大：向量维度 = 词库中单词总数
Word2vec：通过一个单词的上下文来表示这个单词
- 思想：一个单词的意思通常是由出现在它附近的单词们给出的
- 上下文 contex：对于一个单词 w，定义一个以 w 为中心的固定大小的窗口，窗口中的其他词就是单词 w 的上下文

Lecture 1: 词向量（Word Vectors） & Word2vec - 图2

Word2vec

单词向量 Word Vector：也称为 词嵌入 word embedding、词表示 word representation ，是一种分布式的表示，

上一节提到的 one-hot 向量就是单词向量，但是是稀疏向量，而我们希望为单词构建的是稠密向量（大多数元素不为0，且维度较小，并且希望出现在相似上下文下的单词向量相似）
eg.

Lecture 1: 词向量（Word Vectors） & Word2vec - 图3

Lecture 1: 词向量（Word Vectors） & Word2vec - 图5