Word2Vec 基于迭代的方法

hypothesis: distributional similarity , the idea that similar words have similar context.
Word2Vec 是一个软件包，包括：
- 两个算法：CBOW，skip-gram
- 两个训练方法：negative sampling，hierarchical sofrmax
核心思路：通过使相似的单词的词向量在词向量空间中尽量接近来最大化目标函数

Language Models
为一串符号赋予概率的模型
需要能赋予语法正确、语义合适的句子较高的概率，反之应该赋予较低的概率
数学表达：
一些简单的例子
- Unigram Model:
  - 假设：单词的出现是完全独立的
  - 简单，但是不好，因为单词的出现是有关联的
- Bigram Model:
  - 假设：相邻单词的出现是相关的
  - 同样比较简单
    Continuous Bag of Words Model (CBOW)
目标：通过上下文的词来预测中心词

CBOW 中的模型
对每个单词，我们会学习两个词向量
- v: 输入向量（当单词属于上下文时）
- u: 输出向量（当单词处于中心时）
CBOW 中的符号
- 第 i 个单词
- 输入的大小为 m 的上下文的 one-hot 向量：，输出的中心单词的向量：
- 待学的未知参数：
  - : 输入单词矩阵、输出单词矩阵，n 是一个任意选择的数，表示嵌入空间的大小。
  - 输入矩阵左乘 one-hot 向量：实际就是取出了对应的 word vector
  - : V 的第 i 列和 U 的第 i 行，分别为单词的输入向量表示和输出向量表示
    CBOW 的过程

Word Vectors - Word2Vec - 图11
Word Vectors - Word2Vec - 图12

Word Vectors - Word2Vec - 图14

Word Vectors - Word2Vec - 图15
Word Vectors - Word2Vec - 图16

Word Vectors - Word2Vec - 图26

Word Vectors - Word2Vec - 图27

Word Vectors - Word2Vec - 图28
并且在上下文中每个位置上的单词出现的概率分别为： Word Vectors - Word2Vec - 图29 。

Word Vectors - Word2Vec - 图31
进而有：
Word Vectors - Word2Vec - 图32
Word Vectors - Word2Vec - 图33

Negative Sampling

动机：CBOW 和 Skip-gram 的计算需要对整个 |V| 求和计算（softmax 过程中），计算量过大。考虑用其他方法来近似计算。
Negative Sampling 实际上改变的是优化目标，即损失函数。

基本思想
随便给定一对单词 (w,c)，w 表示中心词，c 表示 w 的上下文，好的词向量应该能够判别出 c 是否的确是 w 的上下文，即这样的 (w,c) 是否存在于语料库中。
如何获取这样的 (w,c)：
- 如果 (w,c) 是直接从语料库中获取的，则自然是满足上下文关系的。
- 如果要构造不满足关系的 (w,c)，则可以通过随机采样的方法，因为从单词表随机采样两个单词，存在上下文关系的概率是比较小的
- 随机采样依据一个能匹配单词表中的频率的噪声分布
  建模
  用来表示 (w,c) 存在于语料库中，反之，表示不存在于语料库中。具体可用 sigmoid 函数。
  
  其中表示的是未知参数，即输入向量矩阵与输出向量矩阵。
  优化目标
  
  因此，损失函数为：
  
  应用于 CBOW 和 Skip-gram
  Skip-gram
新的目标函数为：（给定中心单词 c ，观察到上下文单词 c-m+j ）