样本数量未知,如何进行选择,使得每个样本被选中的概率相等?

    用这样的方法来选择:遍历所有的样本;

    • 对于第 蓄水池采样算法 - 图1 个样本,有 蓄水池采样算法 - 图2 的概率选中(蓄水池采样算法 - 图3
    • 对第 蓄水池采样算法 - 图4 个样本进行选择操作,如果选中了这个样本,就覆盖前一次选择

    蓄水池采样算法 - 图5 表示第 蓄水池采样算法 - 图6 次选择时的选择结果,其 PMF 如下:
    蓄水池采样算法 - 图7

    如果第 蓄水池采样算法 - 图8 个样本作为最终的结果被选中,那么就要求第 蓄水池采样算法 - 图9 次选择时选中了,并且后续选择并没有进行覆盖:
    蓄水池采样算法 - 图10

    每个样本作为最终结果被选中的概率都是 蓄水池采样算法 - 图11