Reservior Sampling
Reservior Sampling
1.Idea
蓄水池算法是一种Randomized Algorithm, 对于n个数(n 可以为无限大),它能保证每个数都以相等的概率被选到。它的基本思想是,维护一个size为k (k < n)的蓄水池,依次遍历所有数据的时候以相等的概率替换这个蓄水池中的数字
2. Implementation
3. Proof (Mathematical Induction)
证明: 对于n(n > k)个数,每个数被选到的概率是 k/n
假设当 i=k 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。
当i = k+1时,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1)
当i = k +1时, 需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1).
前i个元素出现在蓄水池的概率有2部分组成:
①在第i+1次选择前得出现在蓄水池中
②得保证第i+1次选择的时候不被替换掉
由1知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i
对于前i个数被替换的概率:
首先要被替换得第 i+1 个元素被选中 (不然不用替换了)概率为 k/i+1
其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故
前i个元素(池中元素)中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1, 则(池中元素中)没有被替换的概率为: 1 - 1/(i+1) = i/i+1
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1
4. Time & Space Complexity
Time: O(n)
Space: O(1)
Last updated