备注:本头条号后期会增加一些关于数学,机器学习,深度学习的内容,欢迎大家关注。我本人对数学情有独钟,从2008年开始对数学产生浓厚兴趣,时至今日,业余时间总是喜欢思考数学问题。
Bootstrap方法最初由美国斯坦福大学统计学教授Efron在1977年提出。
作为一种崭新的增广样本统计方法,Bootstrap方法为解决小规模样本试验评估问题提供了很好的思路。
很多人会对Bootstrap这个名字感到困惑。英语Bootstrap的意思是靴带,来自短语:pull oneself up by one′s bootstrap。18世纪德国文学家拉斯伯的小说《巴龙历险记》记述道:巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里Bootstrap法是指用原样本自身的数据抽样得出新的样本及统计量,根据其意现在普遍将其译为自助法。
一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的思想也就是:既然样本是抽出来的,那我何不从样本中再抽样呢?
Bootstrap的抽样方式都是“有放回地全抽”(其实样本量也要视情况而定,不一定非要与原样本量相等),意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,这样的抽样可以进行多次,每次都可以求一个相应的统计量/估计量,最后看看这个统计量的稳定性如何(用方差表示)。
Bootstrap是一种抽样方法。例如,我要统计鱼塘里面的鱼的条数,怎么统计呢?步骤如下所示:
(1)承包鱼塘,不让别人捞鱼(规定总体分布不变)。
(2)自己捞鱼,捞100条,都打上标签(构造样本)。
(3)把鱼放回鱼塘,休息一晚(使之混入整个鱼群,确保之后抽样随机)。
(4)开始捞鱼,每次捞100条,数一下,自己昨天标记的鱼有多少条,占比多少(一次重采样取分布)。
(5)重复3,4步骤n次。建立分布。
假设一下,第一次重新捕鱼100条,发现里面有标记的鱼12条,记下为12%,放回去,再捕鱼100条,发现标记的为9条,记下9%,重复重复好多次之后,假设取置信区间95%,你会发现,每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。
Bootstrap适用于小规模样本试验,这也就解释了,为什么在小样本的时候,Bootstrap效果较好,你这样想,如果我想统计大海里有多少鱼,你标记100000条也没用啊,因为实际数量太过庞大,你取的样本相比于太过渺小,最实际的就是,你下次再捕100000的时候,发现一条都没有标记,这就尴尬了。