昨晚被一则新闻刷屏:北京时间 4 月 10 日今晚 9 点,人类首张黑洞照片正式发布。
看到这张图片,小吴心里是极为震撼的:爱因斯坦太太太太太牛逼了!!!
同时,看新闻的时候小吴还注意到里面有个细节,给黑洞”拍照“的事件视界望远镜从 2017 年就开始为黑洞拍照了,但直到 2019 年才公布。
心里不禁纳闷:为什么给黑洞拍照需要这么长时间?
于是去更加详细的搜索资料,果然发现了端倪,其中一个点就是 望远镜观测到的数据量非常庞大 !
2017 年时 8 个望远镜的数据量达到了 10PB(=10240TB),2018 年又增加了格陵兰岛望远镜,数据量继续增加。庞大的数据量为处理让数据处理的难度不断加大。
平时面试的时候老是说海量数据,海量数据,这次的数据真的是海量数据了。
这次的数据流之大,导致每个射电望远镜产生的数据,都只能用硬盘来储存。
那么现在问题来了,假设你作为给黑洞拍照的研发人员,给你一台内存有限的计算机,你如何找出这些数据的中位数或者判断某个数字是否存在里面。
1. 海量数据查找中位数
题目描述
现在有 10 亿个 int 型的数字( java 中 int 型占 4B),以及一台可用内存为 1GB 的机器,如何找出这 10 亿个数字的中位数?
所谓中位数就是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
题目解析
题目中有 10 亿个数字,每个数字在内存中占 4B,那么这 10 亿个数字完全加载到内存中需要:10 * 10^8 * 4,大概需要 4GB 的存储空间。根据题目的限制,显然不能把所有的数字都装入内存中。
这里,可以采用基于 二进制位比较 和 快速排序算法中的 分割思想 来寻找中位数,实际上这也是 桶排序 的一种应用。