数据之巅(大数据时代)
大家平时可能很少看书,特别是非虚构小说类的书,这也不奇怪,因为一来我们不知道哪里有好书看,或者一本厚厚的书摆在你面前时,很多人可能不知道如何入手,也不确定如何激发自己的热情和兴趣看完它。有调查表明在2017年国人能够完整看完2本书的比例不到40%,当然我可能远远超过,一年20-30本应该没有问题,这还是非专业的书籍。每当我看完一本好书时,我总有一种迫不急待想介绍给各位的心情,因为我些好书越早看越能提升自己的认知水平。那么我想在以后的公众号里会陆续给大家介绍一些非常优秀的书,今天给大家介绍的是《数据之巅》。
涂子沛,江西吉安人,著名信息管理专家、科技作家,《大数据》、《数据之巅》作者。本科毕业于华中科技大学计算机系。后在武警部队和阅批部门工作十年,期间开发过全国第一个反偷渡遣返信息管理系统,担任过边防巡逻艇的指挥官,多次立功受奖。后辞去公职赴美读书,获卡内基梅隆大学公共管理硕士、信息科学硕士学位。在美期间,先后担任软件公司的数据仓库程序员、数据部门经理、数据中心主任、亚太事务总监、首席研究员等职务。2014年12月任阿里巴巴副总裁,分管大数据方面事宜。
他曾在《一席》节目做过一期节目《数据开放与公民精神》里提到对待数据的三个层面:“收集数据是一种意识,使用数据是一种习惯,开放数据是一种态度。”本书在《罗辑思维》死磕书目中第二季第18集“大国不能不识数”有非常充分的介绍,推荐大家也可以看一下。
我在读这本书的时候,非常佩服作者将美国社会和历史与数据的关系作为一个主线,按不同时代对于数据的认识通过具体的案例进行介绍,从中不仅介绍了很多有趣的数学知识,更重要地是将一些非常好的理念渗透到你的心里。以下摘录了一些本书中的观点:
一个真正的信息社会,首先是一个公民社会。(《大数据》,题记)
“大数据”之“大”,更多的意义在于:人类可以“分析和使用”的数据在大量增加,通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。(《大数据》,P57)
美国这个国家,虽然年轻,但相信数据、使用数据,却有着深厚的传统。 数据被视为科学的度量、知识的来源; 没有数据,无论是学术研究,还是政策制定,都寸步难行。(《大数据》,P61)
数据收集和数据分析必须成为基层部门的一种文化,一种管理哲学。(《大数据》,P82)
数据文化是尊重事实、强调精确、推崇理性和逻辑的文化。数据文化的匮乏,是中国之所以落后的一个重要原因;建设这种文化,中华文明的面貌将焕然一新。(《数据之巅》,题记)
对一个国家来说,统计什么、不统计什么,其实是个政治问题。……要统计一件东西,必须要有清晰的边界。……首先要清楚地定义什么是“1”。(《数据之巅》,P14)
无论是霍尔瑞斯的发明、IBM的崛起,还是第一台商用计算机的出现,都离不开美国人口普查产生的庞大数据。……令后人不胜感叹的是……一个政治决定,历经百年演变,却推动美国登上了信息技术的巅峰,引领全世界迈进了一个新的社会形态。(《数据之巅》,P110)
面对错综复杂的利益冲突和政治压力,话不用多说,就让数据来一决高下!(《数据之巅》,P142)
一个国家的开放,应该首先指向它的内部……和对外开放相比,内开放更加重要,它决定了一个国家长期的发展和命运。……内开放不仅关系到公民的自由、权利,还是阅批管理社会、调控市场、服务经济发展的有效手段。更重要的是,随着大数据时代的到来,数据将像传统的“人、财、物”一样,成为重要的生产资料和创新资源,内开放的程度,将决定一个国家发展的动力、一个社会创新的活力。(《数据之巅》,P216)
数据就是静态的历史,历史就是动态的数据。历史的碎片,就是游离的数据;历史的迷雾,就是模糊的数据;历史的盲点,就是缺失的数据。用数据构建的历史,因为精确的细节而永远鲜活,数据越丰富,后世的历史学家也就越能经由数据更好地再现当时的社会。(《数据之巅》,P336)
国与国之间的竞争,表面上是科技竞争、经济竞争,但归根结底,还是国民素质和文化的竞争。没有一个健康、理性、与时俱进的文化,一个国家就难以变得强大,本书的努力,就是试图在中国,把数据这个科技符号变成一个文化符号,将大数据这个高端精英的话题变成一个大众话题,使数据文化进入中国人的视野、融入中国人的意识和血液。(《数据之巅》,P338)
我想当你看完这些段落,一定会迫不急待想看看这本书了,但也有可能会疑惑书里会不会充斥着枯燥的数字,而我们很多人天生就对这些数字很反感。不!书中告诉我们美国统计局的人们早在19世纪就开始设计出各种各样的地图和图表,让你能够非常直观的感性地认识数据。下面几张图分别是1870年美国人口分布、职业分布、盲人分析、纳税地图、农作物分布图,是不是和我们现在说的可视化非常像。说实话我是很难想像当年做出这样图的那群人,在没有电脑的时代真是相当不容易了。相对应的是1870年的清朝对国内的家底还是糊里糊涂。
中国在数据可视化方面要落后发达国家很多年,书中特别提到了一位中国地理学家陈正祥先生,在用地图说话、用地图反映历史方面作出的巨大贡献,下面几张图就是陈先生绘制的中国历代诗人祖籍的地图,从唐宋到明清的变化,从中反映了人口和经济文化重心的变化过程。另外书中还提到在20世纪60年代联合国农业气象委员会等国际组织向中国索要蝗虫灾害分布的地图,由于中国从来没有这样的地图也没有现成资料,于是就个人花费8个月时间从各地的地方志查找蝗神庙的分布,间接反映蝗虫灾害的分布。
全书26万字,但我是一气呵成读完的,可谓说全程无尿点,也让我对于研究数据的热情更加高涨了。我在美国学习期间就有非常强烈的感受,即美国民众和社会习惯用数据说话,社会各个领域都有大量开放的数据。以医疗领域为例,美国CDC每年均要出版一本《Health,United States》,2010年后提供电子版,全书可以免费从美国CDC的官网上下载。而我们国家的健康白皮书大概几年会出版一次,更主要的是从内容的丰富度、详细程度上看还有很大的差距。
回到医疗角度,在医院层面上看,我们的数据的管理和使用目前也存在很多问题,原本随着病历电子化的发展,理论上说应用数据会更加方便和简单,但是实际上变化并不大,仍然是大量数据成为沉默的数据。举几个例子大家就知道了,比如我曾经在病案室搜索“肺水肿”这个诊断,想看看这个理论上发病率并不低的病实际情况如何,结果令人震惊,每年只有个位数的病例量。我分析了一些原因。
首先是整个程序架构不合理,我曾经和搞医疗数据公司的人聊过天,他们说真正要做到医疗数据挖掘,首先要改变目前的电子病历系统,因为目前这样的系统不能直接导入成电子表格,导致数据处理的低效。例如病史中吸烟史最好通过表格化,是否吸烟点击“是”或“否”,点击“是”后再进一步点击吸烟多少年,每天多少支,这样导出数据后就非常方便了。但是这样的改变数据可能会花费很多费用,该公司的人告诉我,单是一个病种就要至少8万人民币。不过如果我们能够从这些数据中有效的整理,效益可能远远不止。而且更重要的是数据提取可以提供很多研究思路。
其次,临床医生也缺乏对数据的重视,在临床工作中填写诊断时随意性很大,例如我在搜索“肺隐球菌病”时病例数少于我所收集到的,其中有不少病例诊断打成了“肺真菌病”,还有“慢性阻塞性肺病”与“支气管扩张”的诊断也混在一起。在日常工作中,马马虎虎、差不多就得 了这种心态还是很普遍的,而很多医生同时又为没有文章、科研不知道怎么搞而烦恼。如果能善用临床数据又何愁文章,不过前提是有效真实和完整的数据。