【稿件来源】南方日报出版社
【作者】蓝云
《从1到π———大数据与治理现代化》,蓝云编著,南方日报出版社2017年5月版。
佛山顺德信理咨询公司董事长李少魁不但是名优秀的企业家,还是一位民间经济学家,出版了多本经济学专著。他长时间参与、关注广东及中国的网络问政、民间智库发展事业。近年几次见面,他几乎每次都会问我“什么是大数据”。我的回答综合起来是这样的:
1、大数据的“大”是相对的。“大”是一个形容词,具有相对性。姚明身高2.26米,与他相比,2米大汉也是矮人。50年后我们再谈大数据,会有另外一个标准。而对原始人来说,到“3”就是数量很多了。在大数据概念流行之前,在金融、气象、经济学、军事、航空航天等领域,早就采用了类似大数据的研究手段。
2、大数据是摩尔定律的必然结果。摩尔定律带来的存储技术的快速提高、存储成本的快速降低,客观是信息、数据大爆炸的最大推手。我们一起来了解一些二进制体系下的数据基本换算单位,记住“兆吉太,拍艾泽”六个关键字就可以了。大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”(TB)为单位。Twitter每天产生7TB的数据,Facebook为10TB。一个城市的视频监控镜头约为50万个,一个摄像头一个小时的数据量就是几个G,每天的视频采集数量在3PB左右。2020年全球将拥有35ZB的数据量。
数据基本换算单位 | |||
1B | 字节 | 8b(bit位) | |
1KB | 千字节 | 2的10次方 | 1024B |
1MB | 兆字节 | 2的20次方 | 1024KB |
1GB | 吉字节 | 2的30次方 | 1024MB |
1TB | 太字节 | 2的40次方 | 1024GB |
1PB | 拍字节 | 2的50次方 | 1024TB |
1EB | 艾字节 | 2的60次方 | 1024PB |
1ZB | 泽字节 | 2的70次方 | 1024EB |
3、云计算是大数据的算力基础。没有云计算的诞生,就不可能有大数据。要准确理解大数据,必须从云计算说起。2006年8月9日,谷歌CEO埃里克·施密特在搜索引擎大会上首次提出“云计算”(Cloud Computing)的概念。而后,亚马逊公司与2006年8月24日推出了弹性云(Elastic Compute Cloud)的公共版本。近几年来,国内云计算能力迅速发展,百度云、阿里云、腾讯云作为互联网企业的代表,华为、浪潮作为硬件设备的代表,产业能力已经和全球领先企业并驾齐驱。这种新型的计算方式,具有如下几种重要的特征:首先是计算体系规模庞大,一般由数量惊人的计算机群构成,谷歌云计算拥有的服务器超过100万台;其次是计算成本非常低廉,企业不必自建费用高昂的数据中心,只需付出较少的采购费用,即可享受云服务商提供的专业而强大的计算能力;第三,云计算服务具有按需分配和伸缩扩展的有点,云计算系统是一个机器庞大的资源池子,用户可以随时、随地、按需灵活地购买,就像购买煤气和自来水一样便利。云计算甚至可以让普通用户体验每秒10万亿次的运算能力,有了这种能力,模拟核爆炸、预测气候演变、实现基因测序都不再困难。《本草纲目》就是典型的大数据思维产物,只是当时还没有大数据这个名词。
4、世间万物非线性、不确定性是大数据的现实来源。让我们一起来想象一下什么叫非线性带来的“复杂”。动物园复杂吗?答案取决于你看问题的角度。你会发现动物园里有成百上千只动物,每一只都不同。你又会发现每一只动物身上有成千上万根毛发,每一根毛发都不同。你当然可以进一步描述每根毛发的复杂特性。你的结论是:动物园的复杂程度远远超过我们的想象。物理学上还有一个“不确定性原理”,该原理由海森堡于1927年提出。这个理论是说,你不可能同时知道一个粒子的位置和它的速度。这表明微观世界的粒子行为与宏观物质很不一样。该理论涉及很深刻的哲学问题,用海森堡自己的话说就是:“在因果律的陈述中,‘若确切地知道现在,就能预见未来’,所错误的并不是结论,而是前提。我们不知道现在的所有细节,是一种原则性的事情。”
5、好戏才刚刚开始,大数据目前还只是开端。以信息物理系统(CPS)为代表的具备智能属性的产品讲贯穿经济体系的各个环节,CPS实现人、物、系统的广泛互联,大数据是系统的核心和“灵魂”。无论是德国的工业4.0战略,还是美国GE的工业互联网理念,本质正式先进制造业和大数据技术的统一体。有专家预测,到2030年每人平均有7件可穿戴设备联上互联网,那个时候的大数据才进入正赛阶段,那个时候想必更会激荡人心!我们现在要做的的,建立大数据思维,做好充足的准备。
6、大数据的核心价值是打通,打破壁垒。浓缩贵阳众多优秀案例,由“大数据战略重点实验室”出版的《块数据》书籍,也明确阐述了这一要义。人类形成的大数据,更多的是以领域、行业为单位,往往是彼此割裂、互不相通的数据,这被称为“条数据”。“块数据”是一个物理空间或者行政区域形成的涉及人、事、物各类数据的总和,相当于将各类“条数据”解构、交叉、融合的数据。它可以挖掘出数据更高、更多的价值。贵阳案例、经验,值得我们高度重视。各方数据务必要打破界限,相互融通。手握海量数据却不对外适度开放,只是“财主”,不是“富翁”,更称不上“绅士”。
7、大数据带来了科学研究的“第四范式”。让我们来回顾一下科学发展历史上的几个重要范式及其变革。第一范式是指经验科学阶段(也就是依靠观察、直觉),18世纪以前的科学进步均属此列,其核心特征是对有限的科学对象进行观察、总结、提炼,用归纳法找出其中的科学规律,比如伽利略提出的物理学定律。第二范式是指19世纪以来的理论科学阶段,以演绎法为主,凭借科学家的智慧构建理论大厦,比如爱因斯坦的相对论、麦克斯韦方程组、量子理论、概率论等。第三范式是指20世纪以来的计算科学阶段,面对大量过于复杂的现象,归纳法和演绎法都难以满足科学需求,人类开始借助计算机的高级运算能力对复杂现象进行建模和预测,比如天气、地震、海啸、核试验、原子的运动等。然而,近几年来随着人类采集数据量的惊人增长,“摩尔定律”正在突破“第三范式”的合理性和承载力,传统的计算科学范式已经越来越无力驾驭海量的科研数据了。欧洲的大型例子对撞机、天文领域的Pan—STARRS望远镜每天产生的数据多达几千万亿字节(PB),很明显,这些数据已经突破了“第三范式”的处理极限,无法被科学家有效利用。对于这个有一个更通俗的理解,此前的科学范式更多研究的是“强关系”,现在研究的是“弱关系”,就像挖煤一样,露天的,已经挖走了,剩下的煤,在地里的更深处。在更深处挖掘时,需要更好的设备、更强的体力,同时也不排除有意外的收获,比如挖到金子。
8、小数据时代的随机采样不行了。随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨,但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏差,分析结果就会相距甚远。(美国总统大选)通过大数据,能够得到“小数据”所得不到的观点和结论。很多朋友了解“抽屉”原理,将3只兔子关进两个抽屉,那么必有一个抽屉里有两只或两只以上的兔子。人的头发很多,如果两个人头发的根数一样多,那是一件多么巧合的事情。但在今天的中国,至少有1万人,他们的头发根数一样多。这不过是抽屉原理的简单应用而已。人的头发一般不会超过12万根,把头发相同的人都放到一个大“抽屉”里,总共不到12万个“抽屉”。14亿人分到12万个“抽屉”里,总有一个抽屉超过1万人。你要研究头发相同的人的基本规律,那么整体样本数据就要足够大。
9、核心数据永远稀缺,数据泛滥时代,更加呼唤击打最有力的“甜点”。科学界有这么一个评价,在所有一流的天文学家中,开普勒资质不算好,一生中犯了“许多低级的错误”,但是他有一件别人都没有的东西,就是他从老师第谷手中继承了大量的、在当时最精确的观测数据。有了这些数据,开普勒很幸运地发现了行星围绕太阳运转的轨道实际上是椭圆形的,由此他提出了三个定律,形式都非常简单,就是三句话。在网球界有一个专业术语,球拍有一个区域,那个地方接球后回球最省力,回球也最有威力,这个区域就叫“甜点”。数据泛滥时代,更加呼唤击打最有力的“甜点”数据,核心数据的价值更加宝贵。
一千个人眼中,有一千个林黛玉。我们每一个人都可以有对大数据的认知。正是这种多维认识,增加了大数据的丰富性、有趣性。(蓝云/著)
(编者注:全文具体表述,含数学公式、符号以及脚注等,以南方日报出版社正式书面出版物为准)