【稿件来源】南方日报出版社 【作者】蓝云  

《从1到π———大数据与治理现代化》,蓝云编著,南方日报出版社2017年5月版。

 

2017年3月23日,在2018年世界杯亚洲区十二强赛的一场关键比赛中,中国男足1:0战胜韩国队。国足再次成为顶级话题。其实关于国足的故事一直是非常丰富的,此前,有一段用“大数据”分析中国男足的话语在网上走红。原文如下:

在长达84年十九届男足世界杯历史上,仅有三支国家队战胜过中国队,分别是巴西、土耳其和哥斯达黎加。即便是巴西这样的球队也只战胜过中国队一次。而中国队从未在世界杯点球大战中失利过,从来没有一支球队能够在世界杯上击败过中国队两次。世界杯历史上共产生过8支冠军球队,也只有巴西队曾经战胜过中国队,欧洲诸强德意英法西荷葡等从来没有在世界杯上战胜过中国。而且,中国队在世界杯上丢球数远少于“桑巴王国”和以防守见长的意大利。另外,世界上除了巴西,中国队是另外一支敢在胸前绣五颗星的球队。

这样的表述肯定是荒唐的。以中国队只参加过一次世界杯正赛的经历、数据来做“大数据”分析,其前提就不成立。这说明,“大数据”分析必须有必要的数据量,否则就闹笑话。当然数据量不是唯一的因素。

2008年,Google通过分析5000万条美国人最频繁检索的词汇,将之与美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个热定的数学模型。最终Google成功预测了2009年冬季流感的传播,甚至可以具体到特定的地区和州,根据疾病防疫中心的事后评估,其精准度高达97%。这个研究成果发表在2009年2月的《自然》杂志上。

这个桥段被认为是大数据的一个重要应用场景,也是类似的故事引起了决策层和学术界、工业界对大数据更多的关注和重视。但是这个事例仅说了一半。

在后续的流感预测中,被寄予厚望的Google算法失灵了,比如2013年流感预警就严重出错。人们不禁怀疑:一直热捧的“大数据”怎么如此不堪?经过理性研判,可以知道,有很多原因导致了预测出错,而其中一个重要原因或许是:为了便于建立关联,涉及人员编入“一揽子”流感关键词,包括温度计、流感症状、肌肉疼痛、胸闷等。只要用户输入关键词,系统就会展开跟踪分析,创建地区流感图和流感地图。搜索引擎的开发者为了便于用户的使用,在用户输入关键词时,给出了一些推荐的关键词。由于这种推荐是精准的,意味着用户很大可能会选择系统推荐的关键词进行搜索。而从流感预测这个目标来看,其所依赖的反映用户即时需求的关键词数据事实上被搜索引擎本身加工过,实际上已经不是反映用户真实需求的数据,因此,预警出错也就不足为奇了。这个桥段对我们的提示可能在于:我们要尽可能收集“真实”的数据;我们尽可能收集“原始”的数据;我们不要认为干预数据产生的过程。

插叙一个话题。搜索引擎在给人类生活带来众多便利的同时,也存在你完全意识不到的“溢出效应”。这种“溢出效应”很难短时间内在道德层面做出判断,但是我们有必要知晓。2013年4月15日,美国波士顿马拉松大赛发生爆炸案。美国联邦调查局发现,至少有1枚炸弹的制造材料是日常就可购买到的压力锅改造而成的,据此推测是国内恐怖分子所为。2013年7月,纽约萨克福马县一对夫妻妻子用谷歌搜索了“压力锅”,而丈夫在同一时间搜索了“背包”,这导致一支由6人组成的联合反恐队,以“查水表”的名义对这对夫妻反复盘问:“你们有炸弹吗?你们有高压锅吗?为什么只有电饭煲,能用来做炸弹吗?” 对此类案例感兴趣的朋友,可进一步了解“棱镜”计划、斯诺登的报道。

大数据能为我们的工作、生活,为国家及社会的治理体系,也能为我们的思维过程带来很多的正向推进作用,在享受大数据红利的同时,我们也要注意大数据快车道上的“六大陷阱”,有研究人员将之总结为:数据封闭问题,数据割裂问题,数据隐私问题,数据歧视问题,数据独裁问题,数据垄断问题。

1、数据封闭问题。数据量确实很大,结构也很丰富,但是这些数据分布在不同的地理区域、行政部门或企业平台。比如腾讯储存了人们在QQ和微信上的言论(关系)数据、阿里巴巴记录了购物数据、百度记录了搜索数据、移动运营商记录了日常通信数据、医院记录了人体自身的健康数据……这种数据孤岛现象使得大数据分析师无法获得多样化的数据,从而阻碍数据价值的实现。也许,“数据超市”或“数据交易中心”的建立在一定程度上可以缓解“数据孤岛”问题。

2、数据割裂问题。数据缺乏结构化、物理实体与虚拟实体或者虚拟实体之间缺乏有效的映射,这就使得多源数据的整合成为棘手的问题。来自IDC的报告显示,2012年全球数字信息中90%的信息都是视频、声音和图像文件等非结构化信息,这使得数据转化、分析需要充分借助新技术手段,而在此过程中数据的真实性、完整性会遭到破坏。

3、数据隐私问题。“数据为王”“数据权就是行政权”已成为各行业巨头、政府管理部门的共识。“数据淘金潮”“ 共享经济战略”等激励商家使用各种手段收集消费者各类数据,消费者在享受这些便利服务的同时,也将自己的数据、隐私暴露给商家。政府从国家管理的角度也在有意无意地记录公民隐私,这本无可厚非,这些数据如被不法分子使用,其社会后果非常严重。数据领域也成为大国博弈之间的重要战场。

4、数据歧视问题。过于依赖已获得的、能得到的数据而产生对事件本质的误判。科幻电影《少数派报告》里面有一个极端例子:假如人类数据分析能力已强大到可预测人类个体的犯罪行为何时发生,此时会有一个可怕的伦理问题,即该个体会为即将可能发生的犯罪负责而不仅仅是对“已做”负责。这可能会违反现有法律精神,也超出大部分法律工作者的想象。数据歧视问题在生活中会以各种面目出现。比如A地警察部门积极破案,民众报案也踊跃,也允许大众传媒报道适合公开的案件,B地警察部门消极作为,民众报案积极性受重挫,大众传媒基本不报道案件,如果仅根据A地报案量、媒体案件报道量高于B地就得出“A地治安情况不如B地”结论是有失严谨的。

5、数据独裁问题。过于疑惑和迷恋数据本身而忽略了数据的本质,这个问题其实一直都存在,而并非大数据时代专有。比如政府使用绩效来评定一个官员的执政水平,这就使得官员过分注重绩效数字本身,而不是真正的“执政为民”。17世纪法国的唯理论哲学家、发明了解析几何的数学家笛卡尔,曾有一个大胆的设想“一切问题转化为数学问题,一切数学问题转化为代数问题,一切代数问题转化为代数方程求解问题”。笛卡尔想得太简单了,如果实现了他的计划,一切科学问题都可以机械地解决了。

6、数据垄断问题。具有数据垄断地位的数据型大公司、大组织因为对数据具有垄断地位而成为信息时代的垄断企业,使得本该公平的竞争从一开始就处于不公平的状态。

类似对大数据热潮的冷思考,国内外有识之士均有关注到。中国电子科技大学互联网科学中心主任周涛在《大数据时代》序里说: 希望给予大家的是一些实实在在的思考,并且唤起各位安静思索相关问题的心境。大数据是一个很重要的概念,代表了一个很重要的趋势,但绝不是一种放之四海而皆准的“万金油”概念——越是万能的,越是忽悠的。人类学家吉利福德·吉尔兹在其著作《文化的解析》中曾给出了一个朴素而冷静的劝说:“努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。”这应该是所有人面对一个新领域、新概念、新思潮是应用的负责任的态度。

今天,大数据似乎成为了“万灵药”,从总统竞选到奥斯卡颁奖、从WEB安全到灾难预测,都能看到大数据的身影,正如那句俗语,“当你手里有了锤子,看什么都像钉子”。对此务必要头脑清醒。

恩格斯说:“人看不见紫外线,但人知道蚂蚁能看到人看不到的紫外线,这显示了人的智慧。”我们即使当不成蚂蚁,也要成为能知道蚂蚁的人。(蓝云/著)

(编者注:全文具体表述,含数学公式、符号以及脚注等,以南方日报出版社正式书面出版物为准)