一档电视节目中,于北辰表示:导弹一发拦截率70%。三发就是210%。以上为中国台湾网视频报道节选。
据环球网援引岛内媒体的报道称,8月份宝岛台军一名退役将领在一档电视节目中活活说了一出“相声”。在一档“政论相声”节目中,名声在外的台湾名嘴、前台军退役少将于北辰再次闪亮登场,他在评论台湾对大陆弹道导弹的拦截能力时,自信满满地说:“台军装备的天弓三型导弹对大陆导弹的拦截概率达到70%,所以,我们不要一发一发打,那样太冒险,我们直接三发齐射一起打,那样拦截概率就能达到210%!”照于北辰这个思路,四杯25℃的水倒在一起,就是100℃。这个荒谬笑话的背后,牵涉到一些概率、数学知识,以下我们一起来讨论。
一、“拦截概率能达到210%”?
这个说法当然是错误的。我们从逻辑和概率论上分别指出其错误所在。
(一) 归谬证明
因为只有拦截成功和失败这两种情况,拦截成功率p=70%,失败率q=1-p=30% 。如果按照这位少将的逻辑, 失败率=30%·3=90% 。此时拦截成功率只有1-90% =10%。
一个问题从不同的角度使用相同的方法得出不同的结论,显然是方法错了。
(二) 另一个更简单发现错误的方法
对于一些问题,我们可以通过数学中的公理和定理来判定其正确与否。对于发射反导弹成功概率问题,实际上涉及到的是概率定义的问题。
概率有多种定义,如古典定义、几何定义等,下面选一个不是那么过于形式化的易于理解的现代定义。
设E是随机试验,S是它的样本空间。对于E的每一事件A赋于一个实数,记为P(A),称为事件A的概率。这里P(·)是一个集合函数,P(·)要满足下列条件:
(1)非负性:对于每一个事件A,有P(A)≥0;
(2)规范性:对于必然事件S,有P(S)=1;
(3)可列可加性:设A1,A2……是两两互不相容的事件,即对于i≠j,Ai∩Aj=φ,(i,j=1,2……),则有P(A1∪A2∪……)=P(A1)+P(A2)+……
从上面定义可知概率的取值为 [0,1]这个闭区间,“拦截概率就能达到210%”违背了概率的规范性,所以肯定是错的。通过这个简单的方法一下就能判定以上说法是错误的。所以,今后谁再说200%完成任务,我们就当成是一个修辞来理解了。
二、 从概率的角度来求解这个问题
那么,同时用三枚成功率为70%的拦截弹拦截的成功率到底多少呢?我们通过概率论的知识来解决这个问题,下面做一个详细的说明。
(一) 问题整理
这个问题先把其整理如下:单枚反导导弹拦截成功的概率 p = 70%, 同时发三枚,拦截成功的概率是多少?
(二) 问题求解
首先介绍一个非常重要的概念,随机变量。
如果X指定给概率空间中每一个随机事件 e有一个实数X(e),同时针对每一个实数 r都有一个事件集合 Ar,其中 Ar = { e : X(e) ≤ r },那么X被称作随机变量。随机变量实质上是把随机事件映射为实数的函数。随机事件由随机变量替代,是将概率从古典的静态分析转化到现代的动态分析的核心,也可以使用分析、线性代数等数学工具对概率问题进行纯数学加工了。
回到问题,一枚反导导弹拦截结果是一个随机变量Xi,Xi的结果只有两种,要么成功,要么失败,我们把这样的随机事件叫做伯努利事件,这种情况叫做Xi服从两点分布。每一枚反导导弹拦截成功与否是相互独立的事件,n个拦截事件构成了n重伯努利实验,用随机变量X来表示的n个拦截事件构成的总体就服从著名的二项分布。我们记作X~B(n,p), n次试验中正好得到k次成功的概率由概率函数给出:
其中,,这是我们在高中学习排列组合中用到过的二项式系数,也使用来表示。这也是二项分布名称的由来。在公式①中,p为拦截成功的概率,等于 70%。
我们在计算三个拦截导弹同时使用时成功的概率,当然可以按照一枚成功、两枚成功、三枚都成功这三种情况来计算,但是这样计算比较复杂,可以计算三枚都失败的概率,根据概率的规范性,然后用1来减就可以。计算如下。
将X=0,n=3,p=0.7, 带入①中,注意,得到
1 – P(X=0) = 1 – 1×0.70×0.33 = 97.3%
这就是我们得到的结果,如果三枚反导导弹同时使用拦截成功一枚攻击导弹的概率为 97.3% 。
请注意,总体X是一个分布,构成X的单个事件Xi也具有自己的分布,这是在实际应用中容易忽视的地方,请留意。
(三) 进一步讨论与应用
进一步还可以根据公式分析如果单枚导弹提高拦截成功率至80%,三枚反导导弹拦截成功率是多少?
如果把总拦截成功率(如98%及以上)作为一个目标,单枚反导导弹拦截成功率有两种,分别是A的70%和B的80%,但是二者的价格分别是400万元/枚和500万元/枚,选用A单价便宜但是需要的数量多,选用B刚好相反,该怎样取舍,这就需要在公式①的基础上以总拦截目标成功率位约束条件分别计算花费来帮助决策。
(四) 错误原因分析
通过以上对概率论知识的简单介绍和进行的分析,我们再回过头看看台军退役少将的错误在哪里。
在做概率分析时,初学者和普通人最常出现的问题是错误地设置了样本空间。样本空间是一个实验或随机试验所有可能结果的集合,而随机试验中的每个可能结果称为样本点。只有在正确的样本空间中进行分析才能得到正确的结果。假设我们把拦截成功与失败的的结果分别简记为“是”和“否”,则单枚反导导弹的样本空间为{是、否}两个样本点。而三枚反导导弹的样本空间为(是,是,是),(是、是、否),…,(否、否、否)共 3×3×3 = 27种情况。二者是完全不一样的。
三、 概率与数理统计简单梳理
(一) 概率的产生和发展历史
概率论最早是探索赌博(博弈)游戏开始的。有关赌博最早的一个数学问题出现在1494年意大利修士、数学家巴乔罗(Luca Pacciolo)的著作《算术,几何,比例和比值要义》中。
16世纪。意大利学者吉罗拉莫·卡尔达诺(Girolamo Cardano,1501.9.24-1576.9.21)开始研究掷骰子等赌博中的一些简单问题。他是“古典概率论”的创始人。
17世纪。1646年 法国数学家布莱斯·帕斯卡(Blaise Pascal,1623.6.19-1662.8.19)与法国数学家费马(Pierre de Fermat,1601.8.17-1665.1.12)通信,他们一起解决某一个上流社会的赌徒兼业余哲学家送来的一个问题,他弄不清楚掷3个骰子出现某种组合时为什么老是输钱。在这一问题的讨论中,产生了“概率”和“数学期望”等基本概念。帕斯卡的这封信被公认为是概率论的第一篇文献,是数学史上的一个里程碑。建立了概率论和组合论的基础,得出了关于概率论问题的一系列解法,奠定了近代概率论的基础。
18世纪。1713年 瑞士数学家雅各布·伯努利(Jakob Bernoulli,1654.12.27-1705.8.16)的遗著《猜度术》出版了,其中他提出了概率论中的第一个极限定理,即“伯努利大数定律”,他第一个对经验频率的稳定性进行了严格地理论证明。他是使概率论成为数学的一个分支的奠基人。之后,俄国数学家、力学家切比雪夫(Пафну́тий Льво́вич Чебышёв,1821.5.26-1894.12.8)在一般条件下推导出了大数定律,称为“切比雪夫大数定律”。这就是历史上著名的大数定理和中心极限定理。他们都是研究随机变量和的极限分布。1763年 英国数理统计学家托马斯·贝叶斯(Thomas Bayes,1702-1761)发表了贝叶斯统计理论。同年,Richard Price整理发表了贝叶斯的成果,提出著名的“贝叶斯公式”。贝叶斯是对概率论与数理统计的早期发展有重要影响的两位人物之一(另一位是布莱斯·帕斯卡)。而从贝叶斯定理为核心的研究形成了著名的贝叶斯统计学,与经典统计共同构筑了统计学的大厦。
19世纪。1809年 德国数学家约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauß,1777.4.30-1855.2.23)发表了《绕日天体运动的理论》,这本书中包含一节有关“数据结合”的问题,在这一节中他讨论了误差分布理论,并且在此过程中独立导出了“正态分布”并推广了其应用,同年,高斯还提出“最小二乘法”。1812年 法国著名的天文学家和数学家皮埃·西蒙·拉普拉斯侯爵(Pierre-Simon marquis de Laplace,1749.3.23-1827.3.5)发表了《概率的分析理论》。在这一著作中,他首次明确规定了概率的古典定义(通常称为“古典概率”),并在概率论中引入了更有力的分析工具,如“差分方程”、“母函数”等,从而实现了概率论由单纯的组合运算到分析方法的过渡,将概率论推向了一个新的发展阶段。1821年 德国数学家高斯针对正态分布提出“最大似然估计”。
芬兰数学家贾尔·瓦尔德马·林德伯格(Jarl Waldemar Lindeberg,1876.8.4-1932.12.12)和法国数学家莱维(Paul Pierre Lévy,1886-1971)证明了在任意分布的总体中抽取样本,其样本均值的极限分布为正态分布,被称为“林德伯格-莱维(Lindeberg-Lévy)中心极限定理”。1837年 法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson,1781.6.21-1840.4.25)首次提出“泊松分布”。1863年 阿贝(Abbe)首先提出χ²分布,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡尔·皮尔逊分别于1875年和1900年推导出来。1875年 英国科学家和探险家弗朗西斯·高尔顿(Francis Galton,1822.2.16-1911.1.17)在朋友的帮助下作了有关香豌豆的实验,通过对所得数据的分析,他终于发现子代性状有向母代平均回归的现象,并通过自然采集人体指标数据验证了所得结论,首次提出“回归”的概念。1888年 弗朗西斯·高尔顿提出了“相关指数”的概念,并在此概念的基础上发展了一种用图形估计相关系数的方法,同年,他在一篇论文中给出了第一个正式的关于“相关系数”的数字,从数量的角度刻画了两个变量之间的相关程度。19世纪下半叶 俄罗斯的彼得堡学派引入“随机变量”。这标志着概率论由古典概率时期进入到近代概率。这是概率发展史上一个重要分水岭。
20世纪。1900年 德国数学家戴维·希尔伯特(David Hilbert,1862-1943)提出要建立概率的公理化定义以解决适合一切随机现象的概率的最一般的定义。之后有“矩估计”“峰态(kurtosis)” “设检验”“t分布”“时间序列分析”“充分统计量”“F分布”“方差分析”“似然比检验”“辛钦大数定律”“概率论公理化体系”“主成分分析”“置信区间”“马氏距离”“Wold分解定理”“秩统计量”“完全统计量”、Lindley悖论、“主成分回归”、“EM算法”等重要学术研究成果。1995年 新西兰奥克兰大学的Ross Ihaka和Robert Gentleman在S语言(S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言)的基础上开发了一个新系统,由于这两位科学家的名字首字母都是R,所以该系统软件被取名为“R”。
目前,概率论还成功应用到了包括语言、管理、心理、教育等绝大多数的人文和社会科学中,而且在人口统计、保险业、误差理论、天文学等自然科学和社会科学中得到了应用,成为最有魅力的数学分支之一。
四、赌场、赌球的数学逻辑
21点本质上是一个随机游戏,每个人的输赢概率理论上均为50%,数学天才们通过分析21点背后的数学原理,转战各大赌场赢取概率红利。(赌博是国家法律严令禁止的违法行为,本文仅为学术探讨,请广大网友自觉抵制赌博。)
追根溯源,概率论起源于赌博(博弈)游戏。知道这个根本,我们就能明白澳门赌场庄家赢钱是什么逻辑。一个赌场,如果庄家100%赢,那就没有赌客上门。精明的赌场老板设计一个算法,让专家赢钱的概率是55%,赌客整体上赢钱的概率是45%(具体到每一个赌客,会有高有低),就是这个10%的差距,正是赌场营利的来源。澳大利亚有19名天才数学家组成了一个“庞特俱乐部”。他们的主要目标是赌博。他们利用数学知识进行“赌博”。全世界的赌场和赌博业都有他们的行踪。可以说,有19个人花了3年时间,总共赢得了24亿澳元(约156亿人民币)。
2008 年上映的美国赌博电影《决胜 21 点》,正是围绕 21 点开展的故事。影片中,主角所在的麻省理工学院,有一个秘密团队 Blackjack Team。这个以高智商成员组建的团队,便是靠着钻研数学技巧在 21 点赌桌上取胜。正是这部电影将赌徒谚语“Winner winner,chicken dinner”,首次捧火。电影中的吃鸡大神,在现实中的原型叫“华裔赌神”马恺文。
明白了赌场的数学逻辑,赌球的数学逻辑也就清晰了。一场足球赛,不外乎胜、平、负三种结果,庄家就是控制概率的差额,从而实现整体上能盈利。我们了解这些数学知识,就能更明白赌场的伎俩,原理赌场、赌球,是人生基本定律。
说到足球,末代甲A“输球保级”荒唐一幕让人至今难忘。这出现在2003年的中国甲A联赛最后一轮,重庆力帆对阵青岛贝莱特的比赛当中。而造成这种局面的原因只有一个:重庆力帆只有输球才能保证下赛季继续留在中超,根本原因是当年的甲A联赛制度有大漏洞。也许当年中国足协掌门人的数学是体育老师教的。这是近20年前的笑话了,现在计算机知识普及很多了,稍微懂点编程知识就能就行仿真分析、模拟演算。计算机编程的背后,还是概率的数学知识。不管球场内,还是球场外,如果你不想出丑,那就学点概率知识吧!
只要抛硬币的次数足够多,正面或反面朝上的比例越接近50%。
五、初步结论:该增强数字素养
从以上分析中可以看到,平时觉得简单的一些东西,背后都可能隐藏着一些不那么简单的原理。而数学因为其简单性、抽象性,很多时候可能会更容易达到问题的本质。因此,如果能学一些数学知识,对于可能的会碰到的数学问题可以少出现一些可能引起负面舆情的事件,也能为定量分析从而更有效为公众服务,精细化研究分析社会,实现执政能力提升都有很好的促进作用。最后,我的建议是,按照中央领导的指示要求,各级党政领导干部、企事业单位负责人要增强一些数字素养。概率论与数理统计知识,正是数字素养的一个重要组成部分。(本文作者为欧亚系统科学研究会会员、民政部低收入家庭认定指导中心大数据专家、中国商业统计学会理事,曾任亚信科技公司数据科学家、人民网舆情数据中心数学建模专家。)
【粤有数专栏作者:李伟】 【粤有数编辑:依嘉】 【粤有数审核:嘉盈】