女士品茶无错TXT小说阅读-第17节-力力小说网

Ｂ迓鬃认嘈牛捎诖嬖谡庵侄猿跏继跫⒉ú钜斓拿舾行裕灾劣诙运芯康奈侍獠豢赡艿贸鲆桓鋈范ǖ拇鸢浮Ｒ诼迓鬃妊萁仓械氖侨范ㄐ约偕瑁蠢砺凵厦恳桓龀跏继跫际谴俪赡掣鲎钪战峁囊桓銎鹨颉Ｕ飧霰怀浦昂вΑ保╞utterfly　effect）的观念，已经被那些混沌理论的普及者们当作一个深邃而睿智的真理接受下来了。
然而，没有任何科学的证明揭示了这样一种因果关系的存在，也没有任何数学模型有准确的依据表明客观现实中存在着这一效应。它只是一种信念的表述而已，就其科学的有效性而言，它与关于鬼神的描述相去无几。而统计模型是用分布参数来对科学探索明确地进行解释，它们也是建立在对现实世界的一种信念所做的描述上。然而，我自己在科学研究上的经历让我确信，比起对信念的确定论的陈述，统计上的陈述更有可能是真实的。

混沌理论与拟合优度
混沌理论源于这样的观察：一个固定不变的确定性公式生成的数字有可能看上去是一个具有随机性的模型。早在一批数学家处理相对简单的迭代公式并绘出其结果的时候，就曾经发现过这种现象。在第9章，我曾经把一个迭代公式描述为：首先得到一个数，接着把这个数代入方程式中得到另一个数，用第二个数又得到第三个数，如此等等。其实，早在20世纪的最初几年，法国数学家亨利？普安卡雷（Henri　Poincaré）就尝试着把这些连续的成对数值绘在图上，用这种方式理解一组复杂的微分方程式。普安卡雷在图中发现了一些值得关注的图式，却因不知道如何对这些图式做进一步的研究而放弃了深入研究的想法。而混沌理论就是以普安卡雷的这些图式为起点发展起来的。当你在绘制一张普安卡雷图形（Poincaré　plots）时，会发现图纸上出现的那些点起初好像完全不成形状，表面上这些点以一种偶然的方式出现在随便什么地方，但承受着绘在图上的点数的不断增加，图式开始显现出来，有时是几组平行线，有时也可能是一组相互交叉的线，或许是很多个圆，或是和直线相交的圆。
混沌理论的拥护者认为，现实生活中那些看上去是纯随机的测量值，实际上是由某个确定性的方程组生成的，这些方程可以从普安卡雷图形的模式推演出来。例如，有些混沌理论的拥护者记录下了人类心脏动脉搏动的间隔时间，并绘成普安卡雷图形。他们声称在这些图上看到了一些形状，并且已经发现一些似乎能产生同类形状的确定性生成方程。
直到写这本书时为止，以这种方式应用的混沌理论仍存在着一个严重的缺陷。根据数据绘出的图形与用一组特定方程组生成的图形，这两者之间的拟合度如何，并未测量。他们只是要求读者观察两种相似的图形，并以此为依据证明给出的生成方程是正确的。统计分析上已经证明这种用肉眼检验的方式难免出错。因为，用肉眼判断类似的或几乎完全相同的两个图形，如果改用为此目的创建的统计分析工具仔细检验之后会发现，两者往往是大不相同的。

皮尔逊的假使优度检验
这是K？皮尔逊在他的学术生涯早期就已经意识到的一个问题，K？皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验“（goodness　of　fit　test）。通过观测值与预测值的比较，皮尔逊构造出一种能对拟合优度进行检验的统计量，并称之为“χ2拟合优度检验”（chisquare　goodness　of　fit　test）。之所以用希腊字母χ（读作“kai”），是因为这个检验统计量的分布属于一组偏斜分布，而他称这组偏斜分布为χ家族（chi　family）。实际上，这个检验统计量很像χ的平方，因此命名为“χ2”。在费歇尔看来，既然是一个统计量，就会服从一种概率分布。K？皮尔逊证明了无论用哪一种类型的数据，χ2拟合优度检验都服从相同的分布。也就是说，他能列出这个统计量的概率分布表。每一个检验都能用到同样的那套表。χ2拟合优度检验只有一个参数，费歇尔称之为“自由度”。费歇尔在1922年的那篇论文里，首次批评了皮尔逊的研究，指出在比较两种比例时，皮尔逊得出的那个参数值是错误的。
但是，没有任何理由只因为皮尔逊理论上的一个很小的错误，就贬低他的这项伟大成就。皮尔逊的拟合优度检验是现代统计分析中一个重要组成部分的先驱，这个重要组成就是“假设检验”（hypothesis　testing）或“显著性检验”（significance　testing），它允许分析人员提出用来模拟现实的两种（或多种）不一致的数学模型，然后利用数据来放弃其中的一个。假设检验应用得如此广泛，以至于很多科学家认为这是他们唯一能用的统计方法。在后面的章节中我们会发现，假设检验的应用甚至涉及到一些严肃的哲学问题。

检验女士是否真能品尝出茶的区别
假设我们要检验那位女士能否品尝出两杯茶的不同：是把牛奶倒进了茶水里，还是把茶水倒进牛奶里。我们给她两杯茶，告诉她一杯是茶水倒入牛奶里，另一杯是牛奶倒入茶水中。她尝了尝，正确区别开了这两杯茶。有可能她是凭猜测，猜对的机会是一半对一半。我们再给她同样的这样两杯茶，她又说对了。如果她仅仅靠猜测，那么连续两次都猜对的机会是四分之一。如果我们再给她两杯茶，假如她仍然能正确地分辨出来。若这人结果完全是猜出来的，此时猜对的机率则只有八分之一。我们继续两杯两杯地让她品尝更多杯茶，而她依然每次都能够正确地识别出来。某种意义上，我们就不得不相信她真的能品尝出其中的差别了。假定她说错了一次，假定说错的这一次就发生在第24组，而其他的全对，那么我们能否依然认为她真的有分辨不同奶茶的能力呢？假如她的错误是二十四分之四呢？或是二十四分之五呢？
假设检验（或者说显著性检验）是一种正规的统计方法，是在“待检验的假设为真”的假设前提下，用来计算以往观测到的结果发生的概率。当观测结果发生的概率很低时，我们得出原假设不成立的结论。重要的一点是，假设检验提供了一种拒绝某个假设的工具。上述例子中，待检验的假设是：那位女士只是凭猜测。假设检验的目的不是让我们接受某个假设，即使与那个假设有关的概率非常高也不能接受。
在这个普遍被接受的概念发展的早期，“significant”（显著的）这个词只是用来指“概率低到足以拒绝的程度”，数据如果可以用来拒绝某个分布，则它就是显著的。在19世纪后期的英语里，这个词仅仅是指计算结果意味着或表明了什么意思。进入20世纪之后，英语“significant”这个词在原有含义的基础上又扩展了其他的解释意义，也指某些事情是非常重要的。在某个待检验的假设条件下，统计分析仍沿用“significant”这个词“显著的”含义来表示计算结果发生的概率很低，在这个层面上，“significant”这个词有一个精确的数学涵义。但令人遗憾的是，使用统计分析的人常把显著性检验统计量理解为某种更接近这个词的现代语意的东西。

费歇尔对P值的运用
现在运用的显著性检验方法，其中大部分都是费歇尔构造出来的。他把判定具有显著性的那个概率，称为“P值”（Pvalue）。他对P值的涵义和有效性坚信不疑。在《研究工作者的统计方法》一书中，很多地方都专门介绍了怎么计算P值。正如我在开头的时候谈到的，这是一本专门给想要应用统计方法的非数学专业人士写的书。在这本书中，费歇尔并未解释这些检验是如何推导出来的，也从没有明确指出究竟多大的P值才算是显著的。他只是举出一些计算实例，并说明结果是否显著。在一个例子中，他给出一个小于0。01的P值，并且说明“一百个值当中，只有一个值会偶然超过（计算出来的检验统计量），因此，很显然，计算结果之间的差异具有显著性。”
1929年，费歇尔在《心灵研究学会刊》（Proceedings　of　the　Society　for　Psychical　Research）上发表的一篇论文中，几乎等于定义了一个在任何情况下都将是显著的特殊的P值。“心灵研究”（psychical　research）提到试图用科学的方法来证明“超视力”的存在。心理学的研究人员大量运用了统计学的显著性检验来证明，在受实验者完全随意猜测这种假设条件下，其结果是不可能的。费歇尔在他这篇论文中，先是谴责某些作者完全错误地使用了显著性检验，接着他申明说：
运用生物学的方法对生物界进行观察的时候，统计学的显著性检验是必不可少的。其作用就在于防止我们被一些非主要的偶发事件所欺骗。并不是因为我们希望去研究或试图去查明这些偶发事件，而是因为它们与许多我们无法控制的其他境况联系在一起。一个观测的结果，倘若在我们正在寻找的真正原因根本不存在的情况下，几乎从未发生过，可以判断这个观测具有显著性。如果偶然发生的机率低于二十分之一，通常的做法是判断其结果具有显著性。对实际调查者来说，显著性水平的选择是任意的，但便于应用。不过，它并不意味着可以让自己每20次实验中就被骗一次。显著性检验只是告诉他什么是应该忽略掉的，也就是说应该把所有那些无法得到显著性结果的实验忽略掉。当他知道如何设计一个实验，而这个实验几乎一定能给出一个显著性的结果时，他也只能说明，这仅是一种实验上可以验证的现象。所以，对那些孤立的具有显著性的结果，他不知道如何才能让它们再现出来，只能留待以后再做进一步的调查研究了。
注意“……知道如何设计一个实验，而这个实验几乎一定能给出一个显著性的结果……”这句话，正是费歇尔使用显著性检验

《女士品茶》

下载本书

女士品茶- 第17部分