Skip to content

统计学是研究如何通过数据处理来获取结论的学问——尽管目前看来这门学问还只是各种数据处理方法的汇总,但是不可否认,多数情况下,这些方法已经人类在是现实中能够做到的最好程度了。最近看过的书中,讲解概率、各类统计分布、实验设计等内容的不少,但是就调查问卷这一具体数据收集工具而论的不多,《漫画统计学之因子分析》刚好有所涉及,虽然内容很简单,甚至原则更简单:调查者想清楚需要通过问题获取什么信息,在此基础上站在问卷受访者的角度来设计问题即可。但是,我认为这些内容仍然值得一看。

调查问卷的最佳结构:

询问“现状”(是否接触过、是否拥有、什么时候买的、在哪里买的,等等)

——>

询问“意识”(满意或不满意之处、满意或不满意的理由、价值观,等等)

——>

询问“属性”(性别、年龄、婚姻状况、收入、最高学历、家庭结构,等等)

“在调查问卷中,首先要询问受访者的行为或经验这些“现状”层面的东西,接下来在询问感觉啦、想法啦这些“意识”层面的东西,最后再询问“属性”层面的东西。这样的结构才是最佳结果。”

——《漫画统计学之因子分析》第2章

至于为什么要如此设计,原书有简单的说明,我们只要站在回答者的立场上想一想,也很容易明白,例如:如果先问性别、年龄等“属性”,回答者就会想问什么要问我的隐私?同样,如果回答者都没有接触过这种产品(“现状”),如何知道是否满意(“意识”)呢?

调查问卷的设计问题:

1.问题的分类:

  • 单项选择题:几个问题的选项相同时,可以做成表格共享选项,从而节省纸张。

  • 多项选择题:避免让受访者必须浏览全部选项才能作答,从而增加负担。

  • 数量题(需要回答具体数值的问题):用方格将每一位数字分开,避免受访者书写错误。

  • 文字题(需要自由作答的问题)

2.应当避免的问题:

  • 避免对过于隐私的问题问得太具体。

  • 避免表达不明确的问题,而应当询问得具体些。例如:询问红茶的价格如何?而不是笼统的价格如何?

  • 避免同一个问题包含两层以上的意思。例如:询问服务生的态度如何?而不是服务生的制服和态度如何?

  • 需要仔细斟酌排序的问题。例如:让受访者按照喜好程度给红茶排序,需要考虑到两种红茶喜欢程度相同的情况。

  • 避免诱导回答的问题。

  • 避免等级程度太多的问题。

  • 评分的问题要避免给受访者造成困扰。例如:没有对分数间隔定义、没有对最高分最低分设定标准、没有配图说明等。

  • 征集自由回答的问题也需要避免让受访者不知如何作答,并且避免各种千奇百怪的答案给后期处理数据造成巨大的负担。

《数理统计学简史》相对于我的阅读目标而言,内容显得有点深,但是其中的一段话令人印象深刻:

一部数理统计学的历史,就是从纵横两个方向对算术平均不断深入的研究的历史,纵的方面指平均值本身。伯努利及其后众多的大数律、狄莫弗-拉普拉斯中心极限定理、高斯的正态误差理论,这些在很大程度上可视为对算术平均的研究成果,如今成了支撑数理统计学这座大厦的支柱……

除算术平均外,在统计方法中处于次一位重要地位的量是方差(标准差),但方差不具备平均值所有的独立品格,它在很大程度上是因平均值精度研究的需要而引进。

从横的方向来看,是指有许多统计方法,看似与算术平均很不同,但从某种意义上看,是算术平均思想的发展。其中最重要的一项就点到本章的主题——最小二乘法。”

——《数理统计学简史》第4章

在《统计学漫话》的第4章“平均值与比率的精度”中,当我看到作者为了讨论用样本平均值去估计总体平均值的精度问题时,而引入了方差,特别是在例题中将各种情况下的样本平均值一一罗列出来时,样本平均值的概念突然就不再是公式里那个死气沉沉的结果了,通过推论的方式,最终得出了样本平均值的方差与原总体方差关系的重要结论——这结论又是小岛宽之先生在《极简统计学》中推导许多结论的前提。

以前总不明白F分布到底是什么?《统计学漫话》的第9章“方差分析法”终于对这个问题进行了解释,而这种解释的基础是将方差分解为各种因子和随机误差的线性组合,不同于《漫画统计学之因子分析》这样直接引用结论的书,本书直接向读者展示了如何分解的操作过程,这体现在随后的“完全随机化设计”中:通过将数据分组求平均值、对所有数据求平均值,再做进一步推导的处理思想。

上述过程中,方差似乎与平均值无关,然而,《极简统计学》第二章附录中关于取平均值方法的讨论,可以让我们看到:方差其实也是一种平均值。并且与《数理统计学简史》作者认为方差重要性不如平均值的观点不同,《极简统计学》的作者在序章中就表明“本书最重视标准差”(标准差就是将方差开方所得)。尽管如此,作为读者,我却认为这几本书的互补性很好。

就这样,经过上述知识的熏陶,我发现,原本以为简单的平均值其实一点都不简单,甚至连这些平均值最基本的分类及其对应的用途,我都没有完全搞清楚。所以,《极简统计学》关于平均值的讨论仍然让我长了不少知识。

小时候一直认为平均值就是“两数相加的和除以二”——算术平均值,后来听说过几何平均值,但是因为实际中没有用过,逐渐将其定义也忘记了,再后来学概论统计知道了中位数、众数的概念——并且掌握了用途,如今,通过《极简统计学》才知道,平均数的大家庭里原来还有均方根、调和平均数。

下面以x和y分别表示两个数,

“这些平均值全都存在于x和y之间,实际上也就是选出某一个数的操作。根据平均的方法,选择的数值各不相同,但都是“选出x和y之间的某一个数”。至于哪个数更“适合代表x和y”,取决于“想通过全部数据知道什么”。即以用途来区别使用就可以了。

如果“想在合计的意义上保持其本质”应该使用算术平均数;如果是“对待成长率等情况,想在乘法的意义上保持其本质”则使用几何平均数;另外,对待“速度”应该使用调和平均数。

比如,思考一下两个考试分数——10分和90分的平均数。

算术平均数是(10+90)/2=50

几何平均数是(10×90)^(1/2)=30

均方根值是[(10^2+90^2)/2]^(1/2)=64.03

调和平均数是2/(1/10+1/90)=18

(每个都是在10和90之间的数)。

因此,如果这两个分数是你两次考试的结果,那么告诉父母的时候,说均方根值可以使他们看到更大的平均值。另外,当自己考了10分,朋友考了90分的时候,告诉父母调和平均数,就可以辩解说“自己的成绩10分虽然很差,但平均18分说明大家都很差”。”

——《极简统计学》第2章

以下对上述平均值的理解做个说明:

  • 调和平均数:2/(1/x+1/y),将x理解为去程的时速,y理解为返程的时速,调和平均数就是平均时速。单程按照1公里来算,去程花费的时间为1/x,返程花费的时间为1/y,往返2公里花费的时间就是1/x+1/y,所以平均时速就是2/(1/x+1/y)。

  • 均方根值:[(x^2+y^2)/2]^1/2,对比方差的公式即可发现,假设有两个数a1和a2,两者的算术平均值为b=(a1+a2)/2,如果令x=a1-b,y=a2-b,则原式正是将方差开方得到的标准差。

  • 几何平均数:(x×y)^1/2,例如:某企业的销售额某年增长了50%,次年减少了4%,即x=1.5,y=0.96,那么从这两年来看企业的增长率即为(1.5×0.96)^1/2=1.44^1/2=1.2,即20%。也就是与连续两年各增长20%的结果相同,即1.2×1.2=1.44,表示连续两年各增长20%,销售额达到最初的1.44倍,这与第一年增长50%,第二年减少4%的结果一致,因为1.5×0.96=1.44。事实上,根据复利的计算公式,我们可以看到,其实几何平均数算出来的正是按照复利计算的年增长率。

假设检验中,对于“零假设”和“备择假设”的理解,一直是读来让人困扰的问题。在《漫画玩转统计学》这样的书中,作者不过是将其分为几类,读者只需要按照分类操作即可。但这始终无法解释:为什么零假设是这样?而备择假设是那样?两种假设能否互换?

《机会的数学》中,作者对此的解释是:“无罪推定”。假设要验证某种药物对疾病的治疗效果,也就是说这种药到底对于治疗有没有用,零假设一定认为是没有用,而备择假设则认为是有用,由此展开后续的检验。《统计学关我什么事》虽然主要是介绍贝叶斯统计方法,但是对于内曼-皮尔逊式假设检验也提出了一个更清晰的解释:“若假设A成立,再设定一个只有在小概率α的情况下能观察到的现象X。”再结合《爱上统计学》中有关显著性检验的解释。

于是,我们可以这样理解“假设检验”:寻找/构造一个统计量,使其能够在满足零假设的条件下,对应一种小概率的事件/现象,然后人为设定这个小概率事件的可接受的最小发生概率值——如果事件发生的概率比这个值还低,就认为这种事件/现象不可能发生,通常可接受的最小发生概率被设定为0.05或0.01(所谓的p值,愿意承受的风险水平,也就是显著性水平——低于这个值就不显著了)。结合概率密度的分布图(面积才是概率),如果实际计算出来的概率密度的值(例如:z值、t值、卡方值等)大于所设定概率对应的概率密度值,则事件/现象的发生概率比可接受的最小值还小,这被认为是不可能发生的“小概率事件”,所以零假设被拒绝,我们接受备择假设;如果实际计算出来的概率密度值小于所设定概率对应的概率密度值,则无法做出判断,这种情形下,零假设的解释只能被认为是目前最好的解释。

那么,我们能否将零假设与备择假设互换呢?依照上面的假设:如果我们能够寻找/构造一个统计量,使其在满足备择假设的条件下,对应一种小概率的事件/现象,那么我们也可以将两种假设互换。但是现实情况下,能够并不容易找到满足以上条件的统计量(将“没有影响”作为零假设时,样本多时可以使用正态分布、样本少时可以使用t分布,或者通过它们构造新的分布,往往可以得到需要的统计量,但是将“有影响”作为零假设时,则没有现成可用的统计量——没人以前研究过你这种特定情形的概率分布,以供你参考对比),所以通常不会将两种假设互换。

对于“区间估计”,结合《漫画玩转统计学》中的相关操作(《机会的数学》中置信区间的表达更加详细),考虑到标准正态分布(概率密度图)有这种特性:均值(数学期望)为零,并且均值两边对称,且在均值两侧一个、两个、三个标准差以内的概率(面积)分别约为68.27%、95.45%、99.73%。其中,95%的概率(即显著性水平为p=1-0.95=0.05)对应于1.96个标准差(z=1.96),这可以解释为:符合该概率分布的事件以95%的可能性落在(-1.96,1.96)内(均值为0),这就是置信区间。另一方面,任何正态分布都可以通过z变换为标准正态分布,于是,通过z变换的表达式即可解出在这种显著性水平下,该正态分布的置信区间。最后,大数定律和中心极限定律又保证了这种估计方法的应用范围较广。

那么,对于非标准正态分布——例如偏态分布而言呢?根据上面的理解思路,如果无法将偏态分布转换为某种标准形式,我们只能借助于微积分工具,针对特定的概率密度函数做“置信区间”的计算,而且需要借助于“偏度”、“峰度”的辅助描述。

“什么是测量?依据一定的规则给观察结果分配一定的数值……

测量的尺度或规则是测量观察结果的特定水平。每一个水平都有特定的属性特征集。测量尺度以四种形式(或类型)出现:定类、定序、定距和定比……

……

总之……

这些测量尺度或规则表示观察结果在特定水平被测量。而且,我们可以这样说:任何的测量结果都能够归属到四个测量尺度中的某一个。

  • 测量尺度有一定的层次,是从最不准确的定类尺度到最准确的定比尺度。

  • 测量尺度“越高”,收集的数据越准确,并且数据包含的细节和信息越多。例如,了解一些人富裕一些人贫困可能已经足够(这是定类或分类的区别),但是准确地知道每一个人收入的多少(定距或定比)会更好。一旦我们知道每一个人收入的所有信息,就很容易对其进行简单的“贫/富”划分。

  • 最后,比较高的测量尺度包含所有在其之下的测量尺度的特性,如定距尺度包含定类尺度和定序尺度的特性。例如,你知道熊的攻击平均值是350,你知道这比老虎(老虎的攻击平均值是250)好100,同样你也就知道熊比老虎好(但不知道好多少),而且熊与老虎之间存在不同(但是不知道到底怎样不同)。”——《爱上统计学》

定类测量水平:

  • 定类测量水平是以观察结果的属性特征定义,也就是观察结果只适合一个而且唯一的一个分类或层级。

  • 例如:性别、种族、政党背景都是定类变量。

  • 定类水平的变量是“名称”,而且是准确水平最低的测量。

  • 定类测量水平的各个类别相互排斥。例如:政治背景不能同时是民主党和共和党。

定序测量水平:

  • 定序测量水平的“序”表示次序,而且被测量的事物按照它们的属性特征排序。

  • 例如:一份工作的应征者的次序,我们只知道A比B靠前,但不知道靠前多少。

定距测量水平:

  • 定距测量水平是指检验或评估工具是基于某种连续统,这样我们就可以讨论一个较高的成绩比较低的成绩低多少。

  • 例如:A的词汇测试成绩是10个单词正确,B的词汇测试成绩是5个单词正确,所以A的正确数量是B的两倍。

  • 定距尺度的一个显著特征是尺度上的每个间距都相等。

定比测量水平:

  • 定比测量水平的评估工具的特征是测量尺度中有绝对零值。这意味着被测量的特质完全不存在。

  • 例如:在物理学和生物学中可以有不存在属性特征的情况,如绝对零值(没有分子运动)或零光程。在社会和行为科学中,这会使人迷惑,因为你的拼写成绩是0并不意味着你的拼写能力为零,答错了IQ测试的每个题目也不意味着你全无智力。

在终极的分析中,一切知识都是历史;

在抽象的意义下,一切科学都是数学;

在理性的基础上,所有的判断都是统计学。

……

不确定性知识+所含不确定性量度的知识=可用的知识

……

什么是创造性?创造性可以有不同的种类。最高水平的创造性是一种新思想和新理论的产生,这种新思想或新理论与任何已存在的结构有着本质的不同或是完全不一样,完全不能从已有的理论演绎而成,这种新思想或新理论可以比任何已知的理论解释更广范围的自然现象。另外一种不同水平的创造性是指在一个已存在法则范围内的新发现,但这种新发现在某个特殊的领域内具有巨大的意义。可以确认,这两种创造性均是新知识的源泉。然而两者之间存在微小的区别:第1种情形中,创造的是一种先验的思想,将由后来对事实的观察来加以验证;第2种创造性则是对现有知识在逻辑上的扩展。我们或许可以对第2种创造性的产生过程的背景做一些想象,而第1种创造性的产生却超越了我们的理解。拉曼纽扬和爱因斯坦是如何创造出他们所做的工作?尽管他们对创造性有一些神秘的解释,我们却永远不会了解他们工作的实际过程。然而我们可以用某些方法来描述创造性的特点。

非常重要的发现决不是由逻辑推断和强化观测基础来得到的。显而易见,创造性的一个必要条件是让思维不受已有知识或成形的规则所束缚,让其能自由地思考。或许产生新发现之前的思考仅仅是一个模糊的形式,是随机搜索相互作用的一次成功。这种随机搜索可以找出一些新的框架,与过去的经验和潜在的意识一致,从而缩小新发现可能产生的范围。克斯特勒(A.Koestler)在描述创造性的思维时说:

   在发现的最后的决定性阶段,思考的内容漂浮在梦里、幻想中,盘绕着整个思维,此时思潮随着自己抑扬的情绪无拘无束地活动,明显地处于一种没有任何约束的状态。

当一个发现最初被公布时,在其他人看来会没有任何意义,且看起来非常主观,实际上对爱因斯坦和拉曼纽扬的发现的反应就是如此。经过数年的实验和验证才认可了爱因斯坦的理论为一种新的规范,也许要经过半个世纪才能认识到拉曼纽扬那个看起来很离奇的公式具有深奥和意义非凡的理论基础。关于随机思维、随机性在创造性中的作用,霍夫施塔特(Hofstadter)作了如下评论:

   众所周知,随机性是创造性不可缺少的因素。……随机性是人类思维中内在的特征,不是通过赌博、衰减原子核、随机数表或其他你所知道的来人为培植的。如果认为随机性就是随心所欲的话,则是对人类创造性的侮辱。

或许,随机思考是创造性的重要成分。但是如果把它作为唯一的因素,则各种不重要的推断都会像蜘蛛网似的罩在前面,速度之快会使逻辑推导难于与其同步。所以我们要求其他的因素,如细致的心理准备,对重要的有显著意义的问题的判断能力,迅速领悟什么样的思想能够产生丰硕的结果。最重要的是要具有一定的信心去追逐研究困难的问题。最后一个方面是当今很多科学研究中所缺乏的,关于这一点,爱因斯坦曾强调:

   我丝毫不能容忍某些科学家,他们取一块木板在上面寻找最薄的部位,在那些容易打孔的地方钻开无数个孔。

我已经提到爱因斯坦和拉曼纽扬是我们这个时代两位具有创造性思维的伟大思想家或许了解一点儿有关他们创造性思维的过程是有趣的。有人问到爱因斯坦关于创造性思维的问题时,爱因斯坦这样回答:

   任何写出的、讲过的词汇或语言在我思考的结构中似乎不起任何作用,作为思维元素存在的物质实体似乎是某些符号,和一些或明或暗的想象,这些想象被‘随心所欲地’再生和组合。……这种组合性的思维活动似乎是创造性思维的基本特征——这种思维活动产生于存在一种能用文字或其他符号来与其他人交流的逻辑性结构之前。

爱因斯坦研究的是科学中的一个重要分支——物理学。一个科学理论只有当在现实世界中建立起它的实际应用时才是有价值的。但是这个科学理论在它产生的初期,是由强烈的信心而不是由演绎或归纳推导来支撑的。这个观点反映在爱因斯坦的关于神的旨意的格言中:

   神是狡猾的,但是不怀恶意。

拉曼纽扬是研究数学的,按著名数学家维纳(Wiener)的说法,在严格的意义下数学是一门精美的艺术。一个数学定理的有效性是就它严格的证明而言的。就像数学家要让人们相信的那样:与其说定理本身不如说它的证明是数学。对拉曼纽扬而言却只有定理或公式,这些定理或公式的有效性是基于它的直观或信念的。拉曼纽扬以极美的艺术品的形式记录下他的公式——他说这些公式是上帝在梦中赐给他的,一个方程除非可以用来表达上帝的一个旨意,否则对他来说就是无意义的。上帝、美和真理这三者被认为是等同的。如果拉曼纽扬不相信这一点,我们就不会有拉曼纽扬了。”

——C.R.劳《统计与真理:怎样运用偶然性》