I4Jo_SunnY
Always dream. Always explore.
Sunny的小站

SPSS中的常用方法和统计学概论【1】

本文共7144字,预计阅读时间18分钟

0/ 前言

统计学是一门收集和处理数据的学科,从数百年前作为统计人口数据的原始形态发展成现如今涵盖了数学、金融等学科的融合学科。一般来说,统计包括3个含义:统计工作统计资料统计科学。其三者之间的关系是:统计工作的成果是统计资料,统计资料和统计科学的基础是统计工作,统计科学既是统计工作经验的理论概括,又是指导统计工作的原理、原则和方法。统计学在现代化管理和社会生活中的地位日益重要,不仅是因为信息论、控制论、系统论和统计学的相互渗透和结合,使统计学进一步得到发展和完善,也是因为计算机技术的不断发展,让统计工作的效率和覆盖范围变得更加广泛。总而言之,统计学在游戏行业中也具备大量的使用场景,无论是在ToB的企业发展战略、人力资源管理、财务分析,还是在ToC的消费研究、市场预测方面都处处会用到统计学的知识进行分析。

本课程的主要目的是介绍在统计学中最常用的9种检验方法,包括检验原理和在SPSS中的操作方法。其中涉及的定理解释以感性的理解为主,并非是完全的数学证明。相关庞杂繁琐的数学证明建议阅读相关书籍。本文所包含的部分检验规则和使用方法如下图所示:

https://www.gnt007484.cn/wp-content/uploads/2022/05/1-1024x464.png

需要注意的是,上图所列出的参数检验中并不止这三种t检验,还有f检验单因素ANOVA检验等检验方法,这些内容将会在下一篇文章中另外做详细介绍。

1/ SPSS中的正态性检验

在SPSS中有许多统计测试方法可用,因此选择合适的测试方法取决于研究假设的类型和数据类型。一些统计检验依赖于初步假设,例如总体数据呈现正态分布,就会把这些检验称为参数检验,即本章所述的三种t检验。如果测试不需要对总体分布进行任何额外假设,则称为非参数测试(详细见下一篇)。假如给出了一个数据集,检查数据的正态性是确定参数测试是否适合使用的重要步骤。如果显著违反正态性假设,则应使用非参数替代方案。在下文中,我将介绍 SPSS 中针对给定数据的正态性检验程序:

关卡持续时间研究:

一个横板平台跳跃游戏的关卡被设计为需要450秒来完成。从游戏测试反馈的数据来看,样本数据值为:451,456,445,448,456,459,453,448(单位:秒)。

在人为规定的5%的显著性水平上,我们要首先测试上述游玩时间是否符合正态性假设。正态性检验本身就是一个假设检验程序,因此进行检验需要选择一个统计检验以及制定无效假设H0(The null hypothesis H0)备择假设HA(The alternative hypothesis HA)。SPSS中有两种正态性检验——Kolmogorov-Smirnov检验Shapiro-Wilk检验对于小数据集来说,Shapiro-Wilk更加稳健,因此在大多数情况下使用它。Shapiro-Wilk正态性检验的无效假设和替代假设是:

H0:游戏测试数据是正态分布

HA:游戏测试数据不是正态分布

为了在SPSS中进行正态性检验,我们需要在SPSS中进行如下操作:

https://www.gnt007484.cn/wp-content/uploads/2022/05/3.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/4.png
  • 在顶部栏点击分析(Analyse)>描述统计(Descriptive Statistics)>探索(Explore)
  • 关卡持续时间放进因变量列表(Dependent List),在下方的显示框中选择图类显示
  • 点击右边设置按钮中的图(Plots)
  • 箱图(Boxplots)选项下点击无(None),在描述图下取消选择茎叶图(Stem-and leaf)并选择直方图(Normality plots with tests),然后点选含检验的正态图(Normality plots with tests)
  • 点击确定,然后检查程序生成的结果图表
https://www.gnt007484.cn/wp-content/uploads/2022/05/5.png

Shapiro-Wilk检验结果:

检验统计量t=0.955,自由度df=8,p值=0.762

这应该以t(df)=检验统计量,p=p值的格式书写;即t(8)=0.955,p=0.763

因为p值=0.763>0.05,不能拒绝H0,所以样本数据没有足够的证据表明关卡持续时间不是正态分布的。换句话说,关卡持续时间数据集符合正态性假设。

https://www.gnt007484.cn/wp-content/uploads/2022/05/6.png

检查样本正态性的另一种非正式方法是查看正态Q-Q图中的数据点是否在均匀分布在直线两侧。如果是这种情况,那么数据集符合正态性假设。否则,如果在数据图中看到明显的弯曲,就违反了正态性假设。


2/ 参数检验

1. 三种相关的t检验

t检验程序族属于均值的参数化假设检验程序。根据研究问题和数据收集的实验设计,有三种类型的t检验程序。

(1) 单样本t检验(One-sample t-test) – 用于检验总体方差未知、呈正态分布或近似正态的单样本均值是否与已知的总体均值相等

(2) 配对样本t检验(The paired samples t-test)– 用于检验一对配对样本的均值的差异是否为零。这里的配对指两个样本值之间的样本容量相同且是一一对应的关系。

(3) 独立样本t检验(The independent samples t-test)– 用于检验比较两个独立的、呈正态分布或近似正态分布的样本均值是否相等,以确定是否有统计证据表明相关的总体平均值有显著差异。

在所有这些情况下,数据都假定为正态分布。这些检验被称为t-检验,因为在正态假设下,检验统计量的基本分布遵循t分布。这种具有一定自由度(取决于样本大小)的t分布用于将t检验统计转为p值。

2. 单样本t检验

当我们想要将某个总体特征的平均值与一个特定/给定值进行比较时,或是检验单个样本均值与给定的总体均值是否相同。如果数据满足服从正态或近似正态分布,则采用单样本t检验。让我们继续上面正态分布检验中使用到的关卡持续时间研究的例子。

关卡持续时间研究:

一个横板平台跳跃游戏的关卡被设计为需要450秒来完成。从游戏测试反馈的数据来看,样本数据值为:451,456,445,448,456,459,453,448(单位:秒)。在5%的显著性水平下,测试平均关卡持续时间是否不同于450秒。

首先,我们将在SPSS(描述性统计)中进行一些探索性数据分析(EDA),以预判数据的趋势。特别是我们将为关卡持续时间这个变量生成一些汇总的统计数据,帮助调查样本均值与450秒的差异有多大。

https://www.gnt007484.cn/wp-content/uploads/2022/05/7.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/8.png

样本平均值为452秒,略高于450秒。同时,样本的区间范围是从445秒到459秒,因此很难说真实参数是否不同于450秒。

在前文的Shapiro-Wilk检验中表明该组数据是符合正态分布的,所以在真实的关卡平均持续时间和给定值450秒之间的均值差异可以使用单样本t检验进行正式检验。在这种特定情况下,单样本t检验的无效假设和替代假设的公式为:

H0:关卡平均持续时间等于450秒

HA:关卡平均持续时间不等于450秒

为了在SPSS中进行单样本t检验,我们需要在SPSS中进行如下操作:

https://www.gnt007484.cn/wp-content/uploads/2022/05/9.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/10.png
  • 在顶部栏点击分析(Analyse)>比较平均值(Compare means)>单样本t检验(One-sample t-test)
  • 将关卡持续时间放置到测试变量栏(Test variable)内,并在下方的测试值(Test value)中输入给定的值450秒
  • 点击右边栏选项按钮,将置信区间(Confidence Interval)百分比设置为95%
  • 取消选中估算效应大小(estimating effect sizes),并点击确定获得下图结果
https://www.gnt007484.cn/wp-content/uploads/2022/05/11.png

单样本测试结果:

检验统计量t=1.169,自由度df=7,p值=0.281

应写成t(7)=1.169;p值=0.281

决策:因为p值=0.281>0.05,所以不能拒绝H0

结果:样本数据没有足够的证据表明关卡平均持续时间不同于450秒。换句话说,我们的关卡平均持续时间测试结果与450秒没有显著差异


  • 两组参数时的处理情况

在比较两组数据时,可能会出现以下两种情况。第一种情况是当两组数据相关时,使用配对样本t检验处理数据,检验配对样本之间的均值差异是否等于零,即配对项目之间是否存在差异。在第二种情况下,数据来自两个独立的组,因此应该使用独立样本t检验

3. 配对样本t检验

该检验用于比较两组不独立且有相互配对的数据集。成对数据可能以多种不同的方式出现,常见的情形有,同一受试对象的自身前后对照、同一受试对象的两个部分接受不同的处理、配对的受试对象分别接受不同的处理。下面我将以某游戏软件更新作为示例:

游戏软件更新:

一个游戏开发商已经发布了一个新的版本更新,官方公告说该更新将提升每秒的帧速率。某测试组随机选择并测试了八块显卡,每块显卡都在该游戏的更新前后两个版本上进行了测试,获得了以下结果(每秒帧数):

https://www.gnt007484.cn/wp-content/uploads/2022/05/33-1024x266.png

统计检验该游戏公司的说法

首先我们将在SPSS(描述性统计)中进行一些探索性数据分析(EDA),以探索数据中的趋势。需要注意的是,虽然在该研究中只有一个应变量 – 帧数,但数据集在两个不同的列中显示,对应于两种情况(更新前于更新后)。这种数据展示结构特定对应于同一受试对象下的成对/重复测量的数据。

https://www.gnt007484.cn/wp-content/uploads/2022/05/12.png

现在,我们可以使用SPSS生成一些描述性统计数据(使用Explore或比较工具),比较两者均值或箱型图等。

https://www.gnt007484.cn/wp-content/uploads/2022/05/13.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/14.png

要生成均值等数据描述:分析->描述统计->描述->放入变量。选择右边选项按钮,点选需要的数据描述,然后点击确定。

要生成箱型图:图形->旧对话框->箱型图->单独变量的摘要。选择定义,将两个变量放入“箱表示”框中,然后点确定。

我们可以看到,与没有更新的情况相比,更新后的样本每秒平均帧数略有增加,在箱型图中也可以看到相同的模式。问题是在于这种变化趋势是否显著,即是否具有统计学意义。

为了确定差异的显著性,我们将使用配对样本t检验对两组数据进行检验。在这种情况下,测试的无效假设和替代假设是:

H0:更新前的每秒平均帧数等于更新后的每秒平均帧率

HA:更新前的每秒平均帧数不等于更新后的每秒平均帧率

需要注意的是,尽管我们预计版本更新会增加每秒帧数,但有时游戏更新也可能产生负优化,即减少每秒帧数,因此测试正反两个方向的数据差异总是更安全的。因此,这里的另一个假设是针对双尾检验的。如果测试结果表明差异是显著的,那么我们还将根据测试的统计值决定结果的方向,即帧数变化方向是增加还是减少。

当然,正式开始配对t检验前我们必须首先检查数据是否符合正态分布。因为配对t检验是对成对数据之间的差异进行计算,所以必须检查差异的分布是否正常。该检查可以通过菜单选项“转换->计算”变量来计算差异,如下图所示:

https://www.gnt007484.cn/wp-content/uploads/2022/05/15.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/16.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/17.png

P值大于0.05,因此我们得出结论,该两组数据符合正态假设

为了在SPSS中进行单样本t检验,我们需要在SPSS中进行如下操作:

https://www.gnt007484.cn/wp-content/uploads/2022/05/18.png
  • 点击分析(Analyse)->比较平均值(Compare means)->成对样本t检验(Paired Samples t-test)
  • 在配对变量框中选择变量1为游戏更新后,变量2为游戏更新前
  • 取消选中估算效应大小
  • 点击确定,检查获得的结果
https://www.gnt007484.cn/wp-content/uploads/2022/05/19.png

配对样本测试结果:

检验统计量t=5.646,自由度df=7,p值<0.001

应写成t(7)=5.646;p<0.001

决策:因为p值<0.05;所以拒绝H0,接受HA

结论:样本数据中有足够的证据表明,版本更新后的每秒平均帧数不同于更新前的数据。并且由于假设测试统计值t=5.646为正值,所以我们可以得出结论,本次更新显著提高了该游戏的每秒平均帧数。

4. 独立样本t检验

这一次我们想要比较两个独立的数据样本组。我们想要知道这两组数据之间是否存在差异,其中一种方法是比较两组数据的均值。如果被调查的变量在两个总体中呈现正态分布,那么就可以使用独立样本t检验来正式检验均值的差异。

网络安全研究:

某公司开展了一项网络安全研究以调查伦敦科技公司的防火墙漏洞。在伦敦地区随机选择了10家公司,并测量了24小时内这些公司的防火墙被突破次数。从伯明翰地区随机选择了另外10家公司的24小时防火墙突破次数作为第二组数据,并用于比较。下表列出了这两个地区的防火墙漏洞测量值:

https://www.gnt007484.cn/wp-content/uploads/2022/05/34-1024x197.png

在5%的显著性水平上,测试伦敦和伯明翰地区之间的防火墙平均突破次数的差异。

首先我们将在SPSS(描述性统计)中进行一些探索性数据分析(EDA),以探索数据中的趋势。在下图中,对于地区变量,以0代表伯明翰地区,以1代表伦敦地区:

https://www.gnt007484.cn/wp-content/uploads/2022/05/20.png

这一次,两种变量被堆叠在同一列防火墙缺口下,并且创建了一个额外的列区域来表示这两个区域。这种数据结构的表现形式是在特定主体之间设计的。

现在,我们可以使用SPSS生成一些描述性统计数据(使用Explore或比较工具),比较两者均值或箱型图等。

对于多组数据的比较可以使用分析选项中的报告->个案摘要。对于箱型图,可以使用图形->旧对话框->箱图,并将防火墙漏洞放入变量栏,将地区放入类别轴栏。

https://www.gnt007484.cn/wp-content/uploads/2022/05/21.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/22.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/24.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/25.png

我们可以看到,伯明翰地区数据的样本平均值远低于伦敦地区的防火墙突破样本均值,在箱型图中也可以看到相同的趋势。

为了验证这些结果是否显著,我们需要对样本使用独立样本t检验的方法进行假设检验。对于该网络安全研究,独立样本t检验的无效假设和替代假设是:

H0:伦敦的平均防火墙入侵次数等于伯明翰的平均防火墙入侵次数

HA:伦敦的平均防火墙入侵次数与伯明翰的平均防火墙入侵次数不同

在进行独立样本t检验之前,我们需要先确认这两个数据集都是正态分布的。正态性检验的结果如下图所示。

https://www.gnt007484.cn/wp-content/uploads/2022/05/26.png

在这两个地区中,p值都大于0.05,所以我们可以得出这两组数据都符合正态性假设的结果。

为了在SPSS中进行独立样本t检验,我们需要在SPSS中进行如下操作:

https://www.gnt007484.cn/wp-content/uploads/2022/05/27.png
https://www.gnt007484.cn/wp-content/uploads/2022/05/28.png
  • 点击分析(Analyse)->比较平均值(Compare means)->独立样本t检验(Independent Samples t-test)
  • 将防火墙漏洞放入检验变量中,将地区放入分组变量
  • 点击定义组,并在组1下输入1,在组2下输入0
  • 点击继续,检查获得的结果
https://www.gnt007484.cn/wp-content/uploads/2022/05/29-1024x204.png

独立样本测试结果:

独立样本t检验输出了两行结果,其中一种是假设两个测试组的方差相等,另一种这不依赖于方差相等下的结果。因此,为了验证测试结果的正确性,有必要测试两组数据的方差是否相等。在SPSS中,这是在独立样本t检验下使用Levene方差齐次检验程序完成的,即上图中的左侧部分。在我们的例子中,Levene的检验p值=0.012<0.05,这表明不能假定两组方差相等。所以,在这种方差不相等的情况下,应采用上图结果中的第二行数据。检验结果如下所示:

检验统计量t=6.044,自由度df=13.029,p值<0.001

应写成t(13.03)=6.044;p<0.001

决策:因为p值<0.05;所以拒绝H0,接受HA

结论:样本数据中有足够的证据表明,伦敦的平均防火墙突破次数与伯明翰的平均防火墙突破次数有显著差异。此外,测试统计数据为正,我们可以得出结论,即伦敦的平均被入侵次数明显高于伯明翰。


附录

1.  探索性数据分析(EDA)

EDA分析是指在数据处理的过程中,对数据特征进行探索,并找到他们之间的更多潜在关系。

做EDA分析时,我们主要是通过数据可视化来显示数据之间的关联,从而对数据进行处理。当然,作图之前也需要思考一些数据处理中可能会遇到的问题。例如数据是否缺失、有没有离群点、特征有没有冗余;是否有重复样本,样本是不是不平衡分布;是否需要降维;连续 特征是否需要离散化;特征是不是可以组合形成新的特征。带着这些思考来观察我们做出的直方图和箱型图——查看数据的分布是否有偏移、查看是否有离群点(异常数据);查看是否有异常值、比较几批数据的形状。然后就可以得出一个大致的方向来辅导我们继续进行接下来的详细检验。

2. 偏差(Deviance)

偏差是衡量一个变量的观察值与其他一些值(通常是该变量的平均值)之间的差异。偏差的符号表示该差异的方向,当观察值超过参考值时,偏差为正。同时,值的大小也表示差异的大小。我们可以通过观察样本与分布中心的差异来计算每个独立样本的分布情况。

https://www.gnt007484.cn/wp-content/uploads/2022/05/30.png

3. 方差(Variance)

方差时一个随机变量与它的群体平均值或样本平均值的偏差平方的期望值。方差时一种分散性的测量,也就是说它表示的是一组数字在其平均值中分散层度的测量。方差在统计学中具有很高的价值,使用方差的一些方法包括描述性统计、统计推断、假设检验、拟合度和蒙特卡洛采样等。下图中的第一条公式用于计算偏差平方和,表示总的离散程度或数字与平均值的总偏差。第二条公式用于计算偏差,它的大小取决于数据中样本的数量

https://www.gnt007484.cn/wp-content/uploads/2022/05/31-1024x436.png

4.  标准差(Standard Deviation)

标准差是对一组数值的变化量或分散度的测量。低标准差表明数值倾向于接近这组数值的平均值(也成为期望值),而高标准差表明数值在更大的范围内分散。一个随机变量、样本、数据集或概率分布的标准差是其方差的算术平方根。测量到的分布程度结果在原则上具有两种性质:其一是为非负数值;其二是与测量样本具有相同单位。

https://www.gnt007484.cn/wp-content/uploads/2022/05/32.png

5.  自由度(Degrees of Freedom)

自由度是一个相对棘手的概念,其指的是在一个统计量的最终计算中,可以自由变化的数值的数量。统计参数的估计可以基于不同数量的信息或数据。一般来说,一个参数的预估值的自由度等于进入预估值的独立样本的数量减去作为参数本身估计的中间步骤的参数的数量。翻译一下就是,大多数时候样本方差有N-1个自由度,因为它是由N个随机样本减去作为中间步骤估计的唯一一个参数(即样本平均数)进行计算的。

思考自由度的一个简单(尽管不完全准确)的方法是想象我们正在为开发团队成员安排职位,我们有6个职位要填补,有6个人要放到这些位置上。我们有多少个决定?事实上我们只有5个选择,因为当你到了第五人的时候,只有一个人和一个位置,所以我们没得选择。因此,我们有5个所谓的“自由度”。同样,当我们有一个样本时,将样本中的人分配到测试中的自由度要比样本大小少一个。因此,如果一个样本中有N个人,自由度就是N-1。

发表回复

textsms
account_circle
email

Sunny的小站

SPSS中的常用方法和统计学概论【1】
本文共7144字,预计阅读时间18分钟 0/ 前言 统计学是一门收集和处理数据的学科,从数百年前作为统计人口数据的原始形态发展成现如今涵盖了数学、金融等学科的融合学科。一般来说,统…
扫描二维码继续阅读
2022-05-24