I4Jo_SunnY
Always dream. Always explore.
Sunny的小站

SPSS中的常用方法和统计学概论【3】【完结】

本文共5585字,预计阅读时间14分钟

0/ 前言

在过去,传统的统计模型主要是用来寻找影响事物的因果关系,所以也被称之为影响因素分析。但是从统计学方法来说,因果关系一定会有统计显著,而统计显著并不一定就是因果关系,所以为了数据分析的准确性,我们需要将影响因素分析方式改为相关性分析。相关关系是统计学中衡量因变量和自变量的一种非确定的相互依存的关系,即事物之间的相互影响、相互制约、相互印证的关系,也可以简称为相关性。而分析这种事物之间关联性的方法,就是相关关系回归关系。相关关系不能表明事物之间联系,它只是反应了当一个或数个事物的取值发生变化时,与其有关联的数值也会发生变化,但数值无法确定。回归关系则是一种确定关系,其通过回归方程实现了由一个或多个事物的取值来确定另一个事物的取值。基于此等区别,在一般数据分析中,我们应该先做相关关系的分析,在确定了相关性强弱等级之后再进一步确定不同变量之间存在的回归关系。本文也是这个SPSS操作系列的最后一篇文章,将介绍属于参数检验的Pearson相关系数和属于非参数检验的Spearman相关系数以及线性回归方程

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-1.png

1/ 相关关系

相关关系可以从相关程度相关方向相关形式变量数目四个方向进行分类。

其中我们最常用的两种分类方式是使用按关系强度和按关系方向,即无相关、弱相关、中等相关和强相关;以及正相关和负相关。

按相关形式分类可以分为线性相关非线性相关。在直角坐标系中,当一个变量值发生变化,另一个变量也发生大致相同的变化,并且这两个变量值大致分布在一条直线上,那么这两个变量之间的相关关系就是线性关系。如果变量值大致分布在一条曲线上,他们的相关关系则是非线性相关。

还有一种方式是通过变量个数进行分类,可以分为单相关复相关偏相关单相关是两个变量之间的关系,这两个变量一个是因变量一个是自变量,也被称之为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量和自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就是偏相关。

1.  皮尔逊相关系数(Pearson’s Correlation)

在统计学中,皮尔逊相关系数也被称为皮尔逊乘积矩相关系数(PPMCC)或双变量相关,它是两组数据之间线性相关的测量。因为它测量的是两个变量的协方差与它们的标准差的乘积之间的比率,所以它本质上协方差的归一化测量,这样的结果总是有一个在(-1,1)之间的值。皮尔逊相关系数在使用时还需要注意以下4点使用条件。两个变量都是由测量活动的连续性数据,即等距或等比数据;两个变量的总体都呈正态分布或接近正态分布,至少是单峰对称分布的,当然样本并不一定要正态;必须是成对的数据,并且每对数据之间是相互独立的;两个变量之间呈线性关系,一般用描绘散点图的方式来观察。下面以动画渲染时长与服务器这两个连续变量为例,检验其之间的相关性。

动画渲染:

一家提供动画渲染服务器的公司希望开发一个模型来估计项目的持续时间。一位经验丰富的工程师认为项目的持续时间与渲染在多个云服务器上的分布密切相关,因此他从最近的11个项目中收集数据。注意小数值与服务器的计算使用率相关。所有动画的内存需求都是一样的。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-2.png

分布的服务器数量和渲染时间之间存在关联吗?

这项研究的目的是检验动画渲染时间和服务器分布的关联。因为两组数据都是连续性的数据,所以选择使用Pearson相关系数。首先我们需要将该组数据放入SPSS中,并设置自变量和因变量,在SPSS中需要进行的具体操作如下:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-3.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-4.png

在查看相关性之前,我们还是需要执行一些探索性数据分析(EDA),这将有助于我们形成对数据的主观印象,我们也可以通过报告中的图标和注释来检查我们的测试结果。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-5.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-6.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-7.png
  • 在顶部栏选择图形->旧对话框->散点图/点图
  • 选择简单散点图,然后点击定义
  • 渲染时间移动到Y轴,将服务器移动到X轴,然后点击确定

然后应该生成了下方所示的散点图。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-8.png

根据散点图我们可以看出数据中存在明显的负面趋势,即随着工作包分布在更多的服务器上时,渲染所需的时间会减少。对于不同的服务器数量,渲染时间也几乎没有变化。

最后,为了量化关系的强度和方向,我们需要生成一个相关系数用以确定关系。在SPSS中具体操作如下:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-9.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-10.png
  • 在顶部栏点击分析->相关->双变量
  • 在双变量相关性框中将两个变量移至右侧,并在相关系数中选择皮尔逊,然后点击确定
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-11-1.png

获得结果之后使用下表来描述渲染时间和服务器之间的相关性的强度和方向。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-12.png

在系数值为(0,0.3)时,两组数据呈弱的正相关;在系数值为(0.3,0.7)时,两组数据呈中等程度正相关;在系数值为(0.7,1)时,两组数据成强的正相关。

在系数值为(-0.3,0)时,两组数据呈弱的负相关;在系数值为(-0.7,-0.3)时,两组数据呈中等程度负相关;在系数值为(-1,-0.7)时,两组数据成强的负相关。

如果皮尔逊相关系数的值接近于0,则变量之间没有关联。p值(Sig.2-tailed)就是这个显著性,如果p>0.05则结果不显著;如果p<0.05,那么它就是显著的。

皮尔逊相关结果:

测试结果表明两者之间存在很强的负相关关系(r=-0.922),并且这是一个显著存在的相关性(p<0.001)


1.  斯皮尔曼相关系数(Spearman’s Correlation)

Spearman相关系数是等级相关非参数测量(两个变量秩之间的统计相关性),它评估了两个变量之间的关系可以用一个单调函数来描述的程度。两个变量之间的Spearman相关等于这两个变量的等级值之间的Pearson相关,即根据数据的秩而非数据的实际值进行计算检验。Pearson相关检验的是线性关系,而Spearman相关检验的是单调关系(无论线性与否)。如果没有重复的数据值,当每个变量都是另一个变量的完美单调函数时,就会出现+1或-1的完美Spearman相关性。下面以一个序数和一个连续变量的打分为例,检验其之间的相关性。

游戏评分:

GameReview和MegaCritic是两个游戏评分网站。GameReview提供了Likert等级的游戏分数,其中1为最低分,5为最高分。MegaCritic提供从0到100的百分比分数。一名研究人员希望知道这两个网站上提供的分数是否与12个不同的游戏标题相关。(Likert数据是有序的;从0到100的分数是连续的数字)

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-13.png

检查GameReview和MegaCritic评分有关系吗?描述关系的强度和方向。

这项研究的目的是两个评分网站对游戏打分的关联。因为一组数据都是连续性的数据,而另一组数据是有序数据,所以选择使用Spearman相关系数。首先我们需要将该组数据放入SPSS中,并设置序数和标度,需要先将数据在SPSS中按下图方式填入:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-14.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-15.png

在查看相关性之前,我们还是需要执行一些探索性数据分析(EDA),这将有助于我们形成对数据的主观印象,我们也可以通过报告中的图标和注释来检查我们的测试结果。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-16.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-17.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-18.png
  • 在顶部栏选择图形->旧对话框->散点图/点图
  • 选择简单散点图,然后点击定义
  • 渲染时间移动到Y轴,将服务器移动到X轴,然后点击确定

然后应该生成了下方所示的散点图。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-19.png

根据散点图我们可以看出数据中没有存在什么明显的趋势。当GameReview数据具有非常低的值(1)时,MegaCritic的值也很低。在GameReview取值在中间(2,3,4)时,相应的MegaCritic数据的范围非常宽,从65到91都有分布。散点图中并没有显示出这两组数据的相关性。

最后,为了量化关系的强度和方向,我们需要生成一个相关系数用以确定关系。在SPSS中具体操作如下:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-20.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-21.png
  • 在顶部栏点击分析->相关->双变量
  • 在双变量相关性框中将两个变量移至右侧,并在相关系数中选择斯皮尔曼,然后点击确定
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-22.png

获得结果之后使用下表来描述两家评分网站之间的相关性的强度和方向。

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-23.png

在系数值为(0,0.3)时,两组数据呈弱的正相关;在系数值为(0.3,0.7)时,两组数据呈中等程度正相关;在系数值为(0.7,1)时,两组数据成强的正相关。

在系数值为(-0.3,0)时,两组数据呈弱的负相关;在系数值为(-0.7,-0.3)时,两组数据呈中等程度负相关;在系数值为(-1,-0.7)时,两组数据成强的负相关。

如果斯皮尔曼相关系数的值接近于0,则变量之间没有关联。p值(Sig.2-tailed)就是这个显著性,如果p>0.05则结果不显著;如果p<0.05,那么它就是显著的。

斯皮尔曼相关结果:

因为最终斯皮尔曼系数十分接近0,不足以支撑起相关性的强度,即两者不存在关联。所以我们可以说没有证据表明参与调查的12款游戏的GameReview评分和MegaCritic评分之间存在关联(rs=0.036),并且这不是一个显著的相关性。


2/ 回归分析

在统计学中,回归分析是一套统计过程,用于估计因变量(通常称为“结果”或响应变量,或机器学习术语中的“标签”)与一个或多个自变量(通常称为预测因子、协变量、解释变量或特征)之间的关系。最常见的回归分析形式是线性回归,即根据特定的数学标准找到最适合数据的直线或更复杂的线性组合。不太常见的回归形式使用稍微不同的程序来估计替代的位置参数(例如量化回归或必要条件分析),或在更广泛的非线性模型集合中估计条件期望值(例如非参数回归)。

回归分析主要用于以下两个概念上不同的目的:1. 回归分析被广泛用于预测和预报,与机器学习领域由很大的重叠。2. 在某些情况下,回归分析可以用来推断自变量和因变量之间的因果关系。重要的是,回归本身只揭示了固定数据集中因变量和自变量集合之间的关系。为了分别使用回归进行预测或推断因果关系,我们必须仔细论证为什么现有的关系对新的环境具有预测能力,或者为什么两个变量之间的关系具有因果解释。当我们希望利用观察数据来估计因果关系时,后者尤为重要。

1.  线性回归(Linear Regression)

线性回归按照自变量的数量,可以分为一元回归分析和多元回归分析。如果数据集中只包括一个自变量和一个因变量,且两者的关系可用一条直线近似表示(y=mx+c),这种回归分析就称为一元线性回归分析。如果有两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

我们这里继续以1.1中的服务器数量和渲染时间为例。如果变量之间有很强的相关性,并且有证据表明变量之间有因果关系,那么如果我们知道可用的服务器数量,就很有可能预测任务完成所需的时间。在SPSS中进行线性回归分析的具体操作如下:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-24.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-25.png
  • 在顶部栏中选择分析->回归->线性
  • 将渲染时间放在因变量框中,将服务器放在自变量框中
  • 然后点击确定并检查输出结果
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-26.png

使用输出的结果来构建回归方程。回归方程是一个简单的线性模型,也可用于预测。从结果上可知常数c=40.823,斜率m=-6.407。因此回归方程可写为y=-6.407x+40.823

然后,我们还可用修改散点图以显示回归线,方便我们之后的预测。具体操作如下:

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-27.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-28.png
https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-29.png

正如我们所看到的这样,当我们添加这条线时,线性回归方程会显示在这条线上,R²会显示在右上角。虽然方程的顺序有些不同,但和我们上方所写的一致。然后我们就可用使用我们的方程式来预测可用的服务器和渲染时间之间的关系。

例如,假设我们目前手头有3台可用的服务器,那我们需要多少时间来进行渲染呢?

根据线性回归方程y=-6.407x+40.823。y=未知的渲染时间,x=3,y=-6.407*3+40.823。y=21.6。所以我们可以预计该项目可使用3台服务器时,将需要21.6小时进行渲染。我们的预测有多少可信度可以通过输出结果中的第一张表进行观察模型摘要表中的R平方值(R square)。如果该值R²>0.5,则预测是可靠的。我们这里的R²值=0.851,高于0.5,所以这是一个可靠的预测。


附录

1. SPSS中常用的相关分析选择流程

https://www.gnt007484.cn/wp-content/uploads/2022/06/SPSS3-30.png

上图为确定正确的相关分析的决策树。在两个变量都是连续测量的时候,我们通常使用Pearson相关系数。如果数据至少有一个是序数,我们则使用Spearman相关。如果有不同类别的计数数据,我们则需要用卡方检验,通过建立无效假说来判断实测值和理论值的误差是来自于随机抽样误差还是理论假说有问题。

2. 曲线回归

前面提到我们计算中最常用到的是线性回归,但现实生活中很多的事物之间的关系并非简单的线性关系,而是呈现出某种非线性关系。非线性关系又可分为本质线性关系本质非线性关系。本质线性关系是指变量关系在形式上虽然非线性关系,但是可以通过变量转换转化为线性关系,并最终进行线性回归分析。而本质非线性关系则无法通过变量转换从而进行线性回归分析。

曲线回归可以解决本质线性关系的问题,这些问题可以选择适当的曲线方程将变量进行变换,从而实现曲线直线化,并将曲线方程转化为直线回归方程进行分析。曲线估计模型能够自动拟合线性模型、对数曲线模型、二次曲线模型、指数曲线模型等多种曲线模型,而输出的统计量包括模型的回归系数、复相关系数、调整的拟合指数及方差分析结果等。

3. 非线性回归

这里说的非线性回归就是本质非线性关系,即上文所提到的无法通过变量转换变成线性关系的关系。曲线估计模块只能用于一个自变量和因变量相关关系的模型分析,而非线性回归分析可以用来探讨因变量和一组自变量之间的非线性相关模型。线性回归模型要求变量之间必须是线性关系,曲线回归只能处理能够通过变量转换转化为线性关系的非线性问题,因此,这些方法都有一定的局限性。非线性回归可以估计因变量和自变量之间任意关系的模型,可以根据自身需要随意设定估计方程的具体形式。因此,非线性回归在实际应用中价值更大,应用范围更广。

没有标签
首页      学习      SPSS中的常用方法和统计学概论【3】【完结】

发表回复

textsms
account_circle
email

Sunny的小站

SPSS中的常用方法和统计学概论【3】【完结】
本文共5585字,预计阅读时间14分钟 0/ 前言 在过去,传统的统计模型主要是用来寻找影响事物的因果关系,所以也被称之为影响因素分析。但是从统计学方法来说,因果关系一定会有统计显…
扫描二维码继续阅读
2022-06-01