卡方分布拟合检验 - 实用统计学方法

样本分布函数检验是统计学中用于检验一个样本是否符合特定的理论分布的方法。它的基本思想是通过比较样本的观测值与理论分布的期望值之间的差异,来评估样本与理论分布的拟合程度。

1、卡方检验

卡方检验(Chi-square test)是一种常用的统计方法,用于检验观察值与理论预期值之间的差异是否显著。它适用于分类变量之间的关联性分析以及频数分布的拟合度检验。

卡方检验的基本思想是比较观察值与期望值之间的差异,并计算一个统计量称为卡方统计量(Chi-square statistic)。通过与卡方分布进行比较,可以确定观察值与理论预期值之间的差异是否显著。

卡方检验在不同的应用场景中有不同的变体,包括卡方独立性检验和卡方分布拟合检验。

  • 卡方独立性检验(Chi-square test of independence)用于确定两个分类变量之间是否存在关联性。它的原假设是两个变量之间是独立的,即没有关联性。卡方独立性检验适用于两个分类变量,它基于观察频数和期望频数之间的差异来判断是否存在关联。观察频数是实际观察到的频数,而期望频数是在原假设下预期的频数。
  • 卡方分布拟合检验(Chi-square goodness-of-fit test)用于检验观察数据是否符合某个特定的离散概率分布,通常是多项分布、泊松分布或正态分布。该检验旨在确定观察数据与理论分布之间的拟合程度。

本文介绍卡方分布拟合检验(又称卡方适合性检验,Chi-square goodness-of-fit test)。当给定随机样本Xi(i=1, 2, ..., n),需要检验该样本是否服从某一给定分布函数时,通常采用皮尔逊(也称卡方)检验法。记Ct为样本分布次数,Ft为理论分布次数,则统计量,

服从自由度为G-m-1的卡方分布(m为理论分布函数参数数量,G为样本分组数)。

2、离散型样本卡方分布拟合检验

现有100个随机变量样本如下:

试验证该样本服从参数λ=50的泊松分布。

  • 假设H0:λ = 50;H1:λ ≠ 50;即给定随机样本Xi服从总体分布函数为参数λ = 50的泊松分布

  • 计算样本分组次数Ct和理论分组次数Ft;由于泊松分布为离散型随机变量,可进行单项分组,EXCEL计算表如下:

单元格C25:【=COUNTIF($A$2:$E$21,B25)】
单元格D25:【=100*POISSON.DIST(B25,50,FALSE)】
单元格E25:【=((C25-D25)^2)/D25】

EXCEL表中,B列为样本不重复单项值;复制、粘贴C25:E25到53行。

表中Ct为样本单项分组次数,

或EXCEL的POISSON.DIST函数计算, Ft=100*POISSON.DIST(B25,50,FALSE)

  • 卡方统计量(E54=38.4628685)

  • 计算p值

卡方统计量为38.46、自由度为G-m-1=29-1-1=27,由EXCEL函数【=CHISQ.DIST.RT(38.46,27)】可得p值为0.071

  • 检验结果

由于p=0.071>α=0.05,接受原假设H0,该样本服从参数λ=50的泊松分布。

样本分组不同会导致卡方统计量不同,所以样本分组是否恰当,会导致不同检验效果。

将前面100个样本分为7组,分组计算表如下:

单元格D57:【=COUNTIF(A$2:E$21,"<"&C57)-COUNTIF(A$2:E$21,"<"&B57)】
单元格E57:【=100*(POISSON.DIST(C57-1,50,TRUE)-POISSON.DIST(B57-1,50,TRUE))】
单元格F57:【=((D57-E57)^2)/E57】

EXCEL表中,B列(minX)和C列(maxX)为样本分组下限和上限;复制、粘贴D57:F57到63行。

在相同假设(H0:λ = 50)前提下,卡方统计量(E64)=6.4628685,p值 =CHISQ.DIST.RT(6.4628685,5) = 0.263747153,p=0.263747153>α=0.05,接受原假设H0,该样本服从参数λ=50的泊松分布。

单项分组时,p值为0.071、组距数组后p值为0.263747153,即分组样本更接近泊松分布

3、连续型样本卡方分布拟合检验

现有200个随机变量样本如下:

试验证该样本服从均值为2000、标准差为300的正态分布。

  • 假设H0:μ = 2000、σ = 300;H1:μ ≠ 2000、σ ≠ 300;

  • 计算样本分组次数Ct和理论分组次数Ft;由于正态分布为离散型随机变量,先进行组距分组,EXCEL计算表如下:
  • 单元格D24:【=COUNTIF(A$1:J$20,"<"&C24)-COUNTIF(A$1:J$20,"<"&B24)】
    单元格E24:【=200*(NORMDIST(C24,2000,300,TRUE)-NORMDIST(B24,2000,300,TRUE))】
    单元格F24:【=((D24-E24)^2)/E24】

    EXCEL表中,B列(minX)和C列(maxX)为样本分组下限和上限;复制、粘贴D24:F24到40行。

    • 卡方统计量(F41=21.90611182)

    • 计算p值

    卡方统计量为21.9、自由度为G-m-1=17-2-1=14,由EXCEL函数【=CHISQ.DIST.RT(21.9,14)】可得p值为0.0807

    • 检验结果

    由于p=0.0807>α=0.05,接受原假设H0,该样本服从均值为2000、标准差为300的正态分布。

    常见的样本分布函数检验方法还包括:

    • Kolmogorov-Smirnov检验(K-S Test):用于检验样本是否符合连续型分布,如正态分布等。该检验基于样本累积分布函数与理论累积分布函数之间的差异进行计算
    • Anderson-Darling检验:是K-S检验的一种扩展形式,对尾部分布的拟合效果更敏感
    • Shapiro-Wilk检验:用于检验样本是否符合正态分布。该检验基于样本的排序值和理论正态分布的期望值之间的关系进行计算

    这些检验方法都基于一定的假设前提和统计指标,根据计算得到的检验统计量和相应的p值来进行判断。若p值较大(通常取显著性水平0.05),则无法拒绝原假设,认为样本与理论分布相符;若p值较小,则可以拒绝原假设,认为样本与理论分布存在显著差异。

    举报
    评论 0