\begingroup

我有 4 个故事,每个故事都有字数统计以及复数单词的数量:

故事 单词数 复数
1 356 四十五
2 273 23
3 303 二十八
4 289 四十二

我想知道是否可以进行统计测试来确定这些故事在字数方面是否存在显著差异,然后再进行另一项测试来确定这些故事在复数方面是否存在显著差异。

测试的目的是确保这些故事在阅读难度方面没有显著差异。这是一项心理学研究,我们需要确保故事难度没有混淆。我们正在测试其他更相关的单词特征,但这些是连续值,我们可以对其进行其他测试。

我没有可供比较的人口频率来使用 Fisher 精确检验,我认为我不能使用卡方检验,因为那里的计数似乎应该是相关的,就像测试一群人是否喜欢苹果、橘子或香蕉,而一个人不能选择两个选项,我有点困惑,不知道在这里可以使用什么测试。

\endgroup

5

  • \begingroup
    也许测试对于您想要得出的结论来说并不合适或没有必要。试着写下您想说的话,然后问一下测试在哪些方面可以增强您的论点的力度。
    \endgroup


    – 

  • \begingroup
    @DavidSmith 感谢您的评论。测试的目的是确保这些故事在阅读难度方面没有显著差异。这是一项心理学研究,我们需要确保故事难度没有混淆。我们正在测试其他更相关的单词特征,但这些是连续值,我们可以对其进行其他测试。所以测试是为了我的导师正在做的一篇论文,最好把这个包括进去。
    \endgroup


    – 

  • 1
    \begingroup
    @CofeeBean42 这是重要信息,应该出现在问题中,而不仅仅是评论中。
    \endgroup


    – 

  • 1
    \begingroup
    (1) 良好的研究设计会阻止故事,以确保其不同可读性等的任何混杂效应都是从治疗效果估计中平均得出的。 (2) 如果较短/较长的故事或复数形式比例较低/较高的故事本身应该更难或更容易,那么就像@Ben 所说的那样。 (3) 如果您有一个统计模型,说明故事长度的分布或复数形式的比例应该如何寻找可读性相等的故事,那么也许…… – 但您没有,也没有明显的模型表明这一点。
    \endgroup


    – 

  • 1
    \begingroup
    (4)常用的。评估这些标准对你的故事的一致性程度将是一项更有成效的统计调查。
    \endgroup


    – 


最佳答案
4

\begingroup

对于已知量来说,不存在“统计上显著”的差异

统计假设检验用于检验与从观察数据推断出的未知事物有关的假设。在这种情况下,“统计上显著”的差异是指推断对象的潜在未知量存在显著差异的证据。

在本例中,每个故事的字数都是已知的,而且这些是不同的。这一点毫无疑问——故事的字数和复数数量都不同。因为这里没有感兴趣的未知量,所以没有适用的统计测试,也没有试图评估任何事物的“显著差异”的价值。虽然已知量级可能存在某种“显著”差异(在非统计意义上,我们称之为“实际意义”),但已知量级不存在“统计显著”差异。

\endgroup

0

\begingroup

是的,可以进行测试。结果是否有意义是另一个讨论。

计数可以建模为来自泊松分布,因此我们比较了两个模型,在模型 1 中,所有 4 个计数都来自具有共同平均值的单个泊松分布,在另一个模型中,每个计数都来自泊松分布,但每个计数都有自己的平均值。测试是较简单的模型(1 个平均值)是否能像较复杂的模型一样很好地拟合数据,或者较复杂的模型是否确实有助于拟合。

以下是一些 R 代码和结果:

> tmpdf <- data.frame(Story=1:4,
+                     NumWords=c(356,273,303,289),
+                     Plurals=c(45,23,28,42))
> fit1 <- glm(NumWords ~ factor(Story), data=tmpdf,
+             family=poisson())
> fit0 <- update(fit1, . ~ 1)
> anova(fit0, fit1, test='Chisq')
Analysis of Deviance Table

Model 1: NumWords ~ 1
Model 2: NumWords ~ factor(Story)
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)   
1         3     12.437                        
2         0      0.000  3   12.437 0.006027 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> AIC(fit0, fit1)
     df      AIC
fit0  1 44.65508
fit1  4 38.21828
> 
> fit2 <- glm(Plurals ~ factor(Story), data=tmpdf,
+             family=poisson())
> fit0.2 <- update(fit2, . ~ 1)
> anova(fit0.2, fit2, test='Chisq')
Analysis of Deviance Table

Model 1: Plurals ~ 1
Model 2: Plurals ~ factor(Story)
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)  
1         3     10.095                       
2         0      0.000  3   10.095  0.01777 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> AIC(fit0.2, fit2)
       df      AIC
fit0.2  1 33.47969
fit2    4 29.38441

由于检验基于渐近卡方结果,因此在零假设和一些替代假设下运行一些模拟以查看它们的行为通常是一个好主意:

> simfun1 <- function(lambda=c(35, 35, 35, 35)) {
+   tmp <- data.frame(Story=factor(seq_along(lambda)), 
+                     y = rpois(length(lambda), lambda)
+                     )
+   fit <- glm(y ~ Story, data=tmp, family=poisson())
+   drop1(fit, test='Chisq')$`Pr(>Chi)`[2]
+ }
> 
> out1 <- replicate(1000, simfun1())
> hist(out1)
> mean(out1 <= 0.05)
[1] 0.053
> 
> out2 <- replicate(1000, simfun1(c(44, 44, 25, 25)))
> hist(out2)
> mean(out2 <= 0.05)
[1] 0.795

因此,就您的情况而言,具有 4 个不同均值的模型比基于单个均值的模型拟合得更好。但这种差异是否足以有意义则由您决定。或者泊松分布是否合理且有意义。

\endgroup

3

  • 1
    \begingroup
    非常感谢您的回复!我非常感谢您附上代码。我不确定该接受哪个答案,我很好奇您对另一个答案的看法。
    \endgroup


    – 

  • \begingroup
    如果有帮助的话,至少你可以点赞。然后你再决定哪个更有效。
    \endgroup


    – 

  • \begingroup
    没有考虑这个问题很长时间,我想知道这是否实际上等同于对四个故事进行复数与非复数的卡方检验?
    \endgroup


    – 

\begingroup

测试的目的是确保这些故事在阅读难度方面没有显著差异。这是一项心理学研究,我们需要确保故事难度没有混淆。

我认为这不是平等检验中的统计显著性问题,而是存在的治疗差异是否大到足以产生影响的问题。

处理方法不同。它们并不相同。问题不在于我们是否可以通过测试区分它们 – 假设我们可以证明测试的合理性,对于足够长且相对长度相似的故事,我们几乎肯定会拒绝原假设,而对于较短的故事,我们通常不会拒绝原假设,尽管原假设肯定是错误的。长篇故事几乎肯定会被拒绝并不意味着差异是必然的。同样,由于缺乏力量而无法拒绝短篇故事并不意味着差异不是必然的。

简而言之,假设应用测试是有意义的,我认为您在等式零假设检验中寻找统计显著性是错误的。它不会解决这里的实际问题。

[如果一项测试完全合理,那么等效性测试可能是合理的,但我认为核心问题是确定某种等效性测量在特定情况下是否真正有意义,并确定差异并不重要。]

最好在研究设计阶段通过使用合适的实验设计来解决这个问题,而不是在事后才去解决,因为为时已晚。

不管它在任何情况下都是不适合当前任务的工具,我现在将讨论我们可以在多大程度上证明此类测试的概率计算是合理的。

我想知道是否可以进行统计测试

您正在寻找某种形式的假设检验。

假设是关于我们无法/不会全部观察到的总体或过程的陈述。假设检验(我认为这是在 Neyman-Pearson 框架中)建立了一对这样的假设,称为零假设和备选假设。这些假设通常被设计为关于某些过程或总体的一个或多个参数的明确陈述,这些陈述并不被平等对待;我们寻找证据表明零假设下的情况(伴随着一些假设)是站不住脚的,在这种情况下,我们会试图拒绝它而支持备选假设。

我们使用数据来推断有关总体或过程的信息,以获得这样的证据;如果数据与解释/模型(在特定意义上)存在足够的不一致,我们就会拒绝原假设。

特别是在 NP 方法下,我们根据数据集 (检验统计量) 的摘要来确定拒绝规则,当备择假设为真时,该规则倾向于产生不同的行为,当零假设为真时,我们希望检验统计量最强烈地表明备择假设会产生对零假设的拒绝。

创建拒绝规则涉及概率计算。特别是,我们力求避免经常拒绝真零值,并设置一个我们希望避免超过的阈值。

这些概率计算依赖于随机性。通常,这种随机性要么来自通过某种形式的随机抽样从人群或过程中获取数据,要么(在实验中)通过将给定的受试者随机分配到治疗中来获取数据。鉴于我们似乎不是在处理实验,我将不考虑这个选项——我们在某种意义上依赖于从一组可能的样本中随机选择的样本,然后这种随机性允许使用概率模型来推断未完全观察到的目标人群。

为了使概率计算有意义,我们直接依赖这种随机性。

因此,我们应该清楚我们的目标人群或过程是什么 – 即我们在假设中试图陈述的事物,以及我们将要收集的数据在何种意义上可以合理地被视为随机获得。随机样本的这种含义的细节会影响计算,以及结论的意义。

… 确定这些故事在字数方面是否存在显著差异,然后进行另一项测试,确定这些故事在复数方面是否存在显著差异。

第一个问题是你有四个具体的故事;如果你只比较这些故事,就没有什么可推断的。我认为 Ben 已经详细讨论了这个问题,所以我请你参考那个答案。

如果故事是从一组基础类别中随机选择的那么可能会有一些理由试图推断出此类类别中典型故事的长度。我们目前没有证据证明这一点。(如果是这样,第一个问题是为什么你只选择一个。)

不过,我将继续,并假设您目前能够提出一些这样的论点。如果没有它或类似的东西,接下来的内容将毫无意义。

鉴于这一假设,完全不清楚是否有任何理由将故事的长度合理地视为来自某些计数过程(例如泊松过程)的随机值。在我看来,从某些故事类型类别中选择故事,更像是从一组持续时间中选择一个持续时间。故事有结构,并且长度与讲述故事所需的时间一样长;它不会随机结束。无论如何,必须选择某个类别中的故事长度模型才能取得进展。

第二个问题——比较产生复数的倾向——可能更有潜力。

如果我们能够将复数和非复数的出现视为故事中的某种随机过程,那么在特定故事之间进行比较可能就有意义了。例如,如果将每个单词是复数还是非复数视为独立出现且概率恒定,那么就有了比较比例(/比率——不是计数,而是每单位长度的计数)的基础。我认为从几个方面来看,这种假设没有很好的基础,但使用稍微复杂一些的模型可能有更多的机会。我并不是说这在你的语境中是有意义的,只是说它有提出这种论点的潜力。(我不会为你提出这个论点,这需要对该主题领域的深入了解,首先,我没有专业知识。)

显然,您提到的故事的长度并不相同,但让我举一个更鲜明的例子:想象一下您正在将十四行诗与哈姆雷特进行比较。

一首十四行诗大约有 100 个单词,所以复数的总数应该会少得多。《哈姆雷特》大约有 4000 行,有数千个单词。比较复数的数量是没有意义的;显然《哈姆雷特》的复数要多出数百倍,即使它的某些特征意味着其中的复数比例要低得多

这种风格上的差异会表现为复数比例或出现率的变化。

因此,如果您能够提出论据来克服一系列障碍,这些障碍与调用某种随机性模型是否有意义有关,那么在已知故事长度的情况下,可能可以尝试建立某种复数出现的模型,然后检验与每个故事的复数密度有关的假设。

问题中没有足够详细的内容,甚至无法猜测是否有可能提出这样的论点。我对此深表怀疑,但并不完全排除这种可能性。

\endgroup

\begingroup

关于在此处进行测试的理由,我认为可以从背景中在一定程度上证明这一点(如评论中所解释):

测试的目的是确保这些故事在阅读难度方面没有显著差异。这是一项心理学研究,我们需要确保故事难度没有混淆。

这里显然应用的逻辑是,如果文本的一系列可测量特征非常相似(其中之一是复数的相对数量),则可以认为这些文本的难度相似。事实上,提问者最希望的是证明它们有同样的难度但这当然永远无法准确确定。

我不是语言学家,无法评论复数的相对频率与难度的关系有多大。我们假设提问者是对的。

那么,这个想法就是,如果数据与从同一过程中随机抽取所有四个文本的单词相符,则文本被认为足够相似(根据此标准)。显然,现实情况并非如此(文本中的单词从一开始就不是独立的),但我认为,作为一种校准装置,这是一个有点有用的虚构,即只是为了对“如此相似以至于底层难度级别可能相同”的实际含义有一个客观(即可观察和可重复)的定义。至少我很难想象一个更好的标准,除非有人能对其他一些数字规则做出具体的语言论证。

我发现的问题是,即使与零假设的偏差很小,统计检验也可能拒绝足够大样本的相同分布/平均值/概率的零假设,这意味着可能很难(对于足够长的文本)找到任何四个文本(满足与本研究可能相关的其他附带条件,例如“足够长”,无论这在这里意味着什么),在这里(或在其他关于其他标准的测试中)不会拒绝零假设。即使拒绝后者,相对复数出现与随机零模型略有偏差的文本在难度上可能并没有本质上的不同。

只要研究人员能够整理出一组测试不会拒绝的故事,这不是问题,但如果找不到这样的一组故事,他们很可能需要改变逻辑(特别是在这里,通常无法避免的单词之间的依赖性可能足以解释拒绝)。

必须承认,接受一组故事的标准“不要通过这种统计测试拒绝”有些人为,并非基于这种概率模型是“真实的”或甚至近似现实的。作为一种不追求模型真实性的正式校准设备,我认为它是可以辩护的。考虑到研究人员的目标,可以肯定地说,为什么不拒绝是一件好事,但当一个或多个测试被拒绝时(取决于哪个测试以及拒绝的强度),一组故事是否可以接受,这个问题要棘手得多。

顺便说一句,如果这个逻辑成立,我可以想象,对四个故事进行简单的卡方检验,用复数与非复数进行比较就可以了。不过,其他地方提出的泊松模型没有问题(我想知道它们是否等价,但还没有仔细考虑过)。

\endgroup