\begingroup

如果我有多个相关测量值,每个测量值的“低”p 值都不完全达到显着性阈值,那么多个测量值产生具有“低”p 值的总体趋势(谨慎地)这一事实是否可以证明可以拒绝零假设?

例如,我正在比较 100 名学生在多项考试中的表现。在这些学生中,理论上有 20 名学生由于外部因素而面临较高的失败风险。我分析了他们在 10 项考试中的表现,并注意到他们的平均分数似乎比他们的同龄人差。然而,比较测试(使用 Mann-Whitney U 检验)返回的 p 值在 0.03 到 0.20 之间,具体取决于考试。总的来说,(谨慎地)证明可以拒绝零假设是否公平?总体趋势似乎表明这些学生的表现比他们的同龄人差,尽管大多数比较测试没有返回显著性。

我听说有些研究人员认为这是可以接受的。但是,我还没有找到关于这个主题的任何文献。

\endgroup

2

  • \begingroup
    旁注:一个群体中有些学生的表现比其他人差,这难道不正常吗?在某个时候,如果有足够的测量,这种情况可以得到显著的衡量。与其他学生进行比较是考虑失败风险高的好方法吗?
    \endgroup


    – 


  • \begingroup
    这个问题是关于组合 p 值的,文献和本网站已经以多种方式介绍了这个问题,但除了 p 值之外,您还有原始数据。您应该能够在不考虑 p 值组合的情况下解决这个问题。例如,您可以考虑平均表现和平均表现估计中的误差。
    \endgroup


    – 


最佳答案
1

\begingroup

有趣的问题,让我将其分解为几个不同的问题:

多个边缘显著结果是否表明总体显著?

答案很简单。不是

无论如何,,因此您应该对“临界显著”结果格外警惕。尤其是您提到的范围:p-的价值0.200.200.20在零假设下是一个完全不足为奇的结果。

可以将具有相同结果的多个相关分析的结果结合起来(通过),从而降低总体p-value。但是,没有必要结合p-如果您有每个分析的原始数据,则值为(参见第三个问题)。

朝着同一方向的多个相关趋势是否更有说服力?

如果我们暂时不再关心零假设显著性检验,那么问题(和答案)就会大不相同。尤其是看到示例中 10 项不同的考试中都出现了负面趋势。是的,当然,反复看到相同的趋势会让我们更加确信可能存在总体趋势。

那么我们该如何调和这个明显的矛盾呢?我认为这与第三个问题有关:

除了运行单独的分析,还有其他方法吗?

让我们再次以问题中的例子为例:如果我们将响应变量从“考试成绩XXx”改为“考试成绩”,那么我们可以把它变成一个多元回归问题,其中考试XXx只是解释变量之一。

您需要考虑到这些不是独立测量的事实(同一个学生现在在数据集中出现多次,每次考试一次),但有很多方法可以做到这一点,例如或(更灵活的)

将多个模型组合成一个模型有很多好处。这个网站已经讨论过好几次了,例如:都有自己的误报率,你也应该考虑到这

(如果您需要此方法的帮助,请创建一个新问题来解释您所得到的结果类型。)

\endgroup

8

  • 1
    \begingroup
    第一个答案应该是“视情况而定”。当然,你可以将多个独立实验的 p 值组合起来,得到的 p 值可能小于单个 p 值。你引用的链接是关于多重比较的,而不是关于组合 p 值的。
    \endgroup


    – 


  • \begingroup
    @SextusEmpiricus,观点很好,我更新了答案。
    \endgroup


    – 

  • \begingroup
    您是如何获得漂亮的格式和大字体的?
    \endgroup


    – 

  • 2
    \begingroup
    @PeterFlom 它是,章节使用单个标签,段落使用双标签,等等。您可以通过编辑答案来了解如何输入它!
    \endgroup


    – 

  • 1
    \begingroup
    @JaxtonWinder 很高兴能帮到你!如果这回答了你的问题,你可以点击复选标记来接受它。
    \endgroup


    –