\begingroup

在假设检验中,如果问题表明了显著性水平,即 alpha,那么这是否一定意味着我们必须使用经典方法?(意味着找到临界值,然后查看表格)。如果我使用 p 值得出假设被拒绝或接受的结论,结果会怎样?这样正确吗?

例如:

随机抽取 64 袋白切达爆米花样本,平均重量为 5.23 盎司,标准差为 0.24 盎司。

在 0.05 显著性水平下,对假设 μ= 5.5 盎司与备择假设 μ<5.5 盎司进行检验

(这是《科学家与工程师概率与统计学》第 9 版中的一个问题)请看例子……(上面提供)我被教导通过找到临界值然后查看表格来解决这个问题,但我想要做的是使用 p 值,然后查看正态分布表来陈述假设(是接受还是拒绝)。

\endgroup

8

  • 2
    \begingroup
    我强烈建议你先看看置换测试,然后再看看引导测试。这会给你直觉,让你免于大量的数学负担
    \endgroup


    – 

  • \begingroup
    请解释一下“p 方法”和“经典方法”以及“确定假设”的含义。问题的表述方式听起来像是在频率论框架中,这就是您所说的“经典”吗?它告诉您零假设和备选假设。
    \endgroup


    – 

  • 3
    \begingroup
    书中的这类问题有助于让糟糕的统计实践继续存在。这是一个进行估计的地方,而不是进行假设检验的地方。请
    \endgroup


    – 

  • 3
    \begingroup
    @Frank 您的评论依赖于许多隐含的假设,这些假设可能与特定应用有关。在其他情况下,例如质量控制测试和证明符合政府标准(这两者都是工程师感兴趣的应用),这肯定是一种测试(或监控)情况,并不一定反映“不良统计实践”。
    \endgroup


    – 

  • 2
    \begingroup
    @Dariober 这正是我的观点:有些情况下必须做出二元选择:您的产品符合规格,您的桥梁设计可以获得批准,您没有欺骗客户,等等。在这种情况下αα\alpha是否有意义。人们可能会质疑先前的选择是否αα\alpha对于损失函数来说是合适的,但不能基于“不良的统计实践”!
    \endgroup


    – 


最佳答案
4

\begingroup

如果你指的是p价值:

如果我使用 p 方法来识别假设,结果会怎样?它正确吗?

那要看情况。通常,人们使用 Fisher-Neyman-Pearson 方法进行零假设检验,其中包括为你的p值。在这种特定情况下,你只能在以下情况下声称统计显著性:p值低于 alpha。

然而,这只是频率主义中的一个范式。新费雪主义方法完全放弃了设置 alpha,但这种情况并不常见。还有一些贝叶斯方法完全忽略了零效应的荒谬性,而是使用诸如实际等效区域 (ROPE) 测试之类的方法。然而,在使用 FNP 方法时,我们通常只有在我们的p值在截止值范围内。因此,这取决于你正在做什么。

如果我使用 p 方法来识别假设会怎样?

我不确定这里的意思,但我假设你的意思是你是否可以断言某个假设是真还是假。低p值仅告诉我们在给定零假设的情况下从模型中找到统计估计值的概率。当概率低到低于我们设定的 alpha 时,我们只能拒绝零假设,但我们既不能接受零假设,也不能接受备选假设,因为p值。顺便说一下,alpha 和p不是一回事。Alpha 本质上是一个截止值,它有助于通过降低阈值来防止 I 型错误,其中p低于此值的数值会降低我们实现此目的的机会(尽管在实践中这几乎不起作用)。

\endgroup

3

  • \begingroup
    低 p 值不会给出给定数据时原假设成立的概率,甚至不像贝叶斯概率那样取决于我们的数据。最好进行修改。
    \endgroup


    – 

  • 2
    \begingroup
    @FrankHarrell 你说得完全正确,我似乎在这一点上含糊其辞。我已经修正了它,使其更准确。我尽量非常小心地措辞,但有时还是会弄虚作假。
    \endgroup


    – 


  • \begingroup
    感谢您的时间。
    \endgroup


    – 

\begingroup

随机抽取 64 袋白切达奶酪爆米花称重。平均重量为 5.23 盎司,标准差为 0.24 盎司。在 0.05 显著性水平下,对 = 5.5 盎司的假设和备选假设 <5.5 盎司进行检验。

在上面,我不清楚你的意思是什么= 5.5

如果您的意思是“生产线的真实平均值是 5.5”,我会假设袋子重量呈正态分布且彼此独立(它们是 iid)。因此,我将在 R 中计算给定样本 n=64、平均值=5.23 和 sd=0.24 的 t 统计量:

diff <- 5.23 - 5.5
stderr <- (0.24/sqrt(64))
tstat <- diff/stderr # => -9

这个 t 统计量有多极端?

p <- pt(tstat, df=63)

p ~ 3.24e-13,这意味着在工厂以平均值为 5.5 的正态分布权重进行生产的世界中,极不可能看到 n=64 的样本,其平均值低至 5.23 且 sd=0.24。


如果你的意思是“从生产线上随机抽取的一袋重量小于 5.5 盎司”。我会根据观察到的平均值、标准差和参考重量 (5.5) 来计算 z 分数:

z <- (5.23 - 5.5)/0.24

然后将该值映射到自由度为 64-1 的 t 分布:

pt(z, df=63)
[1] 0.132

这意味着根据数据和假设,预计约 13% 的袋子重量为 5.5 盎司或以上。


无论如何,我认为设定重要性阈值是没有意义的,至少从问题的表述方式来看是如此。

\endgroup

1

  • \begingroup
    感谢您的时间。
    \endgroup


    – 

\begingroup

感谢 OP 指出了问题的出处(希望更多的 OP 能这样做)。这本书通常用于工程师的本科统计学(即非统计学家的应用统计学),并且是纯粹的频率学派(除了最后一章,它简要介绍了贝叶斯统计学,超过 10 页……)。教科书甚至没有提到 bootstrap 或排列(这是一种可悲的情况,是许多(大多数?)常见教科书的典型特征)。这个具体问题在第 10 章“单样本和双样本假设检验”的末尾。

即使没有教科书的背景/上下文,这也是一个经典的工业 QC 应用,人们正在检查制造商是否真的在“欺骗”其客户(如果属实,这种情况可能会给制造商带来极大的损失)。

因此很明显,在这种情况下需要进行“经典”的频率假设检验。

现在 OP 询问这些问题是否指定了重要性水平αα\alpha意味着使用“经典方法”(不确定这是什么意思?)或者她可以使用“p 值”。但 p 值只有在我们有一个显著性水平时才有意义,因为我们只能在以下情况下拒绝原假设p < α<αp<\alpha。因此提到αα\alpha完全不排除使用 p 值。

事实上,这两者是一样的;“经典方法”将计算 t 统计量(在本例中,针对单均值检验),然后在表中查找(或计算机将执行此操作),并将看到获得此检验统计量或更极端的概率是
p并将返回p,即 p 值。因此,这两种方法是同一种;是的,您可以手动完成工作并使用表格,也可以让计算机/计算器等完成并为您提供 p 值。应用的是相同的统计数据(我认为这是 OP 在本例中理解的最重要的内容)

然后,学生将比较
pαα\alpha,并决定拒绝或不拒绝原假设,即制造商平均每袋向客户提供 5.5 盎司的爆米花。

\endgroup

1

  • \begingroup
    感谢您的时间。
    \endgroup


    – 

\begingroup

我正在尝试理解假设检验

我将抛开所有关于假设检验是否是一个好主意或者您提供的具体示例问题是否适合作为假设检验问题的候选者的元评论,并在此回答直接问题。

略过一些细节,Neyman-Pearson 方法实际上是选择一个检验统计量,设置一个显著性水平,从中确定一个拒绝域,然后检查在样本上计算出的检验统计量是否落入拒绝域。对于简单情况,您可以按惯例将临界值定义为拒绝域中的最小极值。

Neyman-Pearson 方法与使用 p 值之间存在等价性:如果所有步骤都正确完成,则采用拒绝规则“如果p≤ααp\leq\alpha“在两种检验方法中,两者总是拒绝相同的情况,而不是拒绝相同的情况,在某种意义上是完全等价的。也就是说,对于任何给定的样本,您都应该针对所检验的假设做出相同的决定。

在 Neyman-Pearson 范式中这样做(使用 p 值做出决定)也是完全合理的。人们可以简单地将 p 值本身(这只是第一个测试统计量的变换)定义为感兴趣的测试统计量,并且实际上一切都按其应有的方式运行,完全在范式内。这不是某种奇怪的弗兰肯斯坦方法,它只是测试统计量的变换,并不比从使用电视电视T| T||电视||T|作为进行双侧 t 检验时的检验统计量。

这是否意味着我们必须 […] 找到临界值,然后查看表格

正如我上面所述,当您使用 p 值时,您所做的就是这些。(但请“睁大眼睛”去做,不要盲目地去做;了解可达到的显著性水平,了解所使用的任何近似值的属性等等。)

如果定义你的检验统计量是 p 值,那么你的临界值可以简单地从可用的值中选择αα\alpha值,在初始检验统计量和 p 值之间的转换步骤中已经进行了劳动。

[Ggjj 在评论中关于置换测试等的观点与此有一定相关性。如果你习惯使用它们,那么这种区别似乎毫无意义]

如果以相同的方式处理原始检验统计量和转换后的检验统计量,则在每种情况下的决策都应该相同(即,检验应该是等效的)。

然而,如果你关于你必须做的事情的问题与你正在学习的科目中需要做的事情有关,我们就无法回答。

我被教导通过找到临界值然后查看表格来解决这个问题,但我想要做的是使用 p 值,然后查看正态分布表来陈述假设(是接受还是拒绝)。

如果两种方式都做,会发生什么情况?

确实,在几十个不同的例子上尝试一下。

如果您能找到不同的案例,请弄清楚具体原因;这将让您了解您正在做的事情(可以说是错误的)。

\endgroup

1

  • \begingroup
    感谢您的监督!
    \endgroup


    –