\begingroup

到目前为止,我一直认为名义数据是一种分类数据,而不是它的同义词。对我来说,分类数据包括序数数据,而不仅仅是名义数据。

截至 2024 年 11 月,(粗体为我所加):

序数数据是一种分类统计数据类型,其中变量具有自然、有序的类别,并且类别之间的距离未知。

这似乎与 Alan Agresti 的《分类数据分析导论》(第二版,2007 年)一致。第 2 页:

分类变量有两种主要类型的测量尺度。[…] 具有有序尺度的分类变量称为序数
变量。

具有无序尺度的分类变量称为
名义变量。

另一方面, CrossValidated 上的显示(粗体是我的):

分类数据(也称为名义数据)可以采用有限数量的可能值,称为类别。分类值是“标签”,而不是“测量”。[…]

为了进行分析,分类值被视为抽象实体,
没有任何数学结构(例如顺序或拓扑),无论它们如何编码和存储。

似乎同意 CrossValidated 的定义(粗体是我的):

分类变量(有时称为名义变量)是指具有两个或多个类别的变量,但类别之间没有内在顺序。 […] 纯名义变量是指仅允许您分配类别但无法明确排序的变量

所以看起来这里有些矛盾。虽然我一般对维基百科有点警惕,但我没有理由怀疑我提到的其他资源,特别是当它们的定义看起来没有歧义的时候。

这是否反映了人们对“分类”的定义缺乏共识?换句话说,“分类”是一个可以灵活使用的术语吗?还是我误解了某些内容或遗漏了一些可以协调这些不同引用的重要信息?

如果有的话,我还对(最好是学术性的)参考文献感兴趣,讨论“分类”的定义以及可能存在不同定义的问题。

我问这个问题的原因当然不是为了吹毛求疵,而是为了避免在阅读或与其他人讨论这个问题时可能产生的误解。

\endgroup

6

  • \begingroup
    我无法辨别这种分析背后的任何意义:你所说的“差异”或“缺乏共识”具体是指什么?
    \endgroup


    – 

  • \begingroup
    @whuber 例如,Agresti 说分类变量可以是序数,而 UCLA 网站则说分类变量中没有类别的内在顺序。我不知道如何调和这两种说法。
    \endgroup


    – 

  • 3
    \begingroup
    这里肯定有我遗漏的东西。我应该如何解释 Agresti 的句子“具有有序尺度的分类变量称为序数变量”?对我来说,这意味着序数变量不同于名义变量,但仍然是分类变量的一部分。
    \endgroup


    – 

  • 1
    \begingroup
    这就像说“通常被视为人类宠物的摇尾巴的哺乳动物被称为‘狗’。”序数变量必然是具有排序的名义(又称分类)变量。
    \endgroup


    – 

  • 1
    \begingroup
    在我看来,争论确切的定义有点迂腐。重要的是思考如何分析不同类型的变量。然而,对我来说,“正确”的定义是“分类”既包括名义变量,也包括序数变量,而且这种区别很有用。但从实际角度来看,也有一些变量“介于”两者之间。请参阅我的回答。
    \endgroup


    – 


最佳答案
3

\begingroup

这有点令人费解,但可以总结一下:

从狭义上讲,分类数据是名义数据的同义词。从广义上讲,分类数据也包括序数数据。

所以请注意:不同的作者和不同的网站可能会以不同的方式使用这些术语,因此请根据部落传统或个人品味进行选择。我不想尝试计算或估计这些含义的相对丰富程度,但我自己倾向于使用广泛的含义。

更广泛的背景是不同类型数据的术语丛林,其中继续使用 SS Stevens 对名义、序数、区间和比率尺度的区分,这有时会有所帮助但常常会妨碍清晰的沟通和良好的分析。

围绕这个主题已经有很多书籍和论文。最有争议的主题是,变量类型或尺度决定了哪种分析合适(哪种不合适)。

论文

Velleman, PF 和 Wilkinson, L. 1993。名义、序数、区间和比率类型具有误导性。美国统计学家47(1): 65–72。https

Hand, DJ 1996。统计学和测量理论。皇家统计学会杂志。A 系列(社会统计学) 159(3):445–492。https

都因激烈的讨论而引人注目。

这并不完全是疯话。两个质量的比率是有道理的。两个摄氏温度的比率确实没有道理,尽管信不信由你,可以找到已发表的论文暗示它有道理。

但经验丰富的分析师并不认为名义序数区间比作为一个整体分析框架既相关又令人信服。

首先,现代分类数据分析的核心思想是,我们可能从猫和狗作为名义类别开始,但建模将首先关注计数这些猫或狗,使用对数链接函数对计数进行建模,等等。原始数据可能是“猫”、“狗”或其他,但分析的数据是计数。

想要对序数数据取平均值吗?请随意,但要小心。

\endgroup

\begingroup

正如其他人所指出的,这种分类来自史蒂文斯的量表。但他打算将其作为指导,而不是束缚,他的计划并不完整。我写了一篇关于这个的(其他更杰出的统计学家也写过关于它的文章,但我可以访问我的)。

\endgroup

3

  • 2
    \begingroup
    我认为你夸大了史蒂文斯的低估程度。他在 1946 年发表于《科学》杂志的论文中多次重新审视这一计划,并在他 1975 年去世后出版的书中进行了讨论。这几乎是一场持续了 30 年的运动。
    \endgroup


    – 

  • \begingroup
    我夸大了什么?我不否认史蒂文斯的量表很有用。我对它们的评论与一些非常著名的统计学家的观点一致。
    \endgroup


    – 

  • \begingroup
    史蒂文斯对他的计划比你暗示的要认真得多。这是我的建议。我同意许多统计人员低估了它的重要性。
    \endgroup


    – 

\begingroup

自从数学诞生以来,测量就一直在进行,但是现在你在教科书中看到的变量的更现代的定义来自关于这个主题的文章,其中提供了下表:

他在文章中将其定义为,他认为它们不具有任何数值,并且严格用于计数等程序:

名义尺度代表了最不受限制的数字分配。数字仅用作标签或类型数字,单词或字母也可以。

虽然这份名单存在争议(Michell,1986),但许多人倾向于认为名义数据和分类数据本质上是同一件事(包括我自己),而其他人可能出于迂腐的原因仍然不同意这一点。我从您的评论中得出的最重要的区别是我们是否在谈论有序类别。从这个意义上讲,我相信您知道,我们经常将这些数据视为序数数据,将任何无序数据视为分类/名义数据(Bandalos,2018)。无论“分类”和“名义”之间存在什么区别,否则可能都不是真实或有用的区别,因为我很少听到人们以概念不同的方式标记名义数据或分类数据

参考

  • Bandalos, DL (2018)。社会科学的测量理论和应用。吉尔福德出版社。

  • Michell, J. (1986)。测量尺度和统计:范式的冲突。《心理学公报》,100(3),398–407。https:

  • Stevens, SS (1946). 论测量尺度理论。《科学新丛书》103(2684), 677–680。

\endgroup

2

  • 5
    \begingroup
    “大多数人倾向于认为名义数据和分类数据本质上是同一件事”;除非你有数据,否则“大多数”这个词很危险。请参阅我的答案。我看到的文献中对这个狭义的观点并没有很强的一致性。(细节:我的编辑与不同意这个答案完全相反。)
    \endgroup


    – 


  • 2
    \begingroup
    你可能说对了。我对此进行了编辑,使该声明不那么绝对。
    \endgroup


    –