我最近收到了一封来自“Jeff // Stack Overflow”()的电子邮件,其中包含一个调查链接。调查之前有一个电子邮件地址,以及发送反馈的邀请。
……很遗憾,我忘了记下这个电子邮件地址。因此我写了这封公开信。
TL;DR:本次调查中的一些问题是错误的,不允许框架挑战性回答。我无法从这次调查中得出正确的结论,所以我怀疑 Jeff 可能会遇到困难。我建议 Jeff 将来在投入时间和精力进行实验设计之前先咨询一下 meta。(由于公司正在大力发展人工智能,这里有。)
收件人:产品经理 Jeff。
你好呀,
我们很高兴邀请您参与我们最新一轮的用户调查!这项调查将帮助我们更好地了解 Stack Overflow 上的问题质量意味着什么。
这项调查可归结为根据三类评分标准对问题进行评分:
类别 定义 背景和背景 问题提供了全面的背景信息,包括必要的细节、背景研究和最低限度可重现的示例(如果适用),以确保充分理解问题。之前解决问题的尝试也记录在案。 预期结果 问题清楚地说明了解决问题的期望结果或目标。 格式和可读性 问题格式良好,语法和拼写正确,并且包含格式正确、易于理解的相关代码。
调查的后面有一个更详细的评分标准,显然投入了大量精力。不幸的是,它完全是错误的。你把我们给新用户的指导混淆了,就像某种“如何写出一个很棒的问题!”的说明。实际上,“确保有足够的原始信息来提出一个好问题”的说明。
有些问题在评分标准上得分很高,但却冗长无用,并且/或者(用您的一个例子来说)与现有问题 。您的调查没有提供解释我为什么不同意排名的方法,所以我无法给出这个反馈
(我给出的答案似乎验证了你的评分标准,因为这项调查并不试图反驳这一假设。我有点担心你可能会将调查结果解读为支持它。添加“这是一个好问题吗?”可能会有所帮助:这至少可以测试你的代理指标与感知到的基本事实的对应程度。)
同样,网络上排名第二的问题(按投票数计算),,将在您的评分标准中获得 2/2/5(满分 5 分)。它不包含任何研究工作¹,也不包含 MCVE,也不包含以前尝试的文档。目标表述得模糊:从答案中可以看出,问题中的单词可能意味着许多不同的事情。对于所有这些来说,这是一个更好的问题。问题是针对那些不知道答案并想找到正确答案的人。
如果你在调查中问了第一个问题,那么你就可以节省很多时间:
(可选)作为审阅者,在评估问题质量时,您是否会考虑这里未列出的其他类别?
在做所有这些工作之前,先在元上。(最好是:在理解一般基础知识之前,您可能很难解释问题审查的特定方面。)这可能会让您得到一个列表,例如:
- 问题是否足够狭窄,可以在 Stack Exchange 格式内回答?(是 = 很好)
- 它的答案是否足够广泛,具有普遍用途?(是=好)
- 标题是否描述了问题的一般情况,而问题主体询问的是具体情况?(否=好)如果是这样,我通常会进行编辑以解决这个问题。
- 是否与主题相关?(是 = 很好)
- 标签看起来怎么样?
- 这是一个吗?(例如,提问者问了一些荒谬的学术问题,如“没有鸟我怎样才能实现?”,并且有足够多的具体细节让我觉得他们是认真的)
- 是否给出了失败尝试的结果,或者只是将尝试描述为“失败”?(给出的结果 = 好)
除此之外,你知道,元答案往往比这更好。
¹:请参阅和。
5
最佳答案
3
感谢您的反馈,感谢您花时间参与这项研究。此类研究是同类研究中的首例,旨在帮助我们确定平台上的问题质量。请参阅,其中包含有关这项研究的背景以及我们正在研究的内容。我们已将您的反馈转达给负责的团队,因为这将有助于改进未来关于问题质量的研究。
为了提供更多背景信息,另一个团队最近也进行了一项单独的研究,以了解审阅队列中审阅者的经历,以便 1)了解他们改进问题的过程,2)了解他们过程中令人沮丧的方面,3)了解最多时间花费在哪些地方。
这只是我们研究的开始,我们感谢您强调 Meta 是这些努力的资源。我们将考虑各种研究方法,包括获取更多社区反馈。
7
-
感谢您尝试了解这些事情。然而,您却像维多利亚时代的人类学家一样对待它。我们已经对问题质量有了全面的定义,而您却没有从中开始。如果您的研究计划继续按照我认为目前的方式进行,结果将是一个您自豪地与我们分享的新定义,而我们完全拒绝接受。那么您会很难过,我们会感到沮丧(一种悲伤),而且——重要的是——您的研究目的将无法实现。
– -
从我所看到的(我知道我的视野有限)来看,你目前正在进行的研究是研究计划进行到很晚才做的事情,此时获取区分陈述和显示偏好的精细定量数据变得很重要。你还没有进入“全面绘制领域地图”阶段,也没有进入“探索领域范围”阶段:你处于“弄清楚领域在哪里”阶段。(如果公司没有解雇那么多领域专家,你会有一个更好的起点——但事实就是如此。)
– -
我本来想说,我认为这 3 个类别是无稽之谈,而且在元数据中也没有先例来对构成好问题的众多标准进行分组。事实上,如果你仔细阅读,你会发现这 3 个类别有重叠之处,而且 MRE 元素出现在所有 3 个类别中,所以至少在发送调查之前你应该重新考虑一下这一点。然而,由于 MSO 社区决定不解决这个显而易见的事实,所以我自己没有指出这一点。
–
-
请注意@Sasha,在用户投出 +10k 票后,看到这些标准被归入看似重叠的类别,真是令人沮丧。我感觉几乎没有人考虑过这些类别,尽管有趣的是社区并没有将他们的集体思想投入其中,因为 SG 公告将原始数据与正交类别问题归为一类 – 这本身就违背了我们通常的思维过程,因为问题应该“有重点”,而链接的元帖子缺乏重点 – 如果它不是工作人员帖子,它就会被关闭。
–
-
1因此,如果您想从关闭投票标准中提取问题质量的,则必须将其单独成一个帖子。Bella_Blue(CM 团队的同事)负责总结问题,并从现有的 15 岁元语料库中严格定义/提炼这些内容,这项工作相当繁重。在这种情况下,您正在尝试一种可能根本不可能实现或没有意义的新的上位词本体。
–
-
@bad_coder 回复“几乎没有想法”:中看出他们是如何得出这一结论的,如果没有历史背景,您也不一定会知道引用了。他们的做法非常错误,但也不是很明显。
–
-
1@bad_coder 关于 MSO 社区未解决此问题:问题太宽泛了。作为公告,这没问题,但我认为除了公告本身之外,至少还有六个问题。如果我看到了这个问题,我可能需要……四五个小时才能回答所有问题?
–
|
我真的不想太深入地探讨“什么是好问题”,但这有点像是这项调查的要点。这项调查中要求我们回答的问题与问答向导的所有修订版都存在同样的谬误;它将传入的问题视为调试问题或无效问题,尽管事实上最有用的问题绝大多数是如何做的问题。
指定一组适用于所有问题类型的指标非常困难,但应该很容易拥有多种问题类型,并允许用户逐案决定应将问题评估为哪种“类型”,以便提供正确的指导。
|
呃,我刚刚把所有框架挑战响应都放到了各种自由格式的文本字段中。我喜欢他们做调查,希望看到他们对此有更多的思考…
但是,我收到的很多问题中最好的一个是经过编辑后自己回答的,但是却没有足够的评分标准。
杰夫,如果你正在读…阅读几千个问题并了解是什么让人们“在该领域”感到兴奋,这是无可替代的。
9
-
“通过编辑自我回答”我不明白,你能重新措辞一下吗?
– -
编辑了问题的答案@philipxy
– -
谢谢,但我也不明白。此外,我无法将其与“没有合适的评分标准”联系起来,因为你刚刚说你这样做了。(我不认为我不明白这一点令人惊讶。)这是关于寄回一份调查副本的事情吗?
–
-
1@philipxy OP 提出了一个问题。OP 随后编辑了该问题并添加了类似“解决方案是<某事>”的内容。
– -
@VLAZ 我不明白你的意思。主题是调查。不是问答。
– -
你能用足够的词语清楚地表达你的意思吗?
– -
1@philipxy 这项调查是关于问答的。调查中向 Shog9 询问的其中一个问答已将答案编辑到问题中。
–
-
3调查假设所有问题都会根据目的、信息和呈现方式分为几类。但这个假设并非如此:提问者自己解决了问题,需要帮助来理解该怎么做。在可用选项中,我可能做出的任何选择都无法准确反映问题或找到解决方案。
– -
1@philipxy 简而言之 – 调查“遗漏”了一个现实世界的案例,该案例与调查所问的问题不太吻合。世界并不完美,有些人会把长方形的方块放在方形的洞里。这里的实际要点是,在某种程度上,让人们在为平台设计时更多地接触平台会大有裨益 – 以便更好地理解边缘情况,比如,有人在编辑答案时就像在论坛一样。
–
|
–
–
–
–
–
|