诉讼指南
诉讼指南
清晰思考:关注想法和问题,掌握数据分析技巧
东莞长安律师获悉
要想清晰思考,首先要关注想法和问题。数据分析技能虽然很重要,但也应该服务于想法和问题。
不幸的是,大多数参加统计或数据分析课程的人的关注点恰恰相反。
他们学习数学公式,记住统计程序,并关注统计细节,而不考虑他们在做什么或为什么这样做。
本书的重点是概念理解。
在分析数据时,您会比较世界的哪些特征?不同类型的比较可以回答哪些不同的问题?您能否针对您想要解决的难题提出正确的问题并进行正确的比较?
为什么听起来令人信服的答案实际上具有误导性?您如何使用创造性的方法来提供更具信息性的答案?
这并不是说技术细节不重要。相反,我们认为,在没有清晰理解和反思概念的情况下使用技术是一场灾难。
一旦你能够清楚地思考定量分析,并且一旦你理解为什么提出仔细而精确的问题如此重要,你自然就会学到技术细节。
大多数人不会成为专业的宽客。但我们相信您将在许多情况下使用本书中学到的技能。你每天阅读新闻报道或最新研究,总有人试图用数据分析来说服你。
本书将为您提供清晰思考、提出正确问题、保持怀疑以及辨别误导性证据的技能。
01 一个故事——阿贝尔的误诊
让我们从一个故事开始。
伊森的第一个孩子阿贝尔出生于 2006 年。在婴儿时期的 5 个月里,他几乎每晚都尖叫和哭泣。亚伯在其他方面都很健康,只是有点小。
当他一岁时,全家搬到了芝加哥。如果没有这个举动,你就不会读这本书。
儿科医生注意到亚伯比他的实际年龄要小后,决定给他做检查。检查显示他患有乳糜泻,这是一种以麸质不耐症为特征的消化系统疾病。
好消息是,如果饮食管理得当,乳糜泻不会危及生命,甚至不会非常严重。坏消息是,2007 年,儿童无麸质饮食的选择相当有限。
图片来自
亚伯实际上进行了两次与乳糜泻相关的血液检查。一项结果是阳性(表明他患有这种疾病),另一项结果是阴性(表明他没有患病)。
据医生称,阳性检测的准确率超过 80%,诊断结果很有说服力。
建议的治疗计划是让阿贝尔实行无麸质饮食几个月,看看他的体重是否增加。如果确实增加,那么要么进行活检以进一步澄清,要么阿贝尔可以在余生中完全不吃麸质。
伊森要求看阿贝尔的验血报告。医生说没必要,你又不是医生。这个答案既不令人惊讶,也不可理解。人们,尤其是专家和权威人士,往往不愿意承认自己知识的局限性。
但伊森想为儿子做出正确的决定,所以他努力争取信息。
本书的目标之一是为您提供在需要保护自己利益时使用信息做出决策的技能和信心。
对于任何一项检查,都有两个指标来判断其有效性。第一个是假阴性率,即测试患者为健康人的概率。第二个是假阳性率,也就是将健康人检测为患者的概率。为了正确解释测试结果,您需要知道这两个比率。
因此,阿贝尔博士所说的阳性准确率为80%的说法并不能提供太多信息。
这是指20%的假阴性率吗?或者假阳性率?或者这是否意味着只有 80% 的检测呈阳性的人患有乳糜泻?
幸运的是,通过谷歌快速搜索,找到了阿贝尔两项测试的误报率和漏报率数据。
阿贝尔检测呈阳性的检测假阴性率约为20%。
也就是说,如果 100 名乳糜泻患者接受检测,其中大约 80 人的检测结果正确为阳性,而另外 20 人的检测结果错误为阴性。这或许就是所谓80%准确率的来源。
然而,这个测试有50%的误报率!
也就是说,没有患有乳糜泻的人获得阳性检测结果的可能性与获得阴性检测结果的可能性相同(值得注意的是,不再建议使用该检测来诊断乳糜泻)。相比之下,阿贝尔的假阴性和假阳性率在阴性测试中要低得多。
在检查 Abel 之前,如果我们必须估计他患有乳糜泻的概率,考虑到他身材矮小,合理的估计约为 1%。这意味着大约百分之一的儿童患有乳糜泻。
将测试结果与假阳性率和假阴性率相结合,伊森能够计算出阿贝尔患有乳糜泻的可能性。
令人惊讶的是,不准确的检测结果呈阳性,而准确的检测结果呈阴性,实际上意味着阿贝尔患乳糜泻的几率远低于百分之一。
图片来自
事实上,正如我们将在第 15 章中向您展示的那样,根据测试结果,Abel 患乳糜泻的几率约为千分之一。
阿贝尔的医生相信的血液测试有力地支持了相反的结论。几乎可以肯定,阿贝尔没有患有乳糜泻。
伊森打电话给医生解释他的发现,并表示由于他对意大利面的痴迷,他的儿子在余生中吃无麸质食物可能并不明智。医生回复:乳糜泻是一种让任何人都难以接受的疾病。
伊森换了一位新儿科医生。
阿贝尔没有乳糜泻,只是宝宝有点小。如今,他已经是一个正常大小的孩子,胃口很好。
但如果他的父亲不知道如何思考定量证据,或者缺乏挑战错误专家的信心,他的童年就是在吃年糕中度过的。年糕很难吃,他很可能长不高了。
02 什么是相关性
接下来,我们进入正题,先讨论“什么是相关性”。
相关性不等于因果性。这是一个很好的原则。然而,它的用处不大。
因为虽然很多人都知道这句话,但几乎没有人知道什么是相关性,什么是因果关系。
本章是关于相关性的。相关性是定量分析师用来描述世界、预测未来和回答科学问题的主要工具。这是严肃分析师所必需的基本技能。但他们必须清楚地了解相关性可以回答哪些问题,不能回答哪些问题。
相关性是指两个特征同时出现的程度。
这个定义告诉我们,相关性是两个事物之间的关系(事物也称为世界(of the world)的特征或变量())。
如果两个特征倾向于同时出现,则它们呈正相关。如果一个特征的出现与另一特征的出现无关,则它们不相关。如果一个特征存在而另一个特征通常不存在,则它们呈负相关。
世界的两个特征常常同时出现。这意味着什么?让我们从最简单的例子开始。
假设我们要评估世界的两个特征之间的相关性,并且每个特征只有两个可能的值(我们称之为二元变量)。
例如,“中午之前”和“中午之后”是二进制变量(相反,以小时、分钟和秒测量的时间不是二进制的;它可以采用两个以上的值)。
政治学家和经济学家有时会提到“资源诅咒”或“丰富悖论”。它是指自然资源丰富的国家往往比自然资源较少的国家经济不发达、民主程度较低。自然资源丰富的国家在其他领域发展的可能性可能较小,并且可能更容易受到暴力和独裁的影响。
为了评估资源诅咒的程度,我们可能想知道自然资源与经济或政治制度特征之间的相关性。首先是收集数据,我们已经收集了这些数据。
为了评估自然资源,我们选择了主要石油生产国。如果一个国家每天每百万人出口超过 40,000 桶石油,我们就将其归类为主要石油生产国。
关于政治制度,我们根据政体指数(IV)来评估哪些国家是独裁国家,哪些国家是民主国家。
下图显示了四种可能类别的数字:主要石油生产国的民主国家、非主要石油生产国的民主国家、主要石油生产国的独裁国家、非主要石油生产国的独裁国家。
通过比较,我们可以弄清楚这两个二元变量是否相关:是石油生产大国、独裁国家还是民主国家。
例如,我们可以问,主要石油生产国是否比非主要石油生产国更有可能成为独裁国家?或者独裁国家比民主国家更有可能成为主要石油生产国?
如果一个陈述是正确的,那么另一个陈述也一定是正确的。这些比较告诉我们世界的这两个特征(主要石油生产国和独裁国家)是否会同时出现。
图中,石油产量和专制确实是正相关的。 55%的主要产油国是专制国家(11/20=55%),而非主要产油国只有约20%是专制国家(29/147≈20%)。
另一方面,27.5%的独裁国家是主要石油生产国(11/40=27.5%),而只有约7%的民主国家是主要石油生产国(9/127≈7%)。
也就是说,主要产油国比非主要产油国更有可能成为独裁国家。同样,独裁国家比民主国家更有可能成为主要石油生产国。
图片来自
作为一个描述性问题,我们发现这种正相关性很有趣。它还对预测有潜在的好处。假设我们的数据之外还有一些其他国家的政治制度我们不确定。只要知道它们是否是主要石油生产国,就可以预测它们拥有什么样的政府。
这些知识甚至可能对因果推理有用。例如,如果一个国家发现了新的石油储备,国务院可能想知道这将对该国的政治体系产生什么影响。这些数据可以提供有关因果关系的信息。然而,正如我们将在第 9 章中详细看到的,在将相关性解释为因果关系时必须非常小心。
在上面的例子中,我们画了一个表格列出了所有的可能性,但有时我们的数据不允许这样做。即便如此,我们仍然可以评估相关性。
例如,假设我们要评估芝加哥的犯罪率和气温之间的关系。
我们还可以画一个表格,每一行对应一天,每一列对应一天的某个特征。我们通常将行的观察()和每列的特征称为变量()。在这里,观察是在不同的日子进行的。
其中一个变量可能是当天芝加哥中途机场测量的平均温度。另一个可能是当天芝加哥市报道的犯罪数量,或者《芝加哥论坛报》当天是否在头版刊登了犯罪故事。
正如您所看到的,变量的值可以是二进制(是否是头版报道)、离散但非二进制(犯罪数量)或连续(平均温度)。
我们收集了 2018 年芝加哥的数据,想要评估犯罪率与气温之间的相关性。但是如何评估两个非二元变量之间的相关性呢?
一种基本方法是绘制散点图。下图显示了 2018 年芝加哥的散点图。
其中,每个点对应一个观察值。也就是说,每个点代表 2018 年芝加哥的一天。
横轴是中途机场的平均温度。纵轴是当天该市报告的犯罪数量。因此,每个点的位置显示了特定日期的平均气温和犯罪数量。
从图中可以看出,温度和犯罪率之间似乎存在正相关关系。
横轴左侧的点(较凉爽的日子)在纵轴上(犯罪率较低的日子)往往也较低,而横轴右侧的点(较温暖的日子)在纵轴上往往也较高轴(犯罪率较高的天数)。
但我们如何量化这种视觉印象呢?事实上,有很多统计方法可以实现。其中之一称为坡度。
假设我们找到最适合数据的线。所谓的最佳拟合大致就是使数据点与直线之间的平均距离最小化的直线(我们将在第 5 章中更精确地描述这一点)。最佳拟合线的斜率是描述两个连续变量之间相关性的一种方式。
下图显示了添加了这条线的散点图。这条线的斜率告诉我们这两个变量之间的关系。
如果斜率为负,则相关性为负。如果斜率为零,则温度和犯罪率不相关。如果斜率为正,则相关性为正。
斜率的陡度告诉我们两个变量之间的相关性有多强。
在图中,我们看到它们呈正相关:天气温暖时犯罪率往往更高。另外,斜率为3.1。因此平均而言,气温每升高 1 度(华氏度),就会增加 3.1 例病例。
请注意,如何解释斜率取决于哪个变量位于垂直轴上以及哪个变量位于水平轴上。
如果我们以另一种方式绘制图表(如下),我们仍然描述相同的两个变量之间的关系。但此时,每增加一个病例,气温平均就会升高0.18度。
无论横轴上有哪个变量,斜率的符号(正或负)都是相同的。因为改变变量所在的坐标轴并不会改变它们的相关性。但这条线的斜率,以及斜率所代表的内容——它对世界的描述——已经改变了。
03 这是事实还是相关性?
为了确定是否存在相关性,您必须进行某种比较。
例如,要了解温度与犯罪之间的相关性,需要比较炎热和寒冷的日子,看看犯罪水平是否不同。或者,您可以比较高犯罪率和低犯罪率的日子,看看它们的温度是否不同。
也就是说,要评估两个变量之间的相关性,两个变量都必须发生变化。
例如,如果您仅在平均气温为 0 度的日子收集数据,则无法评估温度与犯罪之间的相关性。如果仅研究 500 个病例的天数,情况也是如此。让我们暂停一下,看看您对相关性的理解有多清楚,以及如何知道它是否存在。如果您还不太明白,请不要担心。事实证明,了解两件事之间是否存在相关性可能很棘手。我们将用第 4 章的一整章来讨论这个主题。
在此之前,进行初步检查也很有帮助。那么让我们尝试一下吧。
考虑以下陈述。哪些描述了相关性,哪些没有?
1.活到100岁的人通常服用维生素。
2. 犯罪率高的城市往往会雇用更多的警察。
3. 成功人士至少花费 10,000 小时磨练自己的技艺。
4. 大多数有丑闻的政客都能赢得连任。
5.老年人比年轻人投票更多。
虽然每个陈述都反映了一个事实,但并非所有事实都描述了相关性,即世界的两个特征是否倾向于同时出现。
表达式1、3和4没有描述相关性,而表达式2和5描述了相关性。
我们来回答一下这个问题。
陈述 1、3 和 4 正确。它们源自数据,听起来很科学。如果我们在每个陈述中添加具体的数字,我们就可以将其称为统计结果。但并非所有事实或统计数据都描述了相关性。
关键问题是这些陈述没有描述世界的两个特征是否倾向于同时出现。也就是说,他们不会比较世界的两个特征的不同值。
为了更好地理解这一点,让我们看一下语句 4:
大多数有丑闻的政客都赢得连任。
它讨论了世界的两个特征。首先是政客是否有丑闻。其次是政治家能否成功连任。所暗示的相关性是丑闻与赢得连任之间的正相关关系。
然而,我们并没有从这个陈述中得知这两个特征是否同时出现。也就是说,我们不会比较有丑闻的人和没有丑闻的人的连任率。
图片来自
我们可以评估相关性,但不能从报表 4 中的数据来评估。为了评估相关性,我们需要改变两个变量——发生丑闻和赢得连任。
只是为了好玩,让我们用真实数据来测试一下。
休斯顿大学的斯科特·贝辛格系统地收集了有关国会丑闻的数据。我们收集了 2006 年至 2012 年寻求连任的美国众议院议员的数据。
我们列出了4类:有丑闻但连任的议员、有丑闻但未连任的议员、无丑闻但连任的议员、无丑闻但未连任的议员。
在上图中,我们看到陈述4确实是事实:70名丑闻缠身的国会议员中有62人(约89%)再次当选。
但我们也看到,大多数没有丑闻的国会议员也赢得了连任。在这些无丑闻的议员中,1,293 名议员中的 1,192 名(约 92%)赢得了连任。
通过比较丑闻缠身的议员和没有丑闻的议员,我们现在发现,面临丑闻和赢得连任之间实际上存在轻微的负相关关系。
我们希望现在已经清楚为什么声明 4 没有传达足够的信息来表明丑闻与连任之间是否存在相关性。
它的问题在于它只描绘了可耻的政客。它告诉我们,这些政客赢得连任的次数多于失去连任的次数。
但要弄清楚丑闻与赢得连任之间是否存在相关性,我们需要比较有丑闻的政客赢得连任的比例与没有丑闻的政客赢得连任的比例。
如果只有85%没有丑闻的立法者赢得连任,那么丑闻与连任之间存在正相关关系。如果 89% 赢得连任,则不存在相关性。但由于现在真实比例为 92%,因此存在负相关关系。
同样,陈述 1 和 3 没有传达足够的信息来评估相关性。
表达式2和5描述了相关性。两种说法都进行了比较。
陈述2告诉我们,平均而言,犯罪率高的城市比犯罪率低的城市拥有更多的警察人数。陈述 5 告诉我们,老年人的投票率往往高于年轻人。
在这两种情况下,我们都将一个变量(警察部队规模或投票率)的差异与另一个变量(犯罪率或年龄)的差异进行比较。这是建立相关性所需的信息。
就像我们一开始所说的,如果您感到困惑,请不要担心。弄清楚哪些信息只是描述事实以及哪些信息是建立相关性所必需的,这可能很棘手。我们将使用第 4 章来确保您真正理解它。
以上主要是从第一章和第二章翻译过来的,有一些删节,“相关性的好处”和“计算方法”没有翻译。
来源 | (ID:)
作者 |编辑|睡着了
长安镇律师?敬请于评论区发表高见,并对本文予以点赞及转发,以助广大读者把握法律与正义的界限。