人人都是分析师基础知识2

分析统计,图源网络

测量变量的三大方法

测量变量的三种方式为:

?二元变量:这种变量只有两个值,并且根据统计分析的目的,通常最好是把它们身上存在或缺失某种东西的值定义为1或0。这样的例子可以是你要么是女性要么是男性(没有女性特征被记录为0,女性则被记录为1),或者你是否是美国公民。

?分类(或者称为名义)变量:对于这种变量的值,存在多种可能的分类,比如眼睛的颜色、冰激凌的口味,以及你居住在哪个州或省。因为这些因素很难被转变成增加或减少会产生意义差别的数字,所以针对分类数据有一类特殊的统计数据。

序变量:这些变量有一些分配给它们的数字,并且数字越大就意味着相应的变量存在的越多。然而,1和2之间的差别可能与5和6之间的差别不尽相同。序变量的典型例子是利克特选项(Likertitem),它是以社会学家伦西斯·利克特(RensisLikert)的名字命名的。利克特选项通常是关于调查受访者的反应,包括非常不同意、比较不同意、既不同意也不反对、比较同意和非常同意五种选项。当多个这样的序变量被结合到一起时,结果变量就被称为利克特量表(Likertscale)。

?数值(间隔和比率)变量:这些变量拥有标准的数值单位,比如以磅或千克计量的重量,或以英尺或厘米计量的高度。数值越大就意味着相应的变量存在的越多。另外,数值变量非常适用于像相关分析和回归分析这样的普通统计方法。

如果你正在收集的变量常被其他人(这个应该在回顾之前的发现这个步骤中就会知道)测量和分析,那么这个步骤对你而言将会非常简单,因为你可以直接借鉴他们的测量方法。然而,在一些特定情况下,你将不得不对这些变量进行首次测量。在变量选择的过程中,即使是非常主观的因素也能通过系统的方法进行测量。

例如,假设你是一位研究热门话题(起码通过电视广告来判断的话,是热门话题无疑)——勃起功能障碍(erectiledysfunction,ED)的研究人员。那么你是幸运的,因为在这个领域早已有一种广为接受的测量方法。可是,假如你是这个领域的早期研究者之一,那么你就必须开发自己的测量方法。

在20世纪90年代,卢森(R.C.Rosen)和他的同事一起开发了一个测量勃起功能的简单、可靠的自助方法,测量勃起功能障碍患者发生与治疗相关的改变的敏感性和特异性。勃起功能障碍属于一种主观性的情况,医生无法进行客观的诊断检验,这让医生很难做出准确的诊断。所以,卢森和他的同事们设置了一套用于诊断勃起功能障碍的关键变量:

?勃起信心;

?勃起硬度;

?持续频率;

?持续能力;

?满意度。

如表2-1中所示,卢森和他的同事们对每一个变量都进行了测量。

表2-1 在诊断勃起功能障碍中的关键变量

如果你很好奇这些问题是如何被转变成一种诊断行为的,那么我可以告诉你:医生可以根据得出的分数进行诊断,分数范围为5~25分之间。

基于各项得分相加,勃起功能障碍被分成五级:严重ED(5~7分);中度ED(8~11分);轻度ED到中度ED(12~16分);轻度ED(17~21分);勃起功能正常(22~25分)。这个用于快速自行诊断勃起功能障碍的工具被称为国际勃起功能障碍问卷表-5(IIEF-5),它展示了针对一个主观性话题,我们能够如何收集数据并进行分析。

不管你拥有什么数据,你总是可以获得更多的数据,或者获得与你最初用于考量问题的数据不同的数据。拉玛·拉梅克里斯南是我们在第1章中提过的具有天赋的定量分析师,他描述了一种改善博客帖子中的分析性影响的方法:“获取更好的数据是我的最爱之一。”不是更多的数据,而是有别于到目前为止用来解决问题的数据。如果你已经使用了人口统计数据,那么增加购买数据;如果你两者都有,那么增加浏览数据;如果你有数值数据,那么增加文本数据(在之前的工作中,通过使用传统的零售数据和促销数据辅以文本数据来为客户建模以及提供个性化服务,我们取得了非常喜人的成果)。

阿纳德·拉贾拉曼(AnandRajaraman)是数据挖掘领域的专家,他也发表博文谈论了通过增加新的数据源来改善分析的重要性。

当我在斯坦福大学教授数据挖掘课程时,我们班上的学生有望进行一些不同凡响的数据挖掘项目。许多学生选择在奈飞的挑战项目上一试身手:设计一个电影推荐算法,这个算法要优于奈飞自己开发的推荐算法。

比赛是这样的:奈飞会提供一个非常大的数据集,这个数据集能告诉你约50万观众是如何对部电影进行评级的。基于已知的评级,奈飞要求你预测出这些用户会对未进行评级的电影给出什么样的评级。第一支在精确度上以一定的优势打败奈飞算法的参赛队伍将获得万美元的奖励!

我班上的学生组成了许多支队伍,他们采用了各不相同的方法来解决这个问题,既借用了公开的算法,也融入了新点子。其中有两支队伍的结果阐述了更广泛的观点。A队基于奈飞提供的数据提出了一个非常复杂的算法;B队则提出了非常简单的算法,但是他们在奈飞的数据集之外增加了其他数据——来自互联网电影数据库(TheInternetMovieDatabase,简称IMDB)中的关于电影类型的信息。猜猜看哪支队伍的表现更胜一筹?B队获得的结果优势明显,差不多是奈飞排行榜上的最佳结果!

拉贾拉曼也曾在我们上文中提到的同一篇博文中指出,区别谷歌搜索和先前的搜索服务的最主要因素是一个新的数据源——超文本链接,因为先前的搜索引擎只使用了网页文本。在谷歌非常赚钱的“关键词竞价广告”(AdWords)的广告算法中,它同样增加了一些同期没有其他人使用的额外信息:与每一个广告者的广告点击率相关的信息。

拉贾拉曼和拉梅克里斯南认为,几乎在任何时候,更多和更好的数据一定胜过一个更好的算法。虽然他们参考的是在线和零售业务的情况,但是很多案例都能证实:相比精确的算法,与众不同的数据更占优势。达里尔·默雷(DarylMorey)是NBA休斯敦火箭队(HoustonRockets)的总经理,他是在职业篮球中最具分析性思维的管理者(我们将在第5章中详细描述他的工作)。他认为:“真正的优势来源于与众不同的数据。”并且,基于此观念,他雇用了一批分析师对NBA每一场比赛中双方队员的移动防守情况进行了归类。默雷也是NBA的领导者中最先开始分析大量的比赛视频的人。在保险行业中,区分美国前进保险公司(ProgressiveInsurance)和众多没那么具有分析性的汽车保险公司的是,它所掌握的与众不同的数据:前进保险公司最先将FICO信用得分(我会在第4章的一个案例中对其进行描述)作为变量引入了保险定价模型中,并且和它的竞争者相比,前进保险公司长期使用更多的变量和数据来分析客户风险以及为客户进行保险定价。前进保险公司还最先采用了收集客户驾驶行为数据的方式(当然是在取得客户同意的前提之下),在一个被称为“快照”(Snapshot)的项目中基于客户的实际驾驶行为进行保险定价。虽然你可能不想告诉保险公司你是如何驾驶的,但是如果你是一名谨慎的驾驶员,那么你将获得更低的保险费率。




转载请注明:http://www.xbkqw.com/dlxr/95384.html

  • 上一篇文章:

  • 下一篇文章: 没有了
  • 当前时间: