大咖说数据分析的方法

首页 > 软件科技   发布机构: 人力资源管理数据分析  2020-06-04 10:21


1.1 为什么说可视化本身就是分析方法

数据可视化就是把枯燥的数据用图形化的方式展示出来,从而能够更好地理解数据背后的含义。数据可视化有广义和狭义两种理解,狭义的理解就是将数据用图表的形式表达出来,广义的理解则涵盖了信息图形化(Infographics)。广义和狭义的定义都是用图形来表达数据背后的逻辑,图形化后的数据所传达的含义更加直观,含义更加丰富。而且数据可视化提高了对数据差异化的敏感度。

将数据用图形化的方式显示出来能够给人更加直观的认识,如果图形设计得好,可以起到更加震撼的效果。

数据的图形化本身就是分析,通过图形化展示给我们一种概念,一种比较结果,一种特征,告诉我们发生了什么,从而对数据分析的结论更加清晰明了。在制作数据图形的过程中,也希望传达一种思想或者想法,越是制作良好的数据图形,越有说服力,而制作数据图形的作者本身也在用图像传达其希望传达的想法。

1OCR是OpticalCharacterRecognition光学字符识别的缩写

1.2 一图胜千言:如何让图形本身说话

图形所能够表达的内容比语言和数字表格要丰富很多。我们把3个产品一年12个月的销售数据放到一张表格中,可能很难知道这3个数据的变化,如下表所示。



但是,如果我们将这个表转换成为图,则效果会大不一样。从图中我们可以解读出很多信息,并且一目了然,如下图所示。



产品月度销量


在整体数据解读上我们可以看到如下信息。

(1)3个产品的销售额在8月份爆发,并持续增长,可能是由于行业本身的季节性所致;也可能是公司采取的大力促销使后4个月产品销量加倍。

(2)产品销售波动幅度非常大,不利于工厂的产能平衡。

在产品对比方面,可以有如下解读:

(1)公司在8月份之后进入了销售旺季,销量最大的产品A表现更为突出。

(2)排名第三的产品B呈增长趋势,并在第四季度成为公司销量排名第二的产品。

(3)产品C在第四季度大幅下滑,可能进入产品生命周期的下行通道,也可能是生产产能调整导致供应不足等。

图形会说话,会说出数据背后的故事。如下图所示是一个月度销售额的曲线图,从图上会发现每年的12月到次年的2月都有一个典型的曲线特征,每年11月~12月销售额下降,而1月销售数据暴增,2月数据又下降。管理过销售团队的人可以一眼看出,如果不存在明显的季节性或者1月特殊节日的影响,那么该销售团队肯定是在年底断货了,鉴于消费者感受到12月的断货,所以在1月的时候加大了购买量,避免出现再次购买困难的局面。因为1月的过量采购,所以2月销量下降。这是典型的年底目标达成后,为了避免当年完成太多销售额而主动放弃销售,技术性断货导致的特征曲线,也说明销售团队的管理存在目标设定问题和激励问题。一方面,企业年度目标设定较低,团队可以超额完成;另外一方面,销售团队完成当期目标后,没有足够的动力去超额完成目标,销售激励方案不科学,没有把公司的销售最大化,丧失了增长空间,损害了消费者的利益,特别是忠诚消费者的利益。

当然这个图也传递了一个很好的消息:销售团队相对稳定,他们不会只考虑完成今年的目标,而且还在考虑明年的目标,说明销售团队人员流动风险低,至少从管理团队来讲是稳定的,因为他们在考虑长期的销售问题。

图形化的数字不会说谎,但数据会说话,会讲故事,这也是在企业内部推动数据化管理经常遭遇阻力的原因之一。



月度销售额曲线图

1.3 不同的想法用不同的图形表达

自18世纪初数据图形化开始兴起到现在,人们创造了各种各样的图形样式,仅Excel中的模板就有50多种(Excel2016版),并且还可以在既定模板的基础上自行定义,Excel2010版本后增加的Powermap可以用来制作地图类图表。

数据图形化的软件也有很多,比如谷歌有GoogleCharts,百度也开发了类似的在线工具BaiduEcharts。另外有很多的开源的制作图形的程序库可以使用,如果利用谷歌搜索,可以搜出上百种供大家使用的程序、库、代码或者在线工具。

熟练使用工具可以大幅度减少在图形制作上花费的时间,每个管理者都应该掌握一种以上的工具。

数据图形化重要的不是工具,而是用图形来表达的想法。不同类型的图形用来表达不同类型的想法,要从人们的常识角度来制作图形。我们常见的数据图表有如下几种。

(1)点:第一种情况是用点来标识一个对象,当把点放到一个平面的图形中时,标识的是点在横轴和纵轴上的位置关系,当将多个点放到平面地图上时,则表示的是点与点之间的“距离”关系,即分布情况;第二种情况是,用点来标识同一事物或者同一类事物在不同情况下的状态,多个点表示多种状态,以此来展示两者之间的相关性。

(2)泡:将点放大,用点的大小来标识对象的第三个维度,就形成了泡图,所以泡图可以用来标识三维变量的情况。

(3)柱形图:柱形图用来表示大小,是规模指标的作图方法。人们对图形高低的辨别相对敏感,只要把数量化指标用柱形图标识,就更好辨别事物间的差异,并形成比数字比较更加有效的视觉冲击。

(4)条形图:可以用来比较规模大小的图形还有条形图,是柱形图的横向标识,与柱形图没有本质的区别。但从人们常识性的理解上来说,柱形图纵向排列一般标识时间先后,而条形图纵轴自上而下的排列往往是并列关系。同时,当标识过长的时候,用条形图看上去更加美观。

(5)线型图:线型图一般用来表示事物的发展趋势,表达事物在不同时间的变化,从而寻找事物随着时间流逝的变化规律。

(6)饼图:一般用来表示事物组成的结构关系,饼图中的各块为总体的组成部分,总和为100%。

(7)扇形图:用来标识事物在不同维度上的差异,从而描述事物的特征。

(8)Mekko图:用来标识事物的组成结构,与饼图不同的是其对事物进行两个维度的分类。

(9)旭日图:与Mekko图类似,也是标识事物间的结构关系,并能够同时表达多个层级关系中的结构。

(10)格尔玫瑰图:与旭日图类似,但每个扇形轴上表示的是数量,每个扇形代表固定的分类。

各种图形都可以再进一步延伸或者组合,从而有更多的创意图形。限于篇幅在此处不再一一示例。选择合适的图形表达对应的想法是非常重要的,同时在阅读数据图形的时候,也要从差异、结构、趋势等角度去思考背后的含义。

1.4 企业大数据常见的可视化方法

在大数据时代,数据的图形化变得非常重要,因为数据的复杂程度大大提高,单纯的阅读数据往往什么也看不出来,因此有了更多具有创意的表达方式。其中有4种大数据可视化方法比较常用,下面做简单介绍。因为大数据的复杂性,大数据的可视化创意层出不穷,需要从事数据分析的相关人员多借鉴他人的经验,不断积累自己的经验,从而能够更加直观地表示大数据背后的含义,进一步发挥大数据的价值。

1.地图法Mapping

在大数据集中有一个重要数据信息就是地理位置信息,通过GPS位置定位,可以记录事物发生的地点,也可以通过一些地图服务来查找事物的具体地理位置,从而能够在地图上做出标识。

地图法就是将事物根据数据发生的地理位置信息将事物标识在地图上的一类方法。通过在地图上进行标识,可以直观地看到事物在地图上的分布情况,从而直观地观测事物在地图上的分布特征,热力图是地图法最典型的应用。当然也可以用点或者泡来标识事物在地图上的分布情况。

2.画像法Profiling

画像法是用定性的描述语言来描述事物特征的一种方法。近几年画像法普及很快,特别是客户画像逐渐被各大机构或者公司采用,包括淘宝、京东、苏宁等,甚至电信企业也在用画像法在描述其客户的画像。

我们最常见的是客户画像或者用户画像。用户画像就是根据用户的信息,利用标签、特征属性等对用户进行描述,带有用户分类的性质,从而对用户有更加深入的了解。给用户添加标签是最简洁的方式,但是添加标签需要用户分类的基本常识。当然,根据企业的性质、画像的目的不同在标签的选择上也会有所不同。利用笔者自己口中常说的或者常听到的词汇来给自己画像,大概可以画成如下。



3.时间轴Timeline

所谓时间轴的方法就是将分析对象放到时间轴上并在每个事件节点、重要时刻等形成一个历史的纪实性统计描述。

通过用户在时间轴上重要节点的梳理,可以更加充分地了解用户。通过对大量用户时间轴的分析,可以把生活规律、活动规律、经常活动时间等聚合在一起形成一类客户,针对这类客户的特殊需求定制相关的产品和服务,提高客户的满意度。

时间轴功能非常强大,通过时间轴方面的回忆,可以激发客户的感受,回忆过往,同时,我们通过对用户人生轨迹的研究,可以深度剖析用户的行为特征,从而能够对用户的画像或者分类更加精准,让我们的营销和产品设计更加精准地定位用户,增强用户的体验。

4.联结Connecting

联结也是一个强大的数据分析方法,通过数据间的关联,可以把用户的数据关联组合在一起,衍生出新的想法。啤酒+尿布的故事就是典型的联结方法,即通过对购物篮中产品组合的分析,找到最相关的两种产品,从而确定产品与产品间的联结,然后在现实生活中将两种产品或者服务关联起来,提高客户的满意度和产品的销售额,实现Upsell的目的。

另外一种联结就是针对本身就是两个对象联结的数据进行联结分析。比如火车票或者机票,本身就是从始发点到目的地两者之间关联的。通过分析两个地点之间的联结关系和联结强度(两者之间旅行的人数),可以构筑两个地点之间人口移动的联结关系,为人口流动监测、社会服务、优化火车线路(或者航线)等提供数据依据。

以上是大数据集下常用的数据可视化的方法,每一类方法都有很多种可视化的表达方式,根据个人喜好或者审美的不同,设计出来的可视化方法也会有所差异。这些是基本的大数据集的展示方法,比较容易理解。

全文摘自《企业数据化管理变革-数据治理与统筹方案》赵兴峰著

该文转载已取得作者认可

版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业数据化管理变革》赵兴峰著),非常感谢!

  • 阅读 2,376
/// HRoot(包含移动应用、网页版)是一款基于大数据和人工智能的内容推荐引擎,内容全部来自内容账号在HRoot内容平台自行发布或授权自动抓取,HRoot不生产内容。以上的本文内容仅代表本文作者或发布机构/发布人、内容账号所属机构或所属人自身观点,不代表HRoot观点或立场。本文内容账号的发布机构/人信息请点击本文标题下方的发布机构/人名称以了解详情。【复制原文出处链接】

本栏目更多精彩文章
暂无相关数据
投诉
更多服务
Follow HRoot:

站点地图|使用条款|隐私政策|安全承诺|法律顾问|著作权声明

Copyright © 2002 - 2020 HRoot, Inc. All Rights Reserved, TEL:021-58215197 FAX:021-58218663沪ICP备05059246号

沪公网安备 31011502009045号