零基础学习数据地图的制作与分析

有时在实际工作中会碰到这种情况,即数据与地名有关,这时虽然也能用Excel的图表来表现,但如果能将数据和地图结合起来,将会收到更加好的效果,应用地图来分析和展示与位置相关的数据,要比在Excel中单纯的数字更为明确和直观,让人一目了然。

数据地图就是解决此类问题的一种地理数据表达方式,国内外有关数据地图制作的网站主要包括:地图汇、数据地图网、TargetMap、GeoCommons,用户上传包含位置信息的Office Excel数据,通过简单的操作,即可制作专业级的各种地图图表。

先上一张最终的数据地图效果图,热力图部分是目标用户的分布,紫色和蓝色的购物车表示2种类型的商业购物场所,而深浅不一的蓝色格子块则代表房价。


图1 最终效果图

那么问题来了:这张图的制作需要哪些数据?你能从这张图上得到哪些信息?这张图能用到哪些地方?

如果你对上述3个问题摸不着头脑,那很正常,因为这涉及到具体的使用的场景/背景,也就是说,要用数据地图解决什么样的问题。

关于这张图的项目背景和制作过程,马海祥将在下文中和盘托出,而且你不需要懂编程、设计,也不需要懂艰深的统计学知识,用短短15分钟的时间,你将get到这个酷炫而且还有实际用途的“黑技能”,让你的同事和老板对你刮目相看!

一、数据地图概念及用途

我们在做运营、市场方面的数据分析时,常会涉及到地理坐标、区域和地名与数据关联的情形,如:

(1)、某个APP在全国各个城市的注册会员数分布情况。

(2)、某个O2O生鲜品牌的线下网点在某个城市中的分布情况。

已经拥有某个地区潜在消费者的地理分布数据及相关商业生态信息(购物中心、公交站点和公司分布等信息),需要合理选择地推场地。

像前面两个问题,以excel表格的形式来显示就可以了,然而对于第三个问题的处理,需要结合地图和数据两方面信息,这就要用到高阶的数据处理工具了——数据地图这时闪亮登场了!

现在关于数据地图的定义还不是很全面,马海祥认为,数据地图是一种将地理数据和地理信息有机结合的一种地理数据表达方式,数据地图应用地图来分析和展示与地理位置相关的数据,以图示化的展现形式来呈现信息,使得这种数据表达方式更直观和清晰,更容易发现规律,方便我们挖掘深层信息,更好的辅助决策。

要想正确的使用数据地图,弄懂“地图图层”这个概念十分重要,实际上,“地图图层”类似于Photoshop中的图层:对于我们现实中空间的表达,实际上是通过不同图层去表现的,然后将这些图层叠加在一起进行表达,如下图所示:


图2 数据地图的图层结构

其中,几乎每个地图需要用到的图层是“底图”,它类似于PS中的背景图层,是地图中最基本的地形、地貌数据及某些相关附属数据或信息(例如公路,河湖、山脉等),常见的有卫星图图层、三维立体图层及二维平面图等。

地图的应用目的不同,我们所要叠加的图层也不尽相同,除了最基本的底图,我们会有针对性的展示跟目标相一致的信息内容(如不同商业形态、人口统计学信息)。


图3 几种常见的数据地图类型

从图3中可以看出,这些数据地图的共同点在于:使用不同的图案标示代表不同类型的数据,不同颜色深浅程度(一般是由浅入深(由冷入暖)表示数量由小到大)代表不同的程度、数量、类型。

二、数据地图的一般制作步骤和制作工具

数据地图的制作一般分为4个过程,即上传数据、选择应用(不同的地图选项)、加入周边生态和生成地图,详情见图4。


图4 数据地图的制作流程

目前关于数据地图制作,常用的数据地图制作工具有:Excel 2010及以上版本(见图5)、GeoQ、地图汇、数据地图网、Target Map、Geo Commons。


图5 excel2013中的数据地图—三维地图

用户上传包含位置信息的Office Excel数据,通过简单的操作,即可制作出各种大师级水准的数据地图,然后应用到企业需求管理上(具体可查看马海祥博客《》的相关介绍)。

三、数据地图案例实操

最近参与了一个关于孕婴童方面的项目,需要整合面向0-3岁的各种产品和服务供应商资源和产品/服务资源,协调各方面的利益,一起服务于0-3岁这个母婴群体,项目具体细节不作详述。

目前本项目的合作商家都有线下实体,所以我们主要在线下进行宣传和推广,且在上海市杨浦区进行试点,以“精益创业”的理念作指导,力求以最小成本在短期内快速试错,攻克测试中的难题且进展顺利,将会向全市铺开,最后大面积扩展。

以上是项目的背景简介,作为一个即将启动的小规模试点项目,运营这边需要解决3个关键性的问题:

(1)、目标用户在该区域内的分布怎样?或是在哪里找到这些目标用户?

(2)、如何有针对性的去选择合作商家?或是面向的合作商家要符合哪些条件?

(3)、本项目的线下推广该如何布置?

下面的案例分析主要围绕这3个问题展开。

1、现有数据

手中有2份数据:2013-02~2016-03的上海杨浦区的新生儿出生数据(近2W条),数据量足够大,根据统计学的抽样原理,具有一定代表性,有很大的参考价值(具体可查看马海祥博客《》的相关介绍),见图6:


图6 用户原始数据(局部)

一些有意向参加本项目的候选合作商户的数据(64家),见图7:


图7 待确定合作商家地理信息(局部)

接下来,我将用这两份原始数据来做多维度的分析,用以解决上述3个问题。

2、挖掘用户基础信息

这个部分不是本文的重点,但为了保持整个分析过程的完整性,所以这里也顺带提一下,也算是前置的小“彩蛋”,有想知道具体怎样操做的小伙伴,可以查看马海祥博客《》的相关介绍。

拿到数据之后,很重要的一个工作就是从里面尽可能的榨干对项目有价值的数据,从中找到重要的线索。对于用户的数据,我主要从时间和地址这2个维度进行了深入分析,调用excel函数和透视表等工具,将表格做成了如下的形式:


图8 处理后得到的新生宝宝数据信息

在图8中,我在时间维度里做了深度分析,将其拆分为“日期”和“时间”,在日期里解析出孩子的出生时间段、现在多大了和星座这几个信息。

因为我们的项目面向的是0-3岁的婴幼儿,孩子现在多大这个维度可以使我们有效的筛选出目标用户,所以超出这个年龄区间的用户就不在我们的考虑范围以内,同时根据孩子年龄大小我们可以有针对性的推荐适合的产品和服务,比如奶粉适合推荐给一年左右的孩子,这时正是母乳喂养转奶粉喂养的时间节点,星座信息可以作为我们的短信营销和快递礼品寄送时的话术参考(如“亲爱的金牛座宝宝,*$#&^”)。

3、数据地图的制作

上面只是挖掘了时间维度的信息,下面就要放大招了,关于地理信息的挖掘,做出可视化的数据地图!

在做之前,结合这2份数据所能提供的信息,先将之前提到的3个抽象的问题做进一步的具体化:

(1)、用户的地理分布如何呈现?如何借助其他信息判断目标用户的价值?

(2)、合作商户的地理区位选在哪里比较合适?需要考虑的因素是什么?

(3)、能不能把目标用户地理分布、合作商家分布和其他辅助信息做在一张地图上,有助于更好的做决策?

那么,线下推广在哪个地点、哪个时间段展开,活动效果会更好?

①、用户的地理分布如何呈现?如何借助其他信息判断目标用户的价值?

本项目因为是一个母婴资源整合项目,打包后的产品和服务客单价较高,相对来说定位高端人群。同时,针对的是0-3岁的婴幼儿,所以我们的目标人群定位于高收入的85/90后年轻宝爸宝妈,育儿意识较强但无育儿经验,生活有品位,消费能力强。其中,关键的特征是“高收入”、“消费能力强”、“生活有品位”(见图9)。


图9 目标用户的基本特征

我们先将用户的数据整理下,只留下用户姓名或编号及详细地址,注意在只有区级和街道的地址前加上市级区划,如本项目在上海区开展,前面统一加上“上海市”,以免地图将坐标定位到同样名称的全国其他地区。

制作数据地图,我一般用到的工具是XXX,其中有很多功能都是免费的,大型商业类项目可能要收钱。

注册成为会员后,将整理过的数据载入进去,分别按图10中标红的部分操作,得到的初始状态显示如图11:


图10 加载数据时的选择项目


图11 数据地图初始展现

这个工具载入数据后初始显示的是散点图,看起来有点凌乱,貌似发现不了规律,得不到什么有价值信息,不过不要紧,通过地图展现形式的不同,该问题可以得到解决。

首先了解下该工具中的2个重要选项—“地图图层”和“数据展示类型”,地图图层,上文曾提到,可叠加显示,数据展示类型则是坐标的展现形式,本工具一共提供了7类数据展现形式(图12):

点符号:单个地理坐标显示为点,只能将所有坐标标记成统一的样式,不能做成不同的图案以示区分。

灯光图:跟点符号一样,只能统一标记坐标,不同的是,可以给点增加泛光,即光晕,顾名思义叫做灯光图。

等级符号:根据地表某一类数据的大小标记坐标,如A、B、C三处的销售额分别为750K、550K、400K,那么在等级上A>B>C,图示上坐标显示的图案大小从小到大依次为C、B、A。

聚合图:聚合图根据某一区域点的集中程度,自动算出这一区域聚集中心。

热度/热力图:这个比较常见,根据区域间点的密集程度,一般按由浅到深的颜色来表示数据的从大到小、集中到稀疏。

图表图:跟等级符号类似,根据地表某一类数据的大小程度来显示标示。


图12 数据地图的7中坐标展示形式

根据所拥有的数据状况和项目需求,我们主要用到聚合图和热力图两种坐标显示类型,接下来,我将分别用到聚合图(图13)、热力图(图14),以及这种个地图图层的叠加组合(图15)来展现目标用户的地理分布情况。


图13 目标用户坐标的聚合图展示


图14 目标用户坐标的热力图展示


图15 目标用户坐标的聚合图、热力图的联合展现

从以上的3个图可以看出,聚合图可以显示集中的小区域,但各个区域间的连续性被打破,看起来比较孤立;热力图显示的区域较泛,各区域间的用户疏密一目了然,有连续性,但没能集中显示重要的地点;而在图15中,两种图层的有机结合恰好把这两种图示方式的优点整合起来,最大限度的呈现我们所需要的信息。

值得注意的是,可以随时滑动鼠标,对地图的比例进行缩放,原则是覆盖整个目标区域(这里是杨浦区)、包含邻近地区(这个下面会提到),以及尽可能的显示该区域的重点坐标(如交通枢纽、商业中心及重要社区)。

在图15中,我们可以看到,目标用户较集中的板块有五角场商圈、黄兴商圈、鞍山商圈和中原商圈(图16),这几个区域也是杨浦区重要的市级、区域级和社区级商圈。


图16 目标用户分布较为集中的几个商圈

然后,我们根据搜集来的信息确定了各个区域重要的楼盘信息,也就在用户所在住宅板块的信息(图17),这些住宅区将是我们线下进行宣传的主要地点。


图17 杨浦区各商圈覆盖区域及典型住宅区(局部)

②、合作商户的地理区位选在哪里比较合适?需要考虑的因素是什么?

关于目标合作商户的选择,我们关注以下几点:

A、临近目标消费人群

和上面同样的方法,载入合作商户的地理数据,以“类型符号”的形式呈现商户坐标信息,同时将不同类型的商户标记为不同颜色的点,因为商户地标的显示颜色和地图底色、热力图颜色等存在叠加,为避免信息展现时过于杂乱,去掉聚合层,将地图的颜色显示成灰色,如图18:


图18 目标用户分布和商户地理坐标展示

在图18中,我们选择在杨浦区内,离目标用户不远,甚至部分商户在虹口区,由此确定第一轮合作商户的大致地理范围,大概有三分之二的商户得以保留。

当然第一轮的筛选还不够细致,我们还需要进行下一轮的筛选。

B、附近的周边商业生态良好,目标人群经常光顾的区域

这里需要用到该工具中强大的“开放数据”数据库,里面包含兴趣点数据(购物、餐饮、酒店、公共设施、休闲娱乐等)、品牌数据(各类消费品和服务的品牌实体店分布)和人口经济公交数据(人口、住宅和交通等)。

因为本项目涉及到0-3岁的母婴消费人群,我们要找到这些目标用户会经常光顾的商业场所,主要是购物中心(如东方商厦、万达广场和百联又一城等)和母婴用品实体店(奶粉店、泳儿游泳馆和婴儿服装店等),因母婴用品点和购物中心都属于购物型场所,所以它们分别用紫色和蓝绿色的购物车显示,由此得到图19:


图19 目标用户分布和商户地理坐标及周边商业生态(购物中心和母婴店)展示

基于便民的考虑(地理位置近),地图比例尺测算,选取半径为5KM的限定待选合作商户的地理位置,图19中的红圈即为周边商业生态较好的区域。

经过第二轮筛选,我们最终确定下来15个合作商家。

③、线下推广在哪个地点、哪个时间段展开,活动效果会更好?

分别明确好目标用户和合作商户的地理分布后,接下来我们还需要用数据地图做2件事—首次地推的场所的确定和地推的时间的安排,这里可以用到大家熟悉而又陌生的一个工具—微信中的“城市热力图”。

A、确定目标地推区域

现在大家都提倡精益创业,最短时间内最小成本快速试错,所以我们必须先找到一到几个切入点,而不是全面铺开,因而我们需要这些目标用户聚集区域中找到价值最高,也就是消费能力较强的用户聚集地,在附近进行推广和宣传,力求打响第一枪。

常识告诉我们,消费能力强的用户,其所在区域的房价一般较高,因此,我们决定在房价较高的区域进行初次推广,见图20。


图20 目标用户分布&商户地理坐标&周边商业生态(购物中心和母婴店)&各区块房价展示

在图20中,五角场附近的平均房价为58,570元,黄兴公园附近的平均房价为60,446元,为目标区域中房价最高的两个区域,根据上面的推断,这两处居住的用户消费能力相较其他目标区域更强,此处地面推广的话,地铁站的效果较为良好(人群集散点),因而地推场所选在五角场地铁站和黄兴公园地铁站。

B、确定目标地推区域时间

确定目标地推区域的时间,需要用到微信中附带的“城市热力图”功能,依次确定此处一周中哪一天和一天内哪个(些)时段的人流较多,该工具打开路径为:钱包→城市服务→城市热力图。

在搜索框依次输入“五角场地铁站”和“黄兴公园地铁站”,得到图21、图22:


图21 五角场地铁站及其周边人流时间分别情况


图22 黄兴公园地铁站及其周边人流时间分别情况

图21中,五角场一周的人流量分布都比较均匀,因为这边有许多公司和商业场所(主要是购物中心):周一到周五,人流量来自去公司上班的白领人群;周末,人流量来自去商业场所消费的家庭人群,所以五角场这里的地推可以在周一到周日展开;因我写作此文的时间是周日,所以“今天”代表的是周日,可以看出,中午12:00到下午18:00间的人流量较大,虚拟的曲线,即当前到24:00之间也有一个小高峰,这是根据历史数据推测出来的预测值,地推在白天的效果一般较好,所以选择12:00~18:00之间开展。

与上述推理类似,根据图22可知,黄兴公园地铁站的地推可选在周天,时间段可以选在15:00~18:00之间,与五角场不同的是,黄兴公园这边明显是“节假日经济”—公司较少,娱乐场所较多(黄兴公园、黄兴体育运动公园等),周末人流量明显比工作日多。

值得注意的是,时间段的选取,会受到天气、节假日的影响,最好在一到两周内密切关注每日/每个时间段的人流数据情况,作好记录,按规律找到其中比较稳定的一天或某个时间段。


图23 由数据地图分析得来的结论

经过上面的操作和分析,得到图23,这是经数据地图分析得出的最终结论。

马海祥博客点评:

从上面的实际案例可以看出,数据地图结合了数据信息和地理信息这两个信息维度,在考虑数量的同时,也兼顾了区位分析,从中能得到比表格更直观的可视化结果,当然这种综合分析需要我们有丰富的商业敏锐度和区位学知识,以便在运营分析中做出更准确的判断。