Review of 决战大数据

大数据的关键思考

Posted by Enovace on October 18, 2021

前言 我在阿里的6年

第一阶段用数据,第二阶段养数据,第三阶段从看数据到用数据。

一个小小的数据报告,我们都必须要知道以下5个问题: ● 这是什么问题? ● 这是谁的问题? ● 这个问题现在必须马上解决吗? ● 这个问题我们能解决吗? ● 我们有足够的数据来解决吗?

首先,报告的前3页一定要吸引人,让人有欲望继续看下去;其次,当别人看到一个数据,心里在猜测数据背后的各种原因时,我的下一页报告就要解答他心中的疑问。

让管理层用到有用的、合适的以及具有带探索性的内容。

沉淀数据分析的框架。为什么数据分析框架如此重要?因为它是数据产品的养分。我用建立数据产品为目标的理念来运营一个数据团队,所以数据分析框架才是给到数据产品养分的关键点。

高管的数据仪表盘工具;

中层管理看的数据产品

的数据产品应该是可以激发用户灵感的。

“混、通、晒”——混在商业场景中,把数据与商业场景打通,将数据产品当成载体,把这个东西晒出来,让更多人使用。

数据泛化:把较低层次的概念层(例如:年龄的数值范围)用较高层次的概念(例如:青年、中年和 老年)替换来汇总数据。或者通过减少维度在设计较少维度的概念空间汇总数据(例如汇总学生组群时,删除生日和电话号码属性)

坚持数据泛化的方向

DaaS模型

“大数据”的意义就在连结,数据公共层就是跨业务群的精华,让所有人能把其他人的数据冗余利用起来,这时“大数据”才算做了起来。

使数据产生价值,如何让多种多样多变的数据原材料很快、很灵活地重组,并且使它相对稳定,这就是做数据基础建设天天要去想的问题。

用技术而不是人工的方法去做资产或材料管理。怎样评估是不是做的好呢?得看数据有没有、细不细、全不全、稳不稳、快不快。

用数据要“混、通、晒”,养数据要“存、管、用”

决策分析和业务分析两种分析师到底该怎么区分,怎么让大家一起合作一直是个难题。

只要大数据的情况越泛化,中央部门所需要承担的责任就越重,也越集中、越具体。

引言 忘掉大数据

企业的血液(数据)流动起来的关键。数据流动得宜,则神清气爽;相反,数据如果出现停滞或质量问题,企业则性命不保。

大数据从来不是免费的午餐

断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据运用的一大关键命门。

把建模这个过程说得更加复杂或者专业一点,就是基于很多以往的经验,进行总结,或者是对旧有数据使用规则的发现,将经验和数据相结合,最后输出一个可以被套用的业务规则。

为什么我们在大数据应用方面存在障碍?一个重要的原因在于,应用人员对于数据价值和数据分类没有明显的界定。

数据化思考 问题就是答案

西方式的思考着重于系统性分析,因此对一件事情的理解过程,大都是利用数据进行细分/归类、对比、溯源,以及从三者的动态趋势中去找出变化的规律。

现在你所在的公司,面对的3大问题是什么?公司未来3个月中,要解决的问题是什么?在过去的1个月中,你做对了什么,做错了什么? 我现在给你5分钟时间,如果你说不出来公司目前面临的3大问题,而你作为商业智能部的负责人,就基本上不该继续坐在这个位置上了。

02 大数据的本质就是还原用户的真实需求

大数据的本质就是还原用户的真实需求

识别,让似是而非的行为数据串联起来

首先,你能否清楚地识别(Identify)用户的身份?其次,你能否搞清楚所收集的数据对你的价值(Value)是什么?最后,收集数据时的场景(Situation)是什么?

企业有多大的能力去识别一个“碎片化了的个人”,将是一个巨大的考验和机会。

从企业价值来看,数据收集实现的是企业资源的合理分配;从客户价值来看,数据收集实现的是顾客体验的提升。

角色不一样,对于数据价值的看法也就不同,所以在衡量价值时要考虑到受众和给予者这两个对立面的不同看法。

可能的答案是,企业需要知道用户在登录网站之前的情况,而不是登录之后的情况,这就需要企业全面客观地去看自己的网站是不是有能力还原用户的需求了。

场景与还原并行——前端还原消费者场景,后端还原业务需求。

数据的本质就是还原,这是收集元数据的关键方法。

当我和数据分析师们聊天时,我总是会特别提醒,在研究移动数据的时候,要特别注意用户在每天移动的时间点和非移动的时间点里都做了什么。从起床到睡觉,有几个时间点基本是固定的,所以基本上就可以判断每个人一天的行为走势是什么。

RFM是一个收集维度,个人PC、手机、平板电脑是另一个终端场景维度,PC能更好地收集R,手机能更好地收集M,这样就可以通过场景的不断变换来收集更多的数据。

用户做一件事情的时候是不是正在移动?他是不是在某个百货商场里面?面对不同的场景,我们的框架也要相应改变。所以,现在做数据分析报告,最后的一个问题变成了:“无线变了,这个报告的结果还是一样吗?你的报告应不应该也变一下?”

我认为,数据的本质就是还原,这是收集元数据的关键方法。

所以,如何更好地识别各个设备的使用者是否为同一个人,如何更好地理解用户在各个不同场景下表现出来的不同需求,如何更好地理解数据融合后产生的价值,将是未来商业中每一个企业都必须考虑的问题。

数据化思考 CEO们关心哪3个数据

通常来说,在我问出问题时,作为数据分析师的你首先要想的是CEO会关注什么数据,是长期的,还是短期的?是风险最大的,还是风险一般的?或者是最近发生了什么事情?以及给CEO提供的数据要有什么注意事项,等等。

因为这个问题里面本身就有很多问题,比如,什么是踏实?踏实是一个概念,你不问清楚“踏实”的含义,就给我3个指标,无论如何都是错的。在正常情况下,首先不要急于回答我提出的问题,而是先问清楚什么是踏实,切勿自己先做假定。

因为,在没有解决一个问题的内涵之前,任意给出的一个指标,必错无疑。所以,我才会问应聘者到底听清楚问题没有。

作为一名数据分析师如果你不把自己的分析与当下结合,是没法进步的。

“活”做数据收集,抓住相关性

在我看来,“死”数据就是单纯存储在数据库中,无法被分析和使用,并且不能够产生价值的数据。

在数据的自循环中,有两个核心的关键点:一个是“活”做

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。

他说,做大数据收集不外乎两方面,一方面是“自己用”,即用其他外面的数据来增加自己手上数据的精准度,为我所用;另一方面是“给别人用”,即把我的数据贡献给外面很需要我的数据的

每个人都知道在收集消费者数据时最好是观察直接用户,但如果没有这个数据,你观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人。

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和企业的实际情况。

媒体常用的“克强指数”是“活”做数据收集非常好的案例,通过耗电量、铁路运货量和银行贷款发放量三大数据的结合来观察经济的发展,有助于剔除GDP统计数据中存在的水分。

把数据激活,从静态数据变成动态数据,必须要用场景来验证。

推荐系统的运作原理是通过推荐一件商品去影响你的购买决策。一般来说,你要为自己做一个很长远的购买决定时,会综合考虑一些因素,这时的购买决策会跟你本身的性格产生

把数据激活,从静态数据变成动态数据,必须要用场景来验证,静态数据是没有用的。

数据化思考 别再做“碰巧游戏”

从更深一层来看,和传统卖场一样,网站中商品丰富性的作用大不相同。有的产品为了赚钱,有的产品为了促销,有的则用来吸引流量,这也就解释了不同商品在网站上摆放的位置不同的现象。同理,只有具备了商业敏感度的数据分析师,才会懂得用什么数据来驱动公司实现经营目标,而绝不会单凭交易量就决定商品策略。

为了方便理解,我想出了两个名词:前端行为数据和后端商业数据。前者指的是访问量、浏览量、点击率及站内搜索等,是反映用户行为的数据;而后者更侧重于商业数据,比如交易量、投资回报率、客户终生价值(LTV,Lifetime Value)。

数据,决策的瞄准镜

这么多零散数据和维度叠加在一起,那么接下来的难题就是:如何保证数据能有效地被存储、刷新、识辨和链接,然后灵活地被使用?

数据化思考 样本的偏见

当我们分析一份数据的时候,一定要问自己:“样本的背后有什么是我们不知道的。”

在调研过程中,如果这个样本在你调研前就是有目的的,那么这份有偏见的数据也是有价值的,比如可以通过交叉信息来验证结果是否准确。

大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。

数据分类为什么如此重要

对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是我的核心数据,到底什么数据会被我们频繁地使用。

按照数据所处的存储层次来看,数据可以分为基础层、中间层和应用层。

在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。

基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情况而定。

对于数据的分类主体,则要根据业务特点进行归类,并没有一个特别的硬性规定。总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。

数据从安全的角度可以进行两种类型、四个层次的数据分层。两种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、某大型活动的成交额等;个人级别的数据就像是刚才提到的身份证号码、密码、用户名、手机号等。四个层次是对数据进行分类,分别有公开数据、内部数据、 保密数据、机密数据。

数据的5大价值

能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

有时候,同一组数据可能会在不同场合产生完全不一样的价值;有时候,单一的数据没有什么特别的价值,需要组合起来才能产生价值。

企业开始使用一定的账号体系对用户进行设限,在各种场合提醒用户使用手机号注册或者用手机号来换取更多的权益,本质上就是希望能够在多屏时代把用户“认”出来。

密码不能让企业完全认定两个用户是同一个人,但是,当企业怀疑这两个账号是同一个人的话——他们的密码往往很类似或一样,由此可以判定这两个账号肯定是同一个人,为了方便很少人会给自己不同的账号设置不同的密码。

通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数据,这也是数据从业者在日常生活中做的最为基础的工作。一家公司一年的营业收入、利润、净资产等数据都是描述性的数据。

描述数据不是越多越好,而是应该收集和业务紧密相关的数据。

类目的演进路线

需求方平台(DSP,Demand Site Platform)

数据的预测价值分成两种。第一种是对于某一个单品进行预测。比如在电子商务中,凡是能够产生数据,能够用于推荐的,就都会产生预测价值。

数据应用因小而美

如果收集数据的出发点不是为了解决问题,那么收集再多的数据也没有什么意义。

对于一款数据应用,如果我的目的是分辨两种决策谁更好以及差异在哪里,这就是一个很具体的问题;但如果我的目标是想知道如何让公司赢利,这就是一个空泛的目标。

在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)中,才能看出存在的问题。

“数据框架”是商业分析师的灵魂所在,可以让其从框架中找寻问题的关键因素及答案。不同的问题有不同的框架

想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从“小”做起。

4步走的方法:首先,确定有什么问题,从解决问题的角度出发去收集数据。其次,把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)。让决策者用框架更清楚地看到数据与决策之间的关系,比如A公司在框架内要知道竞争情况、新老客户的比例情况等因素以及多种因素之间的关系。再次,看框架与做决策的关系。比如,A公司与导航网站有3种选择——完全不合作、部分合作和全面合作。数据分析师就可以根据数据框架告知A公司该怎么决策。如果发现数据框架与决策不能匹配,就必须返回到第2步。最后,根据决策行动,然后检查行动是否达到目的。如果行动后发现根本没有达到目的,就要检讨整个链条,寻找问题出在哪里。是数据有问题吗?还是因为框架不对?或者是决策不对?是否还有数据没考虑进去?

把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者做决定的)。让决策者用框架更清楚地看到数据与决策之间的关系

“用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。

养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是公司拥有的,但没有进行收集的数据。

根据用户的偏好进行商品的推荐,让每个人都有完全不一样的购物体验。具体的运作原理是,当用户第一次使用这些应用时,界面中会弹出一些问题,通过互动的方式来收集用户的信息数据,比如会出几款衣服,让用户挑选哪一款是更喜欢的。这样,在几个问题之后,应用就知道用户的喜好了。这类应用通常还会有另外一个特点,就是会让用户点“赞”,这个点赞的功能,就是让用户明确地告诉应用自己喜欢什么,这样用户就可以在过程中,不断地告诉应用自己的偏好。这样一来,应用就可以 “养”出用户的核心数据。

数据化思考 远离“或”选择

如果想做一名数据分析师,你脑海里就要长期装着这样一个想法:“这个数据是怎么来的?”你要打破局限,不要把自己封闭在狭隘的思想中。在未来商业中,谁被逼到“或”式选择境地,往往谁吃亏。

数据盲点

大数据时代,在思考的过程中,有一个问题必须得到解决,那就是假定数据都是可以获得的情况下,什么样的数据才是关键?

在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。

所谓物理盲点,就是指在数据库中不存在这样的数据,即企业没有收集到应该收集的数据,这一类数据问题的产生通常是数据收集策略出了问题。

需要企业在商品详情页上用技术的手段作上标记,以记录用户在页面上是否有动作以及是否滚动屏幕去看更多的内容。在明确了用户具体看到了哪些内容后,企业就收集到了相应有效的数据,就能够很好地对商品页面进行后续的分析。

逻辑盲点就是有数据但是没有被很好地发掘出来。