自由数据:别让大数据蒙住了你的洞察力

时间:2018-05-31 17:54:56 来源:自由数据

 自由数据API接口


随便刷刷朋友圈和各种各样的社交知识平台,每天都会出现一大堆各种行业的分析报告,即有大数据又有洞察。大家在欢呼着拥抱大数据带来的洞察的同时,也不断让这两个词前所未有的廉价。

 

很多人并没意识到,洞察从来都不是来自于数据,而是来自于对现实现象的观察和假设。在这个世界上,数据无处不在,从来都不缺,缺少的是获得数据的手段。

 

互联网的出现和迅速发展,让大量获取数据成为了可能,但是在现阶段也仅仅是开始和探索,没有人计算得清楚全世界到底有多少数据,而我们目前能记录的有多少,即便是互联网任何一家巨头企业,所能记录的也只是其中的亿分之一。所以,面对如雨后春笋般出现的大数据解决方案,千万不能把自身业务的成败只维系于它们,否者你以后所面对的更大可能只有失败。

 

克里斯滕森再《创新者的解答》一书中,将研究的阶段分为三个阶段:首先描述我们想要了解的现象,然后对现象进行分类,最后再进行探究因果关系。而数据只是在第三阶段才发挥作用(并且只能揭示相关性而不是因果关系),前两个阶段才是体现洞察力的部分。也就是说先有洞察(我们通常所说的假设),再用数据来进行佐证。

 

现实情况中,大部分甲方乙方的专业团队在没有想法的前提下,往往指望通过各种网上爬取的社交数据、行为数据、搜索数据等各种不明觉厉的统计办法(交叉性、相关性分析等等),这样就会有很多种充满洞察的结果出现。这是很荒谬的一种行为,一个纯粹的统计学家从来都不一定会是一个杰出的社会学研究者。

 

所以,尽管有了大数据的支持,但是要想发现什么并不是大数据本身就可以解决的问题。作为甲方,如果真的想让大数据为自己的企业和品牌发展助力,那么在选择乙方的时候,必须先解决一下几个问题:

 

1.    乙方对所要面对的问题是如何定义的?有哪些假设?

 

缺少了假设,数据并没有什么意义,不同的介绍,同样的数据可能会找到不同的意义。克里斯滕森曾经举例过两种数据:一组是1,2,3,4,5,6;另一组是75,28,41,25,38,64。第一组看似规律,往往会被认为是7和8,但如果告诉你这是一组彩票中奖号码,你还会这么认为么?第二组看似毫无规律,但是如果告诉你这是从纽约某地到华盛顿某地途中所途径的公路号码,那么你一定会准确得预测后面两位数字。

 

所以,甲方们请记住,在第一阶段的工作才是考察乙方洞察力的时候。专业的一方,会根据甲方的需求重新深入考虑,寻找解决问题最有效的切入点,详细阐述数据研究的目的和局限性,并且明确数据的获取渠道。而往往大多数的乙方会直接说:“我们的数据很有价值,能发现很多。”似乎数据就是全能的。

 

2.    乙方提供的数据有多大程度是可信的?

 

大数据从诞生到现在,从来就不是公开的,并且由于其价值性,获得的成本也越来越高。优秀的数据的前提是全数据。尽管每个数据研究者都知道全数据是海量的,但是并没有人能真正估算其量级,也无法真正打通。

 

当乙方拍着胸脯说能爬到传统研究无法企及的海量数据时,请不要轻易的被打动。没有人知道这些数据占整体数据的比列,以及怎样检验所得数据的有效性和真实性。

 

3.    所得数据有多少才是真正的“消费者原生性数据”?

 

所谓道高一尺魔高一丈,既然数据有价值,就一定会有人造数据和庞大的水军的存在。水军的发展可能比爬取数据的技术发展更快。现在的水军的工作很大程度上已经由AI负责,数据的清洗也越来越难。更可怕的是,虚拟社交机器人已经能自动生成并发布内容,Twitter曾经承认这一数字高达20%,估计在2018年这一数字将超过50%。

 

洞察是我们在研究探索趋势的过程,而数据仅仅是验证洞察,或者发现当下的流行。万万不能过于把流行当成趋势,把当下数据形成的走势作为未来的指引。如果数据本身就可以准确的预测未来,那么最先使用的一定是股票投资者,那也就永赚不赔了。

 

自由数据 www.freedt.cn 整理发布,关注自由数据,获取优质数据服务。