16.关联思维
目前,大数据成为各行各业人士口中出现频率最高的热词之一。有人认为,大数据的到来,加上云计算的成熟,让人们从高频率、巨量信息、不同结构和不同类型的数据中获得有价值的信息。
这些有价值的信息里,还透露出一个信息,就是大数据的关联性。举个最简单的例子,你的好友购买了一件连衣裙,把链接发给你,你就会看到这款连衣裙的网页中有其他同类产品。再比如,你在网站上搜寻一款东西,网站会立即给你推荐,其他人所选的是哪一款。
从数据中寻找出一定的相关关系,通过这种关系,大数据会做出预测,从而告诉大众结果。这就是大数据方法论的核心思想。
麻省理工学院气象学家洛伦兹曾向人们介绍过一种现象—“蝴蝶效应”。大致讲的是:一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,两周后,美国得克萨斯州掀起了一场龙卷风。从表面上看来,似乎这之间毫无关系,但结果告诉我们,即使是微小的事情也极有可能与千里之外的一件事情发生关联,并带来改变。
而在大数据时代,任何事情都可能会发生。这些事情从表面看风马牛不相及,但其内在往往具有一定的关联性,并与我们的生活息息相关。在以往,大多的寻人启事都石沉大海,但在互联网时代,寻人帖子一经在大型网站上发出,会很快引起四面八方的注意,每个人都会提供自己知道的线索。将这些线索分析,整合,就能够得到这个人最后出现在什么地方、某人曾经在哪里遇到过,以及这个人为什么走失等;另外,你也很难想到,互联网上的微博评论会与某家公司的股票价格有着一定的关联性。在脸谱网首次公开募股当天,在推特上的情感逐渐转向负面的时候,脸谱网的股价也于开盘25分钟后下跌。当推特上的情感转向正面的时候,脸谱网股价在8分钟后又迅速反弹。当股市接近收盘、推特上的情感转向负面的时候,脸谱网的股价又开始下跌。这两者之间究竟因为什么联系在一起,并互相影响着?这,似乎并没有太多人探究,不过,忽略这种相关性,不得不说是一种损失。
对于关联性的一些例子,我们能举出很多。它让我们不得不相信,大数据之间的关联性,已经不能够被人们所阻挡。比如,前面提到的那个家喻户晓的啤酒与尿布的案例。如果单独一个产品,或许没有任何惊喜,但两个产品一旦联系起来,那发生的化学反应就值得人们注意了。这就好像,过生日一定要有蛋糕,有蛋糕的话就一定要有浪漫的氛围和温馨的东西。那么,很自然的,当人们都选择与爱人一起过生日时,鲜花、戒指、饰品等产品就有了销路。而当人们都选择与亲人一起过生日时,鲜花、服饰、贴心小礼物、给父亲的剃须刀、给母亲的丝巾等商品就会热卖。
这一切的一切,都是关联思维在起作用。似乎,这些东西不被关联在一起,单一的东西过于另类和枯燥了。
除了一些生活中的小细节,还有更为精准的数据预测。一家公司正在从社会化媒体上抓取各种数据,通过寻找影响票房成绩的相关因素预测票房。该公司针对电影选取30个参数,对演员选取50个参数,内容包括:在什么地方成长,在什么地方学习,成绩如何,什么时候毕业,曾扮演过的角色,曾参演电影的收视率和票房怎么样,以及各种绯闻,等等。就是根据这些数据和参数,2012年下半年,电影《1942》上映前夕,在外界对这部电影一片赞誉和看好,纷纷预测票房将突破7亿元时,这家公司预测出电影《1942》的票房是3.8亿元,会亏本。在当时,制片方认为这家公司是在“黑”他们。但事实告诉人们:这不是在“黑”,而是在陈述事实。最后,《1942》的票房真的只有3.6亿元。
在整件事情的过程中,人们只知道那家公司运用了奇怪的预算方式以及各种数据,却忽略了,一切事物都是有关联性的。比如,观众对题材的喜爱程度,对演员的喜爱程度,对演员演技的评价,对导演的信任度,对宣传的买账与否,以及有多少人愿意花几十元钱去电影院观看。还包括在同一时期,有没有与其竞争的影片,有没有比其更新颖的剧情以及热点,等等。
这些,都至关重要。而大多数人只知道“是什么”,不知道“为什么”。进入大数据时代,海量的数据汹涌而来,互联网信息的更新速度之快和环境变迁的速度之快,远快于人们思考和验证的速度。与此同时,关联性也越来越突出。当然了,相关关系不能准确地告诉我们什么事情会发生,但它会提醒我们,有些事情正在发生。在许多情况下,这种提醒已经足够强大。如果我们知道什么时候是买机票的最佳时机,就不用费劲去查询价格的波动规律。如果我们知道什么地方要下雨或是晴天,就会提前决定带伞及准备好出行衣物。
这些,都是关联性的作用带来的。
17.双刃思维
2013年,前不久,为了推广手机“生活圈”功能,淘宝网公布了一组“奇葩”数据:国内最爱吃鸭脖子的生活圈是杭州市的日晖新村,这里的用户全年用于买鸭脖子的费用有6万多元;最“重口味”的生活是镇江市的花山湾生活圈,这里的用户一年买了5000多个榴莲;在一年内,暨南大学的“生活圈”购买了一万多箱方便面,支付金额近150万元;温州龙湾区×路附近,全年花费在情趣内衣方面的费用大约是人均2.5万元;2013年,浙江义乌×二区全年花费在文胸的费用超过290万元,是全中国在这一年消费量最大的生活圈;宁波海曙区×家园中的用户,每个人均在淘宝网的年消费金额在2.8万元以上,是目前2013年国内在淘宝上消费“最土豪”的小区;另外,2013年,杭州×新村全年用于购买金条的金额在960万以上,是中国金条消费量最大的生活圈。
……
为什么说这是一组“奇葩”数据呢?是因为手机淘宝可以借助于地理位置和收货地址等数据,鉴定某地区生活圈的消费特征。而这,正是大数据的“努力结果”。在以往被看作“核心秘密”的数据,如今却为了迎合消费群体的“八卦”心理开放功能。但与此同时,这个结果是真实的吗?有不少人对其质疑,甚至觉得所披露的数据还不够劲爆。下面的这些数据或许会让人在八卦的同时,感到一丝担忧。的确,如果你生活在被调查研究的小区,本小区的生活圈被爆爱吃鸭脖子或爱买金条,而你却恰恰不爱吃鸭脖子或买金条,那你是不是觉得很不自在?再或者说,如果碰到相熟的人调侃:你们小区怎么买了那么多情趣内衣,是不是你也作贡献了?那被问的人,该如何回答?
可以说,即便淘宝网的做法没有违反什么规定,也会让人觉得被侵犯隐私权了。针对一个群体的生活信息披露,就相当于把这个群体中的所有人都放在众人的面前,成为供众人观赏和分析,甚至是调侃的对象。在这个过程中,没有人会管你是不是果真如其披露的那样,也没有人在乎你是不是愿意。