就像在工业革命时代,人们都需要用到电;在计算机时代,人们又都需要电脑;那么到了大数据时代,我们人人都需要自由地与合法地获取数据。它带来的是竞争形态的改变,同时也是竞争思维的变革--我们既要保证自己及时获取数据,也要尊重并支持别人的相关权利,互相满足对数据的需求。
比如在2009年,美国政府就创建了Data.gov网站,为大数据的普及和数据的公开敞开了大门,公众能够通过这个网站获得各种各样的政府数据。中国要赶上大数据的变革,首先要开始一场深层次的“数据公开”行动,从政府开始公开数据,其次是企业,最后到我们每一个人。
数据控制原则一:确保数据有最大的可获取性。数据控制原则二:确保数据有最大的可理解性。我们都知道数据中蕴藏着金矿,但从基因组学、天文学、生态学、临床医学到高能物理等,正如上面我讲到的,这里的核心问题是,当数据像洪水一般涌来,我们如何进行数据的收集、管理,确保它的可理解性和可获得性?
大数据的复杂就在于它交付和使用的速度,比如一定要实时,如果滞后一两个小时甚至一两天,它可能就失去了获取的意义。实时流动才具有最大的价值。所以,数据的流动性是大数据实现其个性化应用的最大基础,换言之,数据本身没有价值,有了足够好的流动性,它才具有了价值。
例如,在美军驻阿富汗的某座基地的电脑中,存储着与一伙恐怖分子有关的信息,包括他们照片、武器装备和后勤等几乎所有的细节,这时一架无人机在山区发现了一群不明身份的人,需要确认是否就是打击目标。那么,基地就需要通过数据链实时将这些人的原始数据发送到无人机,供它在空中进行对比,如果不能实时获取,一个小时后,这伙恐怖分子可能就跑远了,或者无人机已经没有燃料了,只好返航。最坏的结果也可能是无人机向下面的人发射了导弹,几天后才发现误炸了平民。这就是流动性与可获取性的典型案例。
事实就是,我们周围的这些数据,在自己不能够用起来,即数据没有流动性的时候,是不具备什么实用价值的,只有排除掉流动障碍,可以进行个性化的按需获取,它才真正具备了大数据时代的特征。
当然,我深信数据的自由与合法流动一定会到来,这将是一个无法逆转的趋势,也不会由人为干涉来决定。在这个推动的过程中,会有源源不断的人站出来,把自己的技术处理能力和处理方式提供给更多的人,而且是以相对合理和低廉的方式提供,然后共同推动数据的流动,完成个性化应用。
避开死角--错误的前提会导致错误的结论
为什么我会说错误的前提导致错误的结论?数据分析依据是否必须由人的某些动机来决定?那些每天都与数据为伴的人或许可以用一句话来概括它的原因,但刚开始认识与接触大数据的人可能感到困惑:既然数据的相关性已足够体现某种“事实”,为什么还要为数据的分析设置前提呢?
答案可能是很多人不想接受的,因为他们会发现自己已经得出了太多错误结论。有时候,是由于拿来分析的数据质量不佳或数量过少;不过多数情况下,恰恰是因为我们误用了数据的分析结果。我们自己的错误让数据分析出现了错误。当人自身出现问题时,大数据要么会让这些问题继续存在,要么就会加剧这些问题导致的不良后果,使结果向错误的方向越走越远。
大数据技术生产出来的“数据”,不一定就等同于好的数据。你一定要先明白这一点并对此做出清醒的判断,否则就将陷入盲信和迷信的泥潭。现在已有越来越多的专家坚信我的分析,那就是大数据并不会自动产生好的分析结果,而是依赖于你给它提前设置的条件,比如某种分析逻辑或者数据的侧重点。
在具体的运用中,假如数据不完整、断章取义或者被破坏,可能会导致我们产生错误的决策。甚至从某种程度而言,这种灾难性的结果是一定会发生的,从而削弱数据的价值,影响企业的竞争力或者我们个人的日常生活。
格林先生是美国哈佛大学的教授,同时也是定量分析领域的专家,他就曾经因为在进行数据分析的工作时做出了错误的理解,导致结果谬之千里。他在过去几年发起了一个与大数据有关的分析项目,工作内容是通过检测推特和其他的社交媒体帖子中的“工作”“失业”和“分类”等关键词,来预测美国的失业率。
他的工作小组通过情感分析技术,收集了包含这些关键字的海量内容,根据这些帖子的增加或减少来判断它们与每月失业率之间的相关性。在收集和分析过程中,小组成员发现包含关键字“工作”的内容急剧增加,也就是说在某一个月有更多的人在讨论工作话题。但随后,他们发现这与失业率并无关系,真实的情况是乔布斯去世了--乔布斯的名字Jobs也含有“工作”的意思。
格林因此说,人们应从这个例子中吸取教训,不要完全相信大数据可以在没有任何条件的情况下告知你一件事情的结论,并神奇地帮助你做出决策。所有的分析都必须设置一个靠谱的或精确的前提,否则就可能把你的结论引向与事实毫不相干的地方。
也就是说,在缺乏必要因果关系支持时,数据之间的相关性可能会给你带来灾难性的失败。解决这一麻烦的方法有很多,比如我们可以通过添加额外的关键字来增加分析前提,但往往也需要大量的人力工作。
在设定某些固定关键词时,起初我们会从数据的分析中看到一些相关或者无关的东西,相关的多一些,无关的仿佛真的很少。但随着时间的增加,如果你不更改查询,不修正前提和数据背景,你会发现含有这些关键词的话题正以某种方式逐渐偏离主题。某些时段,它们偏离较小,但有时候却非常大,让你几乎找不到它们之间有什么关联。
不过格林也承认:“总体而言,很多大数据分析都产生了有用的内容。重要的是,我们只要为分析工作设置必要的启动程序,引导它在一条正确的轨道上,它会给你计划中的结果,完成传统方法做不到的任务。”
数据本身并不等于智慧,只有经过正确分析之后,数据才能凸显它的意义。如果人们觉得大量数据能够奇迹般地产生良好的分析结果,而不需要人工任何干预,那么它消极方面的问题可能就会走上前台,阻碍我们做出积极的判断。
乔布斯的名字是一个经典的案例,在他去世时(该信息的背景和前提发生了变化),同一个关键词对于数据分析的结果就造成了极大的干扰,把终点引向了与出发点风马牛不相及的地方。
《华尔街日报》的一篇报道也认为,今天有越来越多没有内容的数据在推动人们的决策过程。但真相是,并非数据无用,而是人们利用数据的动机发生了微妙的变化,就像在炒菜时放错了调料一样,尽管只是一丁点的错误,菜的味道就完全改变了。
对没有设置正确前提的“相关性”不利一面的分析始终是大数据研究的热点,比利时大数据专家费兰克在他的一篇文章中指出,在某些情况下,银行会因为用户在社交网站上的联系人的情况而拒绝给用户贷款。虽然这个人的信用良好,但他有一些喜欢赖账的朋友,因而影响到了银行对他的判断。“相关性”在这里就伤害了一位原本有资格获得银行贷款的公民。
这表明,当我们不经任何前提而直接从数据的相关性得出结论时,必须进一步分析,否则就可能带来麻烦。比如美国20世纪的一些刑事数据显示,驾驶入门级豪华车且年龄在20和27岁之间的西班牙裔和黑人男性最有可能是毒贩。但在警察实际办案的过程中,却发现许多合乎该数据条件的非裔美国人并不是犯罪分子,而是良好公民。他们中的许多人被警方列入了重点监视对象,可最后虚惊一场。
简言之,大数据是一个分析工具,但不应该被我们视为不论何种情况都始终正确的解决方案。它可以帮助你缩小范围,从数百万可能缩小到150左右。但是,即便岁月再过200年,我们也不可能去将“判断一切”的机会交给电脑。我们不能只是依靠数据进行分析,不能忽略人类的智能在分析过程中起到的独特判断力。
如果你这么做了,一定会给你带来难以摆脱的烦恼。到时候,大数据在你的生活中就变成了一个致命的大麻烦。我的一些朋友已经体会到了这一点,而我希望人们不再犯下此类错误。
解决问题--定位人的角色
现在,通过全书“不厌其烦”或“有所选择”地展示数据在今天多个领域的应用,我们已经非常清晰地理解到了大数据时代的内涵,它是一个具备海量数据被共享或被搜集、追求相关性、不再迷信采样调查而是追求整体分析的时代。
--它的基础是人类经过几百年发展的卓越科技基础与铺天盖地的网络平台。
--它让我们几乎没有秘密可言,这是科技赋予它的权利,也是科技塑造人或人塑造科技的选择路口。
--它让电脑越来越“聪明”,甚至可以筛选更加适合自己的模式或信息,自动地帮助自己改善它的运行模块,虽然它还不能统治人类。
--它用海量数据弥补了个例精确性的不足,然后导向更加精确的结果。
--它产生了相关性和因果性的辩证关系,数据加工者根据这两种关系的不同选择,在预测人们的行为、疾病的发生和灾难的到来时也会产生不同的结果。
--它不可避免地导致了商业模式、政治格局的变革。
--它赋予了使用者庞大的权限,但是这种无孔不入的权限让人感到恐惧,甚至会引发更严重的对于人类现有文明秩序的威胁。
--它改变了法学思想,在司法领域产生了一个关于无罪推定与有罪预测的深刻问题,比如美剧《疑犯追踪》所展现的。
在大数据时代,我们每天都在暴露出巨量的个人信息,它的巨大价值在于二次利用,而这是我们目前暂无法监管与救赎的层面。如何保护必要的个人隐私并成功地阻止大数据巨头的收集,是每个人都在讨论的紧迫话题。我们从本书的收获或许当然并不限于上述种种,而在于对中国人世界观的拓展,也是对数据和人的关系的思考。在大数据时代,普通的中国人应该如何定位自己的角色?大数据就像一只刚刚长大、尚未关进笼子的富有力量的凶猛野兽,它既能看家护院,又能伤害主人,那么我们应该如何掌控它?
这全在于我们对于自己角色的选择。在大数据时代,我们每个人都有机会成为四种角色,但并不是每个人都有能力作出符合自身最佳利益的选择。
●不知情者
他们生活在懵懂当中,对于大数据所引发的一系列变化都毫不知情。他们无知,但又单纯、天真,成为数据收集的第一目标。但与此同时,他们也是超脱的,在不知情的状态中成为一名“幸福的被害者”。
●知情者
他们了解这个世界正在发生什么,就像他们喜欢一些与大数据有关的话题和书籍。在个人生活中,他们也知道自己成了数据收集方的目标,而且也正在成为这样的数据提供者。因此,他们的内心十分不安,可是又无能为力。
●参与者
大数据产业的参与者或研究者,他们懂得如何才能保护自己,也知道怎样才可以避免被收集到个人隐私。不过,在这类人的眼中,世界总是黑暗的,他们对未来感到悲观,对技术的进步充满警惕。
●掌控者
这类人是金字塔的顶端,他们掌握了庞大的数据资源,是大数据时代的精英,既能保护自己,又能成为一名高明的数据收集者,从中获取利益。这些人至少不会是大数据时代的受害者,同时他们又决定了这个时代的发展方向。是魔鬼还是天使,必须由他们自己做出选择。
虽然后三种角色的人可能不会感到快乐,但我们都要力争成为这样的人,而不是稀里糊涂的“不知情者”--他们注定会被这个时代抛弃,被变革的大潮冲击到一个最不起眼的角落。大数据不会等你成熟起来,而是会毫不留情地把你推到一边,然后扬长而去。
对我们来说,大数据是一个新的金矿,是一次新的机遇,尽管它也意味着风险,但它更多的是巨大收益。
如何正确看待它而不走极端呢?对它即将在我们的生活中产生的影响,我们既不要夸大,也不要低估。
如果它在现阶段对你是有害的,那么,小心地远离它;如果是有利的,那么,请谨慎地拥抱它,成为大数据的主人,并且成功地主导它在我们生活中的影响,让它成为你人生新的起点!