正视现实--无所不在的眼睛
如果你某一天醒来,突然发现自己的世界是透明的,不要感到惊讶,因为这是大数据发展的必然。“棱镜门”事件的曝光已经开始让人们意识到:数据没有做不到,只有你想不到。随着大数据技术的渗透,不但相关产业得以蓬勃发展,而且某些机构甚至个人也拥有了无所不在的眼睛。他们通过这双眼睛,既能够透过表面信息看见深度信息,也可以透过过去和现代的信息发现未来,然后控制这个世界。
这就是现实。要掌握大数据,你就必须先面对这个现实。大数据既是企业的“杀手锏”,是个人的“月光宝盒”,同时也是一把“双刃剑”。从定义上看,大数据是“在各种各样的数据中,快速获取信息的能力”,它最强调的其实并不是“大”,而是数据的多样性、处理的速度和获取价值的广度。这也意味着,我们获取这样的价值,就会付出相应的风险。
美国的奥巴马政府早在两年前就将大数据战略上升为美国的最高国策,认为大数据是“未来的新石油”。那么与之相伴的,就是美国政府将对数据的占有和控制作为陆权、海权、空权之外的另一种国家核心能力。结果就是:“棱镜门”计划成为美国的大数据战略的一部分。所以才会有军事专家戏言:“损失了一个斯诺登,相当于全球最强大的美军损失了足有10个装甲师的兵力。”因为斯诺登手中掌握的数据要是被其他国家所利用,就会对美国的安全构成极其严重的威胁。数据已不仅是价值生产品,还成为了一门可摧毁一国经济、金融、信誉,甚至国民凝聚力的超级武器。
反过来,这也意味着数据对个体的极端重要性。在第三只眼的注视下,个人的隐私已无处遁形,各种各样的风险在连续发生。看起来,好像不是我们控制了数据,而是数据控制了我们。所以作为政府、企业以及个人,都要进行清楚的定位,明白自己在多大程度上可以或者采用什么样的方式来使用获得的数据,以避免透明社会产生的副作用。
☆威力无所不在--悬在我们头顶的全息镜头
普通人对大数据的认识是一种完全陌生的状态,似乎相距甚远,但它的威力已全方位展现,并已经渗透进人们的生活。即便在睡梦中,也在被进行数据收集。比如,家中电量的使用情况,被电表随时记录并在电力系统内实时追踪;信用卡系统在记录你的消费信息;能源公司在查看你的燃气使用情况;交通系统在整理你的违章记录。还有什么是被遗漏的吗?除非你脱离现代社会,到深山老林找一处洞穴隐居,也不使用银行卡和电话,否则你就会被数据收集方定位并且归类分析。
☆警惕个人数据被无休止滥用
人们走到哪儿都会被收集“脚印”,这些个人数据被拿去分析,据此,政府或商家提供优质的个性化服务。这当然是大数据应用程序的魅力所在。虽然许多公司强调收集、储存、分析数据都是“匿名”的,不会泄露这些数据,也不会进行滥用,但事实可能并非如此。
普林斯顿大学的电脑专家迈克先生在一次论坛上表达了他的担心:“可供分析的数据越多,就越不可能保持匿名,要识别一个人其实只需要几十个字节的信息量。”这意味着,个人数据被随意泄露或向更多的非必要知情方提供权限,已是一个不公开的事实。
这当然需要警惕,我们如今面临的一个极为迫切的问题就是:“我是否真的愿意接受一个由数据系统控制的世界,哪怕它正在一天24小时不停地监控我?”数据化生活为我们打理好一切,方便人们的生活和工作,甚至有助于光棍提高相亲成功率。这是惊喜,但它的背后则是“数据暴政”。它观察并记录了我们的每一秒钟,每一个想法,每一次行为,却丝毫不在我们的可控范围之内,这是无法忽略的现实危险。
再好的事物都像双刃剑一样,既有好的功能,亦有坏的副作用。“棱镜门”事件提供的教训已足够让人畏惧,因此,在数据的世界中,人人都是不安全的。
一旦这些数据被“有企图”的人使用,就会立刻变成一把杀人不见血的匕首,随时可能毁灭我们的幸福生活。
规避风险--让数据控制一切
在这样一场全民参与的“数据革命”中,各行各业都在发生深刻的改变,包括我们的思维方式。但与此同时,也引发了人们对于“数据暴政”的担忧。这同样是一个值得警惕的问题,尤其对于我们个人来说,怎样避免它的风险,并成为这个新世界的主人?
数据不管有多少,海量或是无限量,它仍然有一个极限点,无法到达也不可能统计出来。假如你将命运完全交给数据,它在量化你的同时,也会成为你命运的暴君。完全根据数据办事带来的负面效应,正是今天许多大数据学者所忧虑的,因为数据缺乏最珍贵的人性。人的判断和人性的特点,是枯燥和单一的数据不可能表现出来的。
比如一部上映于2002年的美国科幻大片《关键报告》,讲述了在未来技术先进到了警察可以阻止犯罪发生的程度--通过海量信息分析,在嫌疑人还没有犯罪之前就把他拘捕,以预防犯罪。至于怎么知道谁要犯罪,则由三个躺在水池里具有特异功能的人决定,他们能及时捕捉一些关键信息。这有点像美剧《疑犯追踪》中所描述的,数据告诉我们一个人即将做些什么事情。
但事实是,毕竟还没有发生,不是吗?人性最大的特点就在于不可预测性--预谋好的犯罪有可能终止;准备好的计划有可能终结;想做的事情突然不想做了……诸如此类,我们每个人都有很多这种临时放弃某件事的经历,这是数据意识不到的,也是无法判明的。另一个悲情的例子是,华尔街证券市场曾经通过复杂的数学逻辑设计出来一套交易策略,但最终酿成了市场崩盘的结果。美国科学作家莱特说:“科学的数据与对人的数据总有很大的区别,像天文、气象、传染病的研究资料,是经过科学家精心收集实验所得,它们是宝贵的资料;但对于人的研究资料,正像我们对人性所了解的那样,是多变和可逆转的,所以总是不太可靠。”
☆数据的“风险管理”--放到一个地方是危险的
在对数据进行管理的时候,要恪守一条定律:把全部数据都放在一个地方将承担最大的风险。就像你将自己所有的钱都存进了一张银行卡,而你又经常用这张卡在网上进行购物,也没有为自己的网银提供足够保护的话,你的这些钱随时可能不翼而飞。钱不能放在一个篮子,数据当然也是如此。
为了资金的安全,我们应该分开存储,而不是押宝一个篮子足够安全。比如,有些电话号码不能存进手机而是应放在秘密的本子里;身份证和银行卡要分别存放而不是放在同一个抽屉中。这有利于分散风险,假如你真的遭遇到了窃贼,你就明白这是多么重要。
对企业而言数据的安全性更为重要,像数值数据可以存储在数据库里,非结构化的数据则可以存储在文档或者表格里,进行针对性的管理,来分散风险的来源。我经常看到一些企业犯下低级的错误,他们在做完架构、设计、开发等所有的工作之后,才开始考虑安全问题,就像吃完了饭才发觉这顿饭是凉的,可能会伤肚子。这是非常大的错误,不能杜绝危险的发生,只能起到事后追补的效果。企业应该在开始之初就考虑数据的安全问题,来搭建安全的架构,对数据进行严密保护。
为数据建设一个铜墙铁壁般的房子只是安全的一个方面,为了保证数据的安全,企业还应该将数据切片进行存储,以此做到更为精确的控制。什么叫切片存储呢?就是只对单名员工开放部分数据的权限,只有两人或多人以上,才能查看到某一部分完整的数据。如此一来,就算有人侵入数据库盗用了这个部分,总体还是安全的,因为单一部分很难获得全部的信息,甚至有时一点作用都没有。没有上下文的数据对于窃取者来说可能意义不大,特别是当数据的价值密度很低时。
☆加密--消灭数据的“毒性”
有毒的数据我们称之为“毒数据”,这个词由费里斯特提出,被称为toxicdata,意指企业手中掌握到的如果泄露出去就会对企业或个人造成巨大损失的数据。比如电信公司收集到的数据,其中会包括用户的通话时间、地点、移动轨迹等;社交网站收集到的数据包括用户的登录密码、发言和好友信息等;金融系统收集到的数据,则包括用户的消费记录或消费习惯等,用户的银行密码当然也包括在内了。
为了降低泄露这些数据的风险,对于它的加密就变得尤为关键。也就是说,数据必须被锁在一个完全可控的保险箱内,确保我们每个人都能成为这些信息的主人,而不是在它被泄露时无能为力,任由它成为一种“有毒物质”。
现在,大数据领域内最基本的做法是使用透明数据加密法,这一做法代表着对所有的捕获到的数据都进行加密,以此保证全部数据都具有同样高的安全性。虽然它的成本一度很高,但近几年来已逐渐变得可被中小企业接受。
另一方面,如果我们的生活全部由数据控制,甚至包括你的思想,会引发多么可怕的后果呢?现在,数据正以亦好亦坏的方式控制我们,而且已不断地证明人们比想象中还容易受到它的驾驭。
在它的控制之下,我们的生活正发生怎样的变化?
1.不受制约的数据收集,正大大地威胁到我们的隐私和自由,这是显而易见的一个负面作用。
2.数据控制一切还加剧了一个早已存在的风险:人们正越来越依赖数据,但它远远没有我们意想中的可靠。
当依靠数据的分析并不完全可靠时,我们可能会完全受限于分析的结果。一个错误的结果,却不会受到任何质疑,甚至还是堂而皇之地持久成为某种权威结论,继续加深人们对于数据的依赖和痴迷。最终,人们可能仅仅为了收集数据而去收集数据,或者赋予它根本无权得到的信任。
有一位经理人说:“我现在离开数据,就无法做出决策了,我像相信上帝一样相信它,除了上帝,任何人在我面前都必须用数据说话。”这是他的信仰,同时也是很多管理者和决策者所遵守的原则,所以这句话经常回荡在华尔街、中关村或者上海浦东的高档写字楼里。在我看来,他们都在为数据打工了,已成为数据的奴仆,让它控制了自己的灵魂与思考。
长此以往,后果将不堪设想。最后,我们如何避免数据的这种独裁和垄断,也就是数据主宰一切的困局?我们怎样与它平等对话,灵活协商,而不是没有条件地言听计从?在我看来,摆脱数据独裁的唯一办法,就是建立起一个可以持续的数据协商制度,这意味着把分析和使用数据的权力给予基层员工,让那些有一线经验的员工来判断信息的来源是否正确,来预见数据的分析是否合乎情理。
就像大数据的产生是由于技术的分工整合一样,使用数据的人也应该更好地分工协作,集思广益,比如让一群经过先进技术训练的数据专家共同来解决棘手的难题,让这些数据使用者承担起更多的责任,避免出现数据的独裁困局。
结论是:我们必须让数据说话,但是“钥匙”一定要掌握在人的手中。
越过障碍--流动性与可获取性
在实际的应用过程中,数据的“流动性”和“可获取性”是一个必然的障碍,就像财富向有钱人集中一样,当数据变得越来越有价值时(海量资产),就成为了一个被追逐和被垄断的。
人们一方面渴望获得更多的数据,另一方面,则面临高价值数据被垄断的障碍。
由于大数据带来的挑战是跨行业和跨领域的,所以数据在不同的行业和领域之间的流动性非常重要。数据若不能顺利流动,大数据便不能开展;数据无法被获取,大数据分析也就失去了前提。
云计算和大数据的兴起,注定会在数据公开领域带来一场革命,无论是对社会、公司还是个人来说,都是一次对信息的世界观的改变。这意味着数据不再是自己的不可展示的私有产品,而是融入了生产方式,成为可用来交换的资产或者增值工具,也变成了竞争和生存的关键。