我们能做什么,我们要做什么
●不管怎么样,我们现在唯一要做的事情是,张开双臂,积极地迎接大数据时代。
●今天,如果你正在或者打算尝试使用云技术,比如云分享或云计算,那么恭喜,你已成为大数据时代的一员,或者是它的受害者。
●大数据的出现首先是一种机遇,其次它带来了重大的挑战。我们既要享受它产生的福利,也要警惕它背后潜在的弊病。
☆先抓住它的核心问题
大数据具有多层结构,这意味着它的形式多变,类型也很丰富。有人认为,人们越来越频繁地使用互联网进行搜索是形成数据多样性的主要原因,这当然是有道理的,但最主要的还是由于新型多结构数据的出现,以及包括网络日志、社交媒体、手机通话记录及传感器网络等数据类型形成的。数据传感器可以安在更多的地方,比如汽车、飞机、卫星或手机上,都增加了数据的多样性。
和传统的业务数据比起来,大数据又存在不规则和模糊不清的特性,因此人们很难甚至没有办法使用传统软件或方法进行分析,有时就连收集也成为一种不可能。随着传统的业务数据的演变,它的格式已能够被标准的智能软件识别,目前我们面临的挑战是处理并且从以各种形式呈现的复杂数据中挖掘价值。
一项关于数据创建速度的调查显示,到2020年时,全世界将拥有220亿部互联网连接设备。在大数据时代,数据被创建和移动的速度是非常快的,创建实时数据流是一种流行趋势,因为有高速电脑和服务器的存在,这不是什么难事。在这个基础上,我们还必须懂得如何快速处理、分析数据并满足用户的实时需求。
我们(包括企业和个人)面临着数据量的大规模增长,这是一个不争的事实。再过15年,全世界的数据量将扩大到今天的50到60倍。它的规模是一个时刻在变化的指标,谁也无法预计将来还会出现多大程度的技术飞跃。但可以肯定的是,数据量的增长只会越来越快,绝不会放慢。另外,各种意想不到的来源都能产生数据,也都能保存数据。
☆想想你能做什么?
在将来,我们的竞争优势(超越强手的优势)将来自何处呢?想想这个问题,你就明白了大数据赋予人类的使命。未来的竞争优势已很难从制造业或工业资源的“仓库”中提取,而是来自于数据,还有相应的收集、分析和使用它的能力。
在未来的大数据时代,只有能够提供功能最为丰富、数据量最大的数据平台的公司才可以在企业的竞争中获胜;只有能够拥有最强大的大数据产业的国家才可以在国家的竞争中笑到最后。
大数据科学家舍恩伯格说:“现在有越来越多的数据,人们可以收集、分析与所要研究的问题相关的更多信息。通过这些数据,人们能够得到很多的洞识,帮助他们做出选择与决策。”
他认为,只有我们分析了所有的相关现象、所有的数据或大多数的数据,才能够发现以前没看到过的问题与选择。因此,人们必须学会善用更多的数据。在这个大的前提下,舍恩伯格为我们指出:大数据时代最大的转变就是不再强烈地渴求因果关系,而是更多地去关注相关关系。(我对这一观点持有异议,后面的篇幅我们会有重点讨论。)
也就是说,舍恩伯格认为,在大数据时代,我们只要知道了“是什么”,不需要知道“为什么”,就能达到更宏伟的目标。这是全新的思维,也正是我们要做的事情。我们必须创造新的交流方式,必须建立新的认知,才能跟上大数据的步伐,成为新型的现代人。
☆认清数据的价值:重复使用
数据的价值是什么?关键的一点是,它总在改变,从不是固定不变的。在以前(小数据时代),数据往往使用一次就失去了意义,但在今天,数据却可以重复使用。你可以随时调取它、使用它,不需要担心它损坏或失去功能。
真正价值就在于它可以一而再、再而三地使用。这种“再使用”的价值让数据的重要性比过去陡增了几百倍甚至成千上万倍。
由于这一新的特点,互联网的作用被无限扩大了,并最终催生了遍布每个行业的大数据产业,因为人人都有重复使用数据的需求。企业有,个人也有。对整个世界来说,这可能意味着大数据产业将引领经济的发展,全方位地影响我们的生活。
☆到了为自己建立大数据时代思维的时候了吗?
但是,对普通人而言,我们需要做些什么才可以更适应时代,或者才能够走在这个时代的前沿?
仔细想一想,你有机会来引领属于自己的大数据时代吗?在美国有一家创新企业德克德公司,它可以帮助人们做购买决策,告诉消费者什么时候买什么产品,什么时候买最便宜。它总是能够精明地预测产品的价格趋势。
它是如何做到的?背后强大的驱动力就是大数据的支持。他们在全球的网站上搜集到了数以十亿计的数据,然后帮助数以十万计的用户省钱,为他们的采购找到最好的时间,提高生产率,降低交易的成本,为那些终端的消费者带去更多价值。
在这类模式下,尽管一些零售商的利润会进一步受挤压,但从商业本质上来讲,可以把钱更多地放回到消费者的口袋里,让人们的购物变得更加富有理性,不至于花大钱办小事,并可以降低自己购买假货的概率。
这是依靠大数据催生出的一项全新产业。这家为数以十万计的客户省钱的公司,在不久前,被一家超级企业以高价收购。
另一个例子与SWIFT公司有关,它是全球最大的支付平台,在该平台上的每一笔交易都可以进行大数据的分析。他们可以预测一个经济体的健康性和增长性。比如提供世界某一个地区的经济指数,你可以实时实地得到对不同地区的精确统计、计算与预测。
数据可以告诉我们每一名客户的消费倾向:他们想要什么?喜欢什么?每个人的需求有哪些区别?哪一些可以整合到一起进行分类分析?具有超前眼光的公司早就据此布局,实现了对消费者和用户的数据化分析、服务与预测。
多数人没有能力去创办一家这样的公司,但我们可以在大数据产业中发现自己能够饰演的角色,例如数据工程师、提供思维或开发程序的人,当然还有收集与整理数据的人。我们在生活中就可以顺利地建立这种思维,成为一名当之无愧的“数据控”,打理好自己的生活。
☆我们的未来--开发与充分利用数据
你可以仔细想一想,数据的收集、分析和处理,应该是怎样进行的。我们将按照顺序来逐一介绍和讨论,并提出与一些广为流行的常识有所区别的观点。
第一步:数据的收集。
收集是大数据供应链的第一个环节。数据是大数据产业的原料,没有原料,任何产业都没有办法发展。从广义的角度,信息就是数据,我们可以通过各种公共或者私人的渠道获得信息。这些信息各式各样,来自不同的地方,都被我们汇集起来。
随着收集数据的成本越来越低(因为汇集数据的市场日益发达),我们用比较低的、能够接受的价格来获得几乎所有的宝贵数据都是有可能的。这些信息包括一切领域,甚至是你穷极一生都无法了解的人类文明史的全部学科--从社交网络、情感、军事政治到天气预报、经济指标和乏味的公共信息,如今都成为了我们的“大数据加工厂”的原料。
你可以从互联网收集信息,点击鼠标到达任意网站,查看你感兴趣的东西,然后记录;
你可以从智能手机、iPad或其他移动数据平台收集信息,它们总能根据你的喜好忠实地为你提供信息服务;
你可以通过邮件或流量统计工具收集信息,这是与特定组织相关的数据。比如消费者的访问量、产品召回度和顾客的忠诚指数等,你都能付出极低的成本获得它们。既然收集成为了轻易可达成的目标,那么在技术条件允许的情况下,合法性的讨论就被提上了桌面。“我可以随便把信息拿过来吗?没有限制吗?”当然有。某些数据会受到严格的管制,比如医疗信息、个人房产和婚姻信息。在不同的情况下,收集信息可能面临合法与非法两种判定。如果你涉及对个人身份识别信息的利用,就可能非法;如果不是,则存在法律的模糊区域。
在世界范围内,我们的司法系统对于网络信息是否代表个人身份(隐私)的判定并没有统一的意见,这包括IP地址。但是,最近美国的一些地区法院已开始立法约束,明确了一些管理条例,比如加州的最高法院裁定邮政编码为个人信息,对相关数据能被哪些机构收集做出了强制性的约束。在电脑和网络普及时代,每个人都成为潜在的数据来源。就拿手机来说,进入智能机时代后,手机成为绝佳的信息采集和发送装置,它可以感知光线、声音、动作、位置,附近的网络、电脑、其他手机(使用人及其位置)等。这是理想的数据采集器,手机使用者如果安装了厂商的软件,就自动加入了数据供应链。有时他们对此缺乏认知,因为人们更多关注的是使用功能和便捷服务(包括软件升级和信息获得功能)。
这意味着抛开合法与非法的判定,信息正变得海量和无处不在。要达到匹配的收集速度,是一项极具挑战性的工作。要完成这个工作,我们就需要使用新的技术和平台,促进技术革新,从而推动一系列产业。
第二步:数据的提取和清除。
数据收集好,不意味着就万事大吉了。恰恰相反,工作才刚刚开始。收集好了,就必须把它们提取出来进行整理分类。在情报领域,这被称为“提取、转换和加载”,要把数据存进一个设计好的数据库,进行一定处理,然后才易于调取和使用。
大数据的一个最显著特征就是非结构化。它不具有天然的结构性,信息在收集好的最初阶段往往是混乱的、杂乱的和缺乏规律的,什么来源和性质的信息都有。这表明我们在提取和分析工作开展前,并不清楚这些信息的内在架构。
很头疼是吗?接下来,对信息转换的需求出现了。我们需要在保持源数据的同时,又能快速地分析数据,把不同的结构定义出来。
第三步:硬件的发展。
这时,硬件的发展就被提上了日程。没有升级的硬件,就无法承载升级的软件,也就不能满足庞大的分析工程。我们收集、提取的任何数据需要经过人或机器的分析,更多的还要靠机器而非人。
在这里,硬件是以计算、存储和联网的形式存在的,多以电脑为载体,成为数据服务器的一部分。大数据并不会改变这一点,但是它改变了传统硬件的用途,也使云计算成为了宠儿。因为云计算使得数据虚拟化和实时化,既可以接纳海量数据进行分析,又能随时清除这些数据,做到按需分析,这使对海量数据进行精确分析成为了可能。
第四步:平台的重要性。
我们要创造可用来快速处理海量信息的平台和框架,没有这个平台,前述工作将变得不可能。在这个平台上,我们加快数据分析的方法就是将数据分解,再对若干部分分别进行分析。当然还有另外的途径,即建立一个文档处理步骤的路径,每一个步骤都对特定的任务进行最优化的分析。
平台还要具备一个重要特点:迅速出结果,而不是只能处理大量的数据却无法保证实时性。这一点相当重要,因为人们既需要实时信息,又需要反复地分析这些数据。比如提供网络搜索结果,百度不可能在24小时后才显示搜索页面,必须瞬间呈现才能满足用户需求;航班、酒店信息等也必须实时呈现。实现这些目标的唯一方法,就是平台具备分派任务的功能,这就是为什么大型网络公司都有上百个服务器。最后,平台也要满足人们反复使用的需求,这对技术的要求更高。
第五步:机器智能。
在大数据供应链中,机器的智能相当关键。因为数据太多了,无法用手工处理。特别是对于今天我们想要分析的大部分数据--整个大数据产业来说,离开了机器的帮助寸步难行。机器的智能化是必然的趋势,谁占领了机器智能的最高阵地,谁就在大数据产业中占得了先机,拥有了核心技术,就不会受制于人,而会达到“制人”的境界。
在数据和信息的收集、提取阶段,机器就已经介入帮忙了。比如,对大量信息进行推导,归纳出数据的含义;对几千名客服每日、每周的服务满意度进行总结;对车票、机票的订票量进行统计。你不可能让人工参与其中,因为他们太慢,满足不了实时性的要求。
机器不但参与其中,它的学习能力也很重要。如果我们要分析信息,就要试着在更高难度的环境中尝试更快的速度,自然就要不断提升机器的智能。换言之,在大数据时代,我们的机器将越来越聪明。它们会逐渐变得可以更深入地思考,拥有一定的情感模式和逻辑判断力。虽然我们还无法预测智能机器的未来,但它们已经表现得像人类智慧的初期阶段了。
第六步:人类的作用。
虽然机器的智能对数据分析相当重要,但是永远不可能替代人类。人的眼睛、耳朵和大脑仍然(可能是永远)是这个世界上最智能的工具。机器不管如何进步,最终都只是为了延伸视觉的维度,以人类可读的形式提供数据。
所以,重要的不是机器或人一方,而是“人机互动”。大部分的分析师都清醒地知道,人是数据的主宰者,机器只是一个打工仔。凯瑞尔(Creve)是人机互动研究的先行者,他设计出了利用几十个独立数据源的系统,功能十分强大,不但能在可操作的3D环境下对系统进行显示,而且能辅之以声音和其他信号。他的研究表明,如果人们用这种方式输入数据,分析员不用花几个小时,而是只需几分钟便能寻找到答案。
人类的作用在于控制机器,成为数据的主人,在此基础上提升人机互动的速度和并行性。当然,人类还需要给机器设计新的界面和多重感应环境,以方便数据分析师和机器一起埋头苦干,高效地处理数据。
第七步:数据的存储。
我们必须考虑数据的存储。实际上这个问题在一开始就会成为人们重点设计的环节,因为大数据所占的储存空间实在太大了。
在庞大的数据中,除了一些源信息,还存在着大量的已作了改变的数据。我们收集、整理、改动、加工它们;另外也有通过分析得出的简表和表格,并由此产生了许多格式文件。为了尽可能多地提供空间,我们要研发新科技,让数据拥有更宽敞的“家”。
通常来说,储存是指什么?一位数据专家说:“储存就是使用传统的平面文件和相关的数据集加上后结构化查询语言(post-SQL)储存系统对云数据和初始数据进行保存。”如果在大数据供应链中缺乏这一环节,我们就无法备份所有东西,数据库就难以达标,不能支持庞大的工作量。这就像一个人虽然饥饿却只有很小的胃一样。
第八步:达成分享数据和协同行动的目标。