FB数据单元--信息导航图
数据是由什么组成的?一个数据单元有多大?怎样产生和传送?
这是我们首先要知道的基本问题。曾经有人把数据比喻成花粉,蜜蜂搬运花粉使果实得以产生。每一个花朵都是数据产生源,蜜蜂承担着数据搬运工的工作。我认为这个比喻非常恰当,但有更好的概括--数据就像人体的血红细胞,一个数据单元就是一组营养单元,由肝脏产生,输送到身体各处,供应器官的需要。
数据单元是信息传输的基本单位。特别是在网络中,一般的网络连接不会允许将任意大小的数据包进行传送,它有严格的规则,采用分组技术将一个数据分成若干个很小的数据包,并且给每一个小数据包都加上它的属性。这个属性是与传输有关的,包括源IP地址、目的IP地址、数据的长度等。
和血液一样,它有固定的目的地。所以,我们把一个这样的小数据包称作数据单元,也可以称为数据帧或帧。如此一来,数据信息流的特点就明确了,每次要传送的数据都是特点鲜明的“包裹”,它们的规格和封装方式都是相同的。这有利于数据传输的标准化,也简化了它的产生、加工、包装和传送方式,使得大规模应用数据成为了可能。
我们发现,任何一个数据组织都有它的既定体系。在这个体系中,可以划分为位、字符、数据元、记录、文件和数据库六个层级。前一个层级的数据元组合产生了后一个层级,最终实现了更大规模的数据集合。
在这六个层级中,“位”数据处于第一层,一般的用户不需要探究,但后面五个层级则需要我们掌握,因为它们是人们在输入和请求数据时要应用到的。
当不同的数据包或数据元素之间存在着特定关系(一种或很多种)时,它们就构成了数据结构,也就产生了“电脑存储和组织数据”的特定方式。人们认真选择的数据结构能够带来更高的运行或者存储效率。这时,检索和索引技术的需求就随之产生了。更好的技术可以让我们的检索更加高效。
我的朋友沙尼尔是一位任职于谷歌公司的大数据专家,他在去年出版的名为《数据算法与应用》的书中对于数据的性质这样解释:
“数据结构代表着一种联系,它是数据对象及存在于该对象的实例和构成该实例的数据元素之间的各种联系。同时,这些联系可以通过定义有关的函数给出并量化。”
数据对象又是什么呢?沙尼尔认为,一个数据对象是实例或者值的集合,而数据结构是抽象数据类型(ADT)的物理实现。他将一个数据结构的设计过程分成抽象层、数据结构层和实现层这三个层级。在这其中,抽象层是指抽象数据的类型层,它讨论的是数据的逻辑结构及其运算,数据结构层和实现层则更贴近于形象化和实用性,它们讨论的是一个数据结构的表示和在电脑中的存储细节以及这种运算的实现。
如果我们结合现实应用,将数据结构解剖开来,会看到什么?你立刻就会发现自己已经漂浮在数据王国的海洋之上,它们离你是如此之近,并时时刻刻与你的生活发生着关系。
●字符
当我们输入一个字符时(通过键盘或其他设备),系统会直接将字符译成某特定的编码系统中的一串位的组合。一个字符在电脑中占8位,即一个字节。这就是字符,也是一般而言数据的最基本单位。同时,电脑系统可以使用不只一种编码体制来处理字符。比如,某些系统将ASCII编码体制用于数据通信,而把EBCDIC编码体制用于数据的存储。广义上,我们在纸上写下一个汉字单词、一个阿拉伯数字,也可视作“数据”中的一个字符。
↓
●数据元
数据元是数据的层次体系中最低一层的逻辑单位。我们为了形成一个逻辑单位,需要将若干位和若干的字节(字符)组合在一起。比如一句完整的话,一段完整的富有逻辑的代码,一个最小的信息流等。因此,数据元也可称作字段。它是泛指的,其中的数据项才是数据实体,比如一个完整的手机号是一个数据元,138或后面的数字按段分开,则是具有单独存在意义的数据项。
↓
●记录
数据元以逻辑相关的形式组合在一起,就形成了一个数据记录。价值在这时候开始陡然提升。比如一条员工记录--编号、姓名、性别、职称、所属部门--包含了若干的数据元,它们之间有逻辑相关性,再加上辅助性的数据项,就构成了完整的记录。这是数据库中存取的最低一层的逻辑单位。
↓
●文件
一个完整的文件是由信息和介质构成的,它是被命名的、存储在某种介质上的一组信息的集合体。比如一篇文章、一张唱片、一份合同,甚至于一本书,都可称为数据元件。一个文件在逻辑上可划分成若干的记录,那么文件就以记录序列的形式体现。文件与存储介质无关,介质的改变不会改变文件的性质和它的价值。
↓
●数据库
数据库是最大的层级,它是一组有序数据的集合。在这组有序数据中,包含大量的文件--这些文件之间互相又具有逻辑相关性,并以某种检索价值被标注。根据不同的应用需求和不同的领域,人们有时也将数据库分成若干段,而不是唯一存在。数据库有备份,可以随时检索、整理和利用,也可以随时被有权限的人更改。
核心:整理、分析、预测、控制
“大数据”的核心并不是我们拥有了多少数据,而是我们拿数据去做了什么。如果只是堆积在某个地方,数据是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它最后的功能有关。如果不能体现出数据的功能,大数据的所有环节都是低效的,也是没有生命力的。
☆整理
整理有两个目的,一是将所有的数据归类,把它们放到该去的地方;二是利于我们检索,随时调取数据进行利用。这和我们整理书架的目的是一样的。面对同样的数据,不同的整理方法决定着我们的效果是好还是坏。
美国国会图书馆的检索工程更新很能说明“整理”的重要性。在国会图书馆,人们曾经经历过一段困难时期,因为信息量随着网络技术的发达不断暴涨,就连保存的推特(Twitter)信息(只是图书馆数据中很小的一部分)就达到了接近两千亿条,存储文件的体积更达到133TB。删除是不可能的,因为每一条信息都已经在这套社交网络中获得了读者的分享与转载--那么,如此庞大的数据应该如何整理?
技术团队需要想尽一切办法、穷尽所有智慧才能拿出切实可行的检索方案,让图书馆的用户可以方便地利用这些信息。也就是说,技术人员必须着手建立一套帮助研究人员(包括其他用户)快速访问社交平台数据的系统,因为随着网络工具和文化潮流的不断发展,人们都在趋向于电子阅读而不是来看纸质书。
从2000年开始,图书馆就启动了整理归档的工作--那时的难度较小,因为尚未接入社交网站,政府内部的系统储存的数据在一定时间内是静态的,增长速度较慢。虽然数据的总量也超过了300TB,但工作人员觉得:“总有一天可以整理清楚。”
然而,推特的出现令图书馆的归档工作陷入了痛苦的僵局。图书馆方面实在找不到合适的办法来保证信息易于搜索,在这个过程中还不能出现无法容忍的错误。如果继续使用旧的方式--磁带存储,那么仅查询一条2006年到2010年之间的推特信息可能就要耗费一天,如果查询期限再加上一年,所要的时间就要增加四倍。
国会图书馆的一位工作人员费舍尔说:“我们在庞大的数据面前感到头疼,整理成为了一个不可能完成的工作。如果无法把它们归类,这些数据就变成了包袱,需要它们的人检索不到,我们却又不得不保管它们。”
推特的信息之所以难于整理,一方面是由于它的数据量过于庞大,另一方面的原因则十分现实,因为每天都会有新数据不断地加入进来。就像我们的微博一样,每分钟都有大量的新信息产生,人们不断在发微博。所以,这种增长速度会不断地提升,要用传统方法把它整理好,几乎是不可能的。
此外,这类信息的种类也越来越多样,比如普通的推特信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的数据等等。经常使用微博的人对此心知肚明。传统方法在新的数据更新特点面前,根本无从下手。
费舍尔说:“如何寻找解决方案?道路是曲折的。我们开始的时候考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正地实现搜索时间的显著降低,就需要构建起由数百台甚至几千台的服务器构成的庞大的基础设施。天!想想都不可能,这对于我们这种毫无商业收益的机构来说,成本实在太高了,一点也不符合实际。”
图书馆最后找到了大数据工程师。专家针对图书馆的具体情况,给出了一系列的实用方案。开源数据库工具Raik的创始人菲利普斯建议采取分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作,另一款则用于回应查询请求,非常简单有效地完成了整理的工作,让海量的新信息与庞大的旧数据完美融合,也保证国会图书馆实现了数据库的更新换代。
在整理完成以后,数据的总量增加了几十倍(每时每刻仍在增加),检索速度反而比以前更快,甚至已经实现了检索结果瞬间到位。
☆分析
分析是指对于数据进行“有效分析”。数据往往规模巨大,成分复杂,且来源不一。尤其在大数据时代,数据往往同时具有四个特点,简称4个V:数据量(Volume)大、速度(Velocity)快、类型(Variety)杂、价值密度(Value)低。怎样在最短的时间内做出最有效的分析,就成了一项核心工作。
随着大数据时代的来临,大数据分析也紧跟着应运而生。而且,传统的数据分析也在与大数据分析进行融合。
目前人们对于数据的解决方法主要还是这几个方向:数据怎么做预处理?归档的文档怎么能够及时查询?如何使用你的挖掘和分析技术来看到视野范围内的全息的大数据内容?在海量数据面前,传统的分析方式是做不到的。
数据分析的弱点也是需要我们警惕和谨慎思考的。去年六月份,有一位投行的华人高管蔡先生找到我。他正在考虑是否要退出欧洲市场,因为经济形势太不景气了。他觉得将来一定会发生欧元危机,一旦危机爆发,公司就会陷入破产的困境。
没错,经济有可能低迷,这是一个潜在的事实。但是,我提醒蔡先生注意另一个事实,那就是这家投行在欧洲已有近五十年的经营史,树大根深,有了很庞大的市场,也有大量的老用户。假如这时退出欧洲,会不会让人们觉得这家投行一遇到风吹草动就弃械投降、根本不值得信任呢?
蔡先生恍然大悟,他马上决定不能清算公司在欧洲的业务,不管未来有什么危机都要坚持下去,即便在短期内付出巨大的代价,也在所不惜。在做出这个决策时,蔡先生并没有忽视那些经济层面的数据,在我的建议下,他采用了另一种不同的思维方式,在数据的考量中纳入了更多更全面的信息。在困境中做出正确决策的人和机构,往往能够赢得更多的尊敬,而这不是传统的数据分析可以捕捉到的。
蔡先生的故事在告诉我们数据分析的威力之外,也充分体现了数据分析的短处和局限。虽然人类的生活现在由收集数据的电脑在调控指挥,当人的大脑无法及时理解和判断情况时,数据也可以帮我们解读和分析它的意义,并且帮助我们弥补对于直觉、情感的过分依赖,减轻我们内心欲望对于理性的扭曲。但归根结底,数据并不能代替人的思考,只有明确数据的真实价值,才有助于我们摆脱对数据的完全依赖。
真正的大数据分析就是要帮我们搞明白数据的真实价值,它在研究大量数据的过程中寻找模式、相关性和其他的有用信息,来帮助人们和企业更好地适应变化,并且做出那些真正明智的决定。
在大数据的层面上,对海量数据有四个不同的方向和解决工具:1.技术上解决了廉价数据的问题;
2.几乎可以实时地对数据进行分析,而不会有任何滞后,保证了数据的实效性;
3.大数据的可视化和发现性,使得搜索与可视化成为热门应用,也让数据更加精确;
4.在设备层面,拥有了经过优化的一体机设备,使得数据制造和分析更加便捷,成本也更低。
即便拥有最好的技术,在对数据进行分析前,人们也应该先了解数据的真实含义--就像了解自己一样。如果你对于数据是陌生的,那么作为一个决策者来说,你对于自己的事业就是十分危险的。现在许多产品经理、设计师和高管在没有完全理解数据的真实含义的情况下,就直接根据数据来修改自己的产品设计、做出完全基于数字逻辑的决策,结果往往事与愿违,导致糟糕的结果。
☆预测
大数据技术就像一面细致入微的显微镜,不但能够收集和分析最不起眼的信息,而且能够基于这些信息之间的逻辑关系做出科学决策。就像我们可以根据人的表情与言词判断他接下来的行为、量度他内心的情感状态一样,预测功能在商业、经济乃至其他领域都有助于政府和企业管理者做出更多的理性决定,而不仅仅是依靠直觉和经验。
IBM公司的能源电力应用部门经理布兰德说:“我们运用大数据预测风电和太阳能,精确地预测来自太阳能和风能的电力产出,取得了很好的效果。这是一种前所未有的创新模式,将使能源电力行业解决可再生能源的间歇性缺陷。”
IBM公司开发了一种结合天气和电力预测的智能系统,提高了系统的可用性并优化了电网的性能。它是足够改变游戏规则的新发明,结合大数据分析和天气建模技术而成,是现在全世界最先进的能源电力解决方案,可以提高可再生能源的可预测性。
这项名为“HyRef”(混合可再生能源预测)的大数据预测技术,利用天气建模能力、先进的云成像技术和天空摄像头,接近实时地去跟踪云的移动,并且通过传感器来监测风速、温度和方向。通过精确的分析,能为风电企业提供未来30天的区域内的精准天气预测,或者未来15分钟的风力增量。这就使能源公司有条件将更多的可再生能源并入生产线,减少碳排放量,然后制造更多的清洁能源。
这种预测能力让我们的生产模式得到真正的升级,而且可以应用到其他领域,比如天然气、煤炭或其他传统行业。不仅在实体产业,非制造业的服务产业对于大数据预测的需求更盛,也有着更广阔的市场。例如,可以帮助企业和政府机构进行业务(服务)分析与预测,对工作量身定制,降低成本,事先应对危机;再比如,可以对房地产销售的价格走势进行预测,它的精确性远远超过传统的房地产分析师。我们每个人都将从中受益无穷。
☆控制