由于大数据本身就是一个问题集,在众多的解决方案中,最重要和最有效的技术是云计算,两者结合起来,将产生1+1﹥2的效果。而这也是人们公认的处理大数据集最有效的分布式处理手段。云计算为大数据的处理提供了基础架构平台,大数据应用可以在这个平台上运行,双方密不可分,互相保障。
对于大数据给云计算带来的影响,美国一位IT公司的技术总监贝斯特表示,大数据对云计算的影响只表现在私有的云架构上,对于公有的云架构,对数据仓库没有影响。因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,因为那是一件极度危险的事情。而私有的云架构则不同,它对于数据仓库的影响有两点:
第一,通过私有云,可以巩固数据集,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。这保证了双方不会发生任何冲突,反而起到了互相补充的加强作用。
☆云计算与大数据的区别--应用的分工
概念的不同
从宏观的概念上来讲,云计算改变了IT,而大数据则改变了业务。同时,大数据必须有云作为它的基础架构,才能得以顺畅推广并体现出强大的实用价值。
目标受众的区别
双方的目标受众也是不一样的,云计算代表着一种IT层面的解决方案,是面向CIO的;而大数据则是一种战略构架,是面向管理者和业务层的,它能让我们在业务上展示出更强大的竞争力,完全提升综合实力。
在中国的发展
☆云计算在世界的发展状况
说起云计算的发展前景,各大互联网巨头就像看到一支飞速上升的A股一样,对于云计算充满了信心。为此,很多公司开始调整未来发展战略。例如,亚马逊使用弹性计算云(EC2)和简单存储服务(S3)来为企业提供计算和存储服务。其中,收费的服务项目包括存储服务器、带宽、CPU资源和月租费。月租费的含义与电话月租费类似,存储服务器、带宽按容量收费,CPU则根据时长(小时)运算量收费。亚马逊把云计算做成了一个类似于移动通信的生意,而且只花了不到两年的时间。
根据某第三方机构提供的数据,在亚马逊上注册开发的人员达到了44万人,其中有很多是企业级用户。而亚马逊与云计算相关的业务收入额也已经达到了1亿美元。在亚马逊所有增长最快的业务中,云计算就是其中之一。
要说云计算使用者最多的网站,当数谷歌。这一点是毋庸置疑的,因为支撑谷歌搜索引擎的,是分布于200多个地点、超过100万台服务器的基础设施,而这些设施的数量正在迅猛增长。无论是谷歌地球、地图、Gmail还是Docs等等,同样都使用了这些基础设施。从这一点来说,谷歌公司确实是非常厉害的,因为采用了GoogleDocs之类的应用,用户的数据都会保存在互联网上的某个位置。而且,用户可以通过任何一个与互联网相连的系统便捷访问这些数据。
谷歌还有一点值得称颂的就是它的“分享”精神。目前,它已经允许第三方在谷歌的云计算中通过GoogleAppEngine运行大型并行应用程序。而且,早先它就已经以学术论文的形式对外公开发表其云计算的三大法宝:GFS、MapReduce和BigTable。在美国、中国等一些高校,谷歌也开设了关于如何进行云计算编程的课程。
我们再来看IBM。2007年11月,IBM推出了改变游戏规则的“蓝云”
计算平台,这个云计算平台为客户带来了即买即用的体验。它包括一系列的自动化、自我管理和自我修复的虚拟化云计算软件,使来自全球的应用可以访问分布式的大型服务器池,使得数据中心在类似于互联网的环境下运行计算。
作为世界PC软件先导的微软公司同样紧跟云计算的步伐,在2008年10月的时候正式推出了WindowsAzure操作系统。Azure(中文译为“蓝天”)是继Windows取代DOS之后,微软的又一次颠覆性转型。通过在互联网架构上打造新的云计算平台,让Windows真正由PC延伸到“蓝天”上。微软拥有全世界不计其数的Windows用户桌面和浏览器,现在它将它们连接到“蓝天”上。为Azure的底层提供支撑的是微软全球基础服务系统,由遍布全球的第四代数据中心构成。
☆云计算在中国的发展实况
关于互联网的未来发展方向,中移动前董事长兼CEO王建宙就认为,毫无疑问的,必定是云计算和互联网的移动化。也就是说,中国互联网事业的发展前途,在很大程度上就取决于云计算在中国的前途。
云计算在中国的发展历程:
2008年5月10日,IBM在中国无锡太湖新城科教产业园建立的中国第一个云计算中心投入运营;
2008年6月24日,IBM在北京IBM中国创新中心成立了第二家中国云计算中心--IBM大中华区云计算中心;
2008年11月28日,广东电子工业研究院与东莞松山湖科技产业园管委会签约,广东电子工业研究院将在东莞松山湖投资2亿元建立云计算平台;
2008年12月30日,阿里巴巴集团旗下子公司阿里软件与江苏省南京市政府正式签订了2009年战略合作框架协议,在南京建立国内首个“电子商务云计算中心”,首期投资额达上亿元人民币;
2009年,世纪互联推出了CloudEx产品线,包括了完整的互联网主机服务CloudExComputingService,基于在线存储虚拟化的CloudExStorageService,供个人及企业进行互联网云端备份的数据保全服务等等系列互联网云计算服务。
从2010年开始,中国的云计算更是被纳入了国家重点工程,获得了政策、资金和技术上的倾斜支持。比如作为中国对云计算探索研究较早的中移动研究院,目前已经成功完成了云计算中心的试验。
对于“云安全”,中国企业创造的概念在国际云计算领域算是独树一帜。我们的“云安全”的概念是:云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
中国对于“云安全”的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。
“云安全”的发展就像一阵龙卷风,很快席卷了各大安全应用企业。瑞星、趋势、卡巴斯基、MCAFEE、SYMANTEC、江民科技、PANDA、金山、360安全卫士、卡卡上网安全助手等都相继推出了云安全解决方案。例如瑞星,基于云安全策略开发的2009新品每天拦截木马攻击的数量就达到了几百万次,而其中仅在2009年1月8日这一天就拦截了765万余次。
据悉,云安全可以支持平均每天55亿条点击量查询,从这些点击量中每天收集2.5亿个样本加以分析,根据这个庞大的资料库,第一次命中率就可以达到99%。借助云安全,趋势科技现在每天阻断的病毒感染数最高可达1000万次。
其实云安全的核心思想并不是第一次被提出,早在2003年,中国的云计算专家刘鹏就曾提出过反垃圾邮件网格,这与云安全的思想非常相似。刘鹏当时的想法是,针对网络垃圾邮件的泛滥,仅靠技术手段无法很好地自动过滤,因为邮件过滤所依赖的人工智能方法并不成熟。那么,根据垃圾邮件“将相同的内容发送给数以百万计的接收者”的特征,就可以建立起一个分布式的统计和学习平台,以大规模用户的协同计算来过滤垃圾邮件。
这个方法是怎么实现的呢?首先,用户需要在电脑上安装一个客户端,然后就可以为收到的每一封邮件计算出一个唯一的识别码,就像“指纹”,通过比对“指纹”就可以统计出相似邮件的副本数,当副本数达到了一定的数量,就可以判定哪些邮件是垃圾邮件。
其次,由于互联网上多台计算机比一台计算机掌握的信息更多,因而可以采用分布式贝叶斯学习算法,在成百上千的客户端机器上实现协同学习过程,收集、分析并共享最新的信息。
由此看来,用大规模统计方法来过滤垃圾邮件的做法确实要成熟很多,而且误判率低,具有很强的实用性。从思想核心来看,反垃圾邮件网格也更真实地体现了网格思想,因为每个加入系统的用户在作为服务对象的同时,也是完成分布式统计功能的一个信息节点。随着系统规模的不断扩大,系统过滤垃圾邮件的准确性也随之提高。
这既是一个服务的过程,也是反哺并提升技术进步的过程。反垃圾邮件网格就像一张“天网”,充分利用了分布于互联网中的千百万台主机协同工作,由此构建起一道拦截垃圾邮件的天然屏障。
IEEECluster2003国际会议曾把反垃圾邮件网格选为杰出网格项目,并且在香港作了现场演示,引起了世界各地广泛的关注。在2004年网格计算国际研讨会上,还作了关于反垃圾邮件网格的专题报告和现场演示,很多邮件服务商表现出极大的兴趣。而中国最大的邮件服务提供商网易创办人丁磊,对此更是非常重视。
所以我们再回到之前的看法,垃圾邮件尚可如此处理,那么病毒、木马等也是同样的道理,这样看来,与云安全的思想就很接近了。
对于大数据在中国的兴盛,中国有一位资深的大数据研究者表示出了这样的看法:“现在中国所谓的大数据公司,都还是在以互联网思维理解大数据,而非真正的大数据思维,未来还有着大量的创新空间。”
这就是说,大数据在中国的发展,虽然已经有了一定的进展,但还远远不是我们希望看到的。就像人们对于第一次信息技术革命的预测一样,谁也没有想到,现在会是信息技术的天下。很显然,中国的投资人们可不想再等上十年八年,到那时候,他们俨然已经错过在这场大变革中最早的布局机会,市场早被他人垄断,到时候黄花菜都凉了。
对于目前市场上的大数据公司,我们大体可以将其分为三类:第一类,拥有大量的用户信息,通过对用户信息的大数据分析解决自己公司的精准营销和个性化广告推介等问题。如亚马逊、谷歌和Facebook。第二类,通过整合大数据的信息和应用,给其他公司提供“硬件+软件+数据”的整体解决方案。如IBM和惠普。第三类,通过出售数据和服务更有针对性地提供单个解决方案。这一类基本上是新兴的创业公司。需要特别指出的是,作为第三类的新兴创业公司,它们将大数据进行商品化,这会引发继门户网站、搜索引擎、社交网络之后的新一波创业浪潮和产业革命,并且一定会对传统的咨询公司产生强烈的冲击。
不过,如果我们仅仅把大数据的影响力框定在对传统咨询公司的冲击之上,似乎也有些小看了它的威力。大数据分析与传统的数据分析、数据挖掘具有一定的延续性,关键不同在于其分析的数据量更为巨大,且多为非结构化数据。譬如很多段小视频,或是电子商务里的各种评价、晒单等等。这与传统数据分析多利用cookie获取诸如用户每月登录某网站几次等结构化的数据,在技术处理方式上有着很大的不同。
但是,从大数据分析在根本上要做的事情来说,它仍然是要在这些大量的数据中进行分析,得出一些对商业决策有帮助的pattern(模式、方法)。它的应用空间会非常广泛。
对于现在国内一些广告平台公司、市场公司都纷纷上马大数据业务的现象,我们不得不指出的是,它们很多并不真正了解自己的需求,也不明白大数据意味着什么。在实际应用中,大数据主要包括了大交易数据、大交互数据和大机器数据三类。第一类大交易数据已存在多年,从传统银行、电信的交易数据到各类网银支付数据都包括在内;第二类大交互数据,则主要是指来自脸书、推特、微博等社交网络的非结构化数据;第三类大机器数据,则是指由物联网内各种传感器所产生的数据。
如果不是真正做这三类工作并且处理它们之间关系的,即便上马了大数据,也只能是形似神不似,花钱不少,但获得不了多少实际的价值。
现在,中国的老板们眼中都看到了“数据财富”的可贵,也大都在采取一些行动。这是一个庞大的朝阳产业,仅仅在大数据自身的产业链上,就可以分为数据采集、数据清洗、数据分析和垂直行业算法四个环节。但由于中国的市场规模才刚刚起步,分工还没有细化,中国的大数据先行者必须从头开始,甚至在结合国外经验的基础上,要摸着石头过河,才能一步步总结出符合中国国情的大数据应用战略。
阿里巴巴:云帝国构想
我至今仍然对马云说过的一句话印象深刻:“再不动就要死!”阿里巴巴从创立开始,就始终遵循一种“不动即死”的战略原则。1999年,马云创立了作为企业对企业的网上交易平台阿里巴巴。2003年,又投资1亿元人民币建立了淘宝网。2004年,阿里巴巴开始推出支付宝服务,面向中国的电子商务市场提供基于中介的安全交易平台。
淘宝和支付宝,已成为阿里巴巴在电商领域的两大互补性支柱,一跃成为全中国最强大的电商企业。但是马云没有停止扩张的步伐,阿里巴巴仍在继续“动”。他先是购入高德地图,投资新浪微博,而且还增资UC。在十周年活动后,马云宣布卸任,但阿里巴巴的“云帝国”才刚刚开始。
☆传播渠道--天下网商
有了传播渠道,品牌的扩散就有了保证。传播也是信息辐射的重要平台,因此越是信息丰富的社会,媒体的重要性也就越突出。阿里巴巴在2010年和浙江出版联合集团倾力打造了一家新媒体《天下网商》,专门为其电子商务领域提供信息传播服务,这成为了阿里巴巴品牌战略的一大标志,也对它的品牌地位有了范围更广的提升。
☆核心数据源--旗下的拳头产品
好的产品才是成功的基础,阿里巴巴旗下的所有产品几乎都是一个强大的数据源。从1999年以来,包括阿里巴巴黄页、淘宝网、天猫、一淘、聚划算、阿里旺旺等产品相继崛起,独树一帜,占据了行业领先的地位,为阿里的品牌战略提供了无数充实的内容,也为阿里的大数据战略提供了坚实的核心数据,成就了马云的全网络战略梦想。
☆核心技术--阿里云