仿佛只是一夜之间,“大数据(Big Data)”火了。
那一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的IT厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
“数”中自有黄金屋
严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上个世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但是我们现在仅在两天内就创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。
但是大数据并非单指数据量之大。对于大数据,IDC的定义是:“为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个V,即更大的容量(volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(velocity)。前面三个“V”的组合推动了第四个因素——价值(value)。
关于大数据所蕴含的价值,有许多为人所津津乐道的故事可以佐证:
美国印地安那大学和英国曼彻斯特大学的学者通过提取Twitter上的非结构化数据分析公众情绪,再将情绪曲线与道琼斯工业指数进行对照分析,发现可以提前3~4天预测股市大盘走势。基于此,他们已经推出了欧洲第一只基于社交媒体的对冲基金。
(单位:百万美元)
又例如,英国的科学家根据Twitter的数据来跟踪流感的爆发。他们主要基于用户发布信息中的关键词,例如“我头痛”等,并结合用户的发布地点,按区域与英国卫生部的官方数据进行了比较,最终建立起一个预测模型。创业团队“SickWeather”甚至以预测疾病为主题开展了自己的创业项目。
象这样的大数据经典案例还有不少,而整个商业社会对大数据将带来的影响给出了极高的评价——
麦肯锡全球研究机构在2011年5月发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得60%以上的净利润增长。
在今年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。
而《华尔街日报》在文章《科技变革即将引领新的经济繁荣》中更是大胆预测:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”
更加值得关注的则是,美国已经把大数据上升到了国家战略的层面。根据美国白宫今年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。
在我国,大数据作为一个较新的概念,目前尚未直接以专有名词被我国政府提出来给予政策支持。不过,在2012年12月8日工信部发布的物联网“十二五”规划上,信息处理技术作为四项关键技术创新工程之一已经被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外三项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。
大数据的价值和重要性已经毋庸置疑,但大数据究竟带来了哪些新的技术趋势,它对当前IT产业的势力格局会造成何种影响,更关键的是,每个企业如何才能获取大数据中的“宝藏”?则是我们真正关注的焦点。
淘金的工具、流程与方法
作为一门新兴科学,大数据带来新的挑战的同时,催生了许多新的技术和趋势。
“现有的软件和工具主要适用于以结构化数据为主的传统数据,要想及时捕捉、存储、聚合和管理这些大数据,以及对数据进行深度分析和挖掘,我们不得不需要新的技术和能力。”英特尔亚太研发有限公司总经理何京翔说。
英特尔亚太研发有限公司总经理 何京翔
这些新技术包括分布式缓存、基于MPP(海量并行处理)的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等,而其中最炙手可热的新技术就是Hadoop。
Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单地说来,Hadoop是一套开源的、基础是Java的、能够让数千台x86服务器组成一个稳定的、强大的集群,对Pb级别的大数据进行存储、计算的软件平台。谷歌、雅虎、亚马逊、Facebook,以及国内的淘宝、百度等都采用了Hadoop技术来处理海量数据。
尽管Hadoop是开源软件,但英特尔、IBM、Cloudera等厂商都推出他们各自的Hadoop特别发行版本。这些特别发行版本一般都会有一些附加特性,比如高级管理工具及相关的支持维护服务,主要适合企业用户。毕竟绝大多数企业用户都和互联网公司一样具有强大的技术实力,采用具有商业支持的开源Hadoop技术能够快速切入到大数据应用中去。民生证券技术总监颜阳就特别强调:“做大数据的分析与应用,全靠企业自身的话还是很有难度,也不见得是最省事的方式,而且最核心最有价值的工作其实是建立分析模型。因此,我建议企业用户在大数据平台建设上借助商用的大数据解决方案或有商业支持的开源技术,从而将更多的精力投入在商业模式上。”
民生证券技术总监 颜阳
在大数据的具体处理流程上,人文科技创始人吴朱华表示:“大数据的处理流程一般包括采集、导入、分析、挖掘四个阶段,每个阶段都有许多挑战。”
人文科技创始人 吴朱华