概念特征
随着“云计算”、“互联网”、“物联网”的快速发展,大数据也吸引了越来越多的关注,成为社会热点之一。从2001 年“大数据”一词在Gartner的研究报告出现至今,业内对“大数据”一词的定义仍未统一。Gartner 给出了这样的定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所对“大数据”给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
业界通常用4个V(即Volume、Velocity、Variety、Value)来概括大数据的特征。

1、海量的数据规模(Volume)数据量大,存储单位从GB到TB,直至PB、EB。随着信息技术的高速发展,数据开始爆发性增长,社交网络(微博、推特、脸书等)、移动网络、各种智能终端等,都成为数据的来源。
2、快速的数据流转(Velocity)大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷。大数据对处理数据的响应速度有非常严格的要求,要求快速响应,市场变化快,实时分析而非批量分析,数据输入、处理与丢弃立刻见效。数据的增长速度和处理速度是大数据高速性的重要体现。
3、多样的数据类型(Variety)不同的数据源,非结构化数据如视频、图片、音频等,其特点是数据间没有因果关系;以及半结构化数据如HTML文档、邮件、网页等,其特点是数据问的因果关系弱。这种类型的数据将会越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。
4、价值密度低(Value)价值密度的高低与数据总量的大小成反比。由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
大数据产业链包括一切与大数据的产生与集聚(数据源)、组织与管理(存储)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。大数据产业链按照数据价值实现流程,包括数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层等六大层级,每一层都包含相应的IT 硬件设施、软件技术与信息服务等。

1、数据源
数据源是大数据产业链的第一个环节,是大数据产业发展的基础。目前数据源主要集中在政府管理部门、互联网巨头、移动通讯企业等手中,具体有政府数据源提供商、行业数据源提供商、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、第三方数据服务企业等等。
2、大数据硬件支撑层
大数据硬件是指数据产生、采集、传输、存储、计算等一系列与大数据产业链相关的硬件设备。包含传感器、移动智能终端、各种有线/无线传输设备、存储设备、服务器、网络/安全设备等。国内目前缺少面向大数据的成熟系统,参与者多是正在试图转型的传统IT 厂商,如华为、浪潮、联想、曙光等公司。
3、大数据技术层
大数据技术层是指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段,是大数据价值实现的重要条件。
4、大数据交易层
大数据交易层细分主要包括大数据资产评估、大数据指数、大数据定价、大数据交易、数据撮合、大数据基金、大数据信托、大数据期货、大数据融资、大数据确权、大数据托管、大数据全生命周期管理、大数据交易标准等等。
5、大数据应用层
大数据的价值最终体现在大数据的应用上,大数据应用层是大数据价值最大化一个环节。整体而言,全球的大数据应用处于发展初期,中国大数据应用才刚刚起步。目前,大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,政府、金融、电信、交通、医疗等领域积极尝试大数据,其中政府、金融会在近几年呈现爆发式增长。
6、大数据衍生层
大数据衍生层是指基于大数据分析和应用而衍生出来的各种新业态。大数据产业链衍生层目前主要包含互联网理财、互联网基金、大数据金融、大数据咨询、大数据标准、大数据知识库、大数据双创平台等等。
我国大数据产业集聚区位于京津冀、珠三角、长三角等经济比较发达的地区。这些地区的信息技术产业基础良好,已经形成了较完备的产业链,产业规模也在不断扩大,吸纳了全国比较优秀的信息技术人才,为相关企业向大数据产业迅速转型奠定了良好基础。同时,在这些地区也涌现出很多初创公司加入到数据存储和数据分析的开发和研究中来。
此外,以贵州、重庆、武汉为中心的大数据产业圈,通过政府推动大数据产业发展的政策引导,区域积极引进大数据产业相关企业,力图占领大数据产业制高点,带动区域经济快速发展。
我国大数据产业圈区域分布

1、京津冀地区
依托北京,尤其是中关村在信息产业的领先优势,培育了一大批大数据企业,并将集聚势能扩散到天津和河北等地,形成了京津冀大数据走廊格局。中关村作为中国的“硅谷”,是中国互联网发展的引擎。在“京津冀”大数据产业一体化发展的背景下,已经形成了“中关村技术研发——天津装备制造——张家口、承德数据存储”这样分工合理、协同发展的大数据走廊发展模式。
2、珠三角地区
依托广州、深圳等地区的电子信息产业优势,发挥广州和深圳两个国家超级计算中心的集聚作用,在腾讯、华为、中兴等一批骨干企业的带动下,珠三角地区逐渐形成了大数据集聚发展的趋势。广东省培育了一批实力较强的大数据创新企业,呈现出“广深引领、珠三角集聚、粤北东西紧随”的发展态势。
3、长江三角洲地区
长三角地区将大数据与当地智慧城市、云计算发展紧密结合,吸引了大批大数据企业,促进了产业发展。上海发布《上海推进大数据研究与发展三年行动计划》;南京依托智慧城市建设,推动大数据在城市管理和民生服务领域应用。在杭州,既有以“阿里云”为代表的云服务基础设施提供商,又有以华为为代表的云工程和云服务提供商,还有海量的云应用企业,云产业链日渐清晰。
4、中西部地区
中西部地区通过积极吸引国内外龙头骨干企业,实现大数据产业的“弯道超越”。重庆发布《重庆市大数据行动纲要》,积极引进国内外行业巨头;武汉于2015 年成立了华中地区首家大数据交易所-长江大数据交易所;西安计划在未来5 年建成西部最大的互联网大数据中心。2013 年起,贵州市率先把握大数据发展机遇,将大数据产业视为经济“弯道超车”的重要砝码,成为了我国大数据产业创新试验区,并率先成立大数据公共平台、大数据应用展示中心、大数据交易所和大数据战略重点实验室,建成了贵阳高新区,聚集戴尔、博科等700 多家大数据相关企业。