概念特征
随着“云计算”、“互联网”、“物联网”的快速发展,大数据也吸引了越来越多的关注,成为社会热点之一。从2001 年“大数据”一词在Gartner的研究报告出现至今,业内对“大数据”一词的定义仍未统一。Gartner 给出了这样的定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所对“大数据”给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
业界通常用4个V(即Volume、Velocity、Variety、Value)来概括大数据的特征。
1、海量的数据规模(Volume)数据量大,存储单位从GB到TB,直至PB、EB。随着信息技术的高速发展,数据开始爆发性增长,社交网络(微博、推特、脸书等)、移动网络、各种智能终端等,都成为数据的来源。
2、快速的数据流转(Velocity)大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷。大数据对处理数据的响应速度有非常严格的要求,要求快速响应,市场变化快,实时分析而非批量分析,数据输入、处理与丢弃立刻见效。数据的增长速度和处理速度是大数据高速性的重要体现。
3、多样的数据类型(Variety)不同的数据源,非结构化数据如视频、图片、音频等,其特点是数据间没有因果关系;以及半结构化数据如HTML文档、邮件、网页等,其特点是数据问的因果关系弱。这种类型的数据将会越来越多,需要进行清洗,整理,筛选等操作,变为结构数据。
4、价值密度低(Value)价值密度的高低与数据总量的大小成反比。由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
大数据产业链包括一切与大数据的产生与集聚(数据源)、组织与管理(存储)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。大数据产业链按照数据价值实现流程,包括数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层等六大层级,每一层都包含相应的IT 硬件设施、软件技术与信息服务等。
1、数据源
数据源是大数据产业链的第一个环节,是大数据产业发展的基础。目前数据源主要集中在政府管理部门、互联网巨头、移动通讯企业等手中,具体有政府数据源提供商、行业数据源提供商、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、第三方数据服务企业等等。
2、大数据硬件支撑层
大数据硬件是指数据产生、采集、传输、存储、计算等一系列与大数据产业链相关的硬件设备。包含传感器、移动智能终端、各种有线/无线传输设备、存储设备、服务器、网络/安全设备等。国内目前缺少面向大数据的成熟系统,参与者多是正在试图转型的传统IT 厂商,如华为、浪潮、联想、曙光等公司。
3、大数据技术层
大数据技术层是指实现一切大数据采集与预处理、存储管理、大数据分析挖掘、大数据安全和大数据可视化的技术手段,是大数据价值实现的重要条件。
4、大数据交易层
大数据交易层细分主要包括大数据资产评估、大数据指数、大数据定价、大数据交易、数据撮合、大数据基金、大数据信托、大数据期货、大数据融资、大数据确权、大数据托管、大数据全生命周期管理、大数据交易标准等等。
5、大数据应用层
大数据的价值最终体现在大数据的应用上,大数据应用层是大数据价值最大化一个环节。整体而言,全球的大数据应用处于发展初期,中国大数据应用才刚刚起步。目前,大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,政府、金融、电信、交通、医疗等领域积极尝试大数据,其中政府、金融会在近几年呈现爆发式增长。
6、大数据衍生层
大数据衍生层是指基于大数据分析和应用而衍生出来的各种新业态。大数据产业链衍生层目前主要包含互联网理财、互联网基金、大数据金融、大数据咨询、大数据标准、大数据知识库、大数据双创平台等等。