技术基础
大数据是云计算、物联网、移动互联网、智慧城市等新技术、新模式发展的产物,它具有数据量大、类型复杂、内容变化快的特征,蕴含广泛的应用价值和巨大的市场机会。
1、大数据采集与预处理技术
数据采集技术指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析、处理的过程。数据采集技术可分为3 大类:①系统日志采集方法。通过智能硬件、传感器、社交网络等数据载体的日常运维进行数据资源的采集。②网络数据采集方法。指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,并支持文件之间的自动关联。③其他数据采集方法。其他数据包括企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
大数据预处理技术,主要完成对已接收数据的辨析、抽取、清洗等操作。数据抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以将这些复杂的数据转化为单一的或者便于处理的类型,以达到快速分析处理的目的。数据清洗:对于大数据,并不全是有价值的,对于无价值的数据或干扰数据,需要通过过滤“去噪”进而提取出有效数据。
2、大数据存储管理技术
数据的海量化和快增长特征是大数据对存储技术提出的首要挑战。这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。但以往网络附着存储系统(NAS)和存储区域网络(SAN)等体系,存储和计算的物理设备分离,它们之间要通过网络接口连接,这导致在进行数据密集型计算(Data Intensive Computing)时I/O 容易成为瓶颈。同时,传统的单机文件系统(如NTFS)和网络文件系统(如NFS)要求一个文件系统的数据必须存储在一台物理机器上,且不提供数据冗余性,可扩展性、容错能力和并发读写能力难以满足大数据需求。
谷歌文件系统(GFS)和Hadoop 的分布式文件系统HDFS奠定了大数据存储技术的基础。与传统系统相比,GFS/HDFS 将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O 吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。
3、大数据分析挖掘技术
在人类全部数字化数据中,仅有非常小的一部分数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析(如排序)。占总量近60%的语音、图片、视频等非结构化数据还难以进行有效的分析。
大数据分析技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。
4、大数据可视化技术
数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
数据可视化技术主要是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术等。它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。
5、大数据安全技术
大数据安全是个很宽泛的领域,可以包括:大数据系统的安全,数据本身的安全(加密)以及隐私保护,大数据应用带来的安全和隐私问题,以及大数据技术应用于安全领域。
以 Hadoop 为代表的大数据系统早期主要处理公开领域的Web 数据,因此并没有在安全上着力,但近年来有了长足的进展,逐步加入了用户和服务鉴权(基于Kerberos),加入HDFS文件权限,对数据块的权限控制,对任务的授权,对网络上流动数据的加密以及DataNode内静态数据的加密等。Intel 的Project Rhino 做了很多有益的尝试。
数据安全首先是静态数据的安全,主要是访问权限控制;其次是动态数据的安全,主要是加密和动态审计能力。目前动态审计能力主要还是在企业内,表现为数据泄露防护技术,对重要数据进行分级、标识,实现跨平台(端点、移动设备、网络和存储系统)的统一管理。
现在的主流大数据使用安全技术包括:基于同态加密、支持SQL 的加密数据库,基于加密协议的多方安全计算,基于可信计算环境的多方安全计算,基于隐私保护的机器学习算法等。