IT业界普遍认为大数据具有4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)。大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据可视化4个阶段。
数据采集
数据采集是大数据处理流程中最基础的一步,根据分析应用的需求,制定所需采集的数据的格式规范,并按照格式要求从各个数据源中抽取所需的数据。
数据处理与集成
数据的处理与集成主要是完成对已经采集到的数据进行适当的清洗去噪、检验以及进一步的集成存储。
数据分析
数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在。
经过上一步骤数据的处理与集成后,所得的数据便成为数据分析的原始数据,根据所需数据的应用需求对数据进行进一步的处理和分析,数据处理分析方法有数据挖掘、机器学习、数理统计、人工智能算法等。
数据可视化
数据可视化(Data Visualization)技术是指运用计算机图形学和图像处理技术,将数据转换为图形和图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。由于图形化的方式比文字更容易被用户理解和接受,数据可视化就是借助人脑的视觉思维能力,将抽象的数据表现成为可见的图形或图像,帮助人们发现数据中隐藏的内在规律。