大(dà)数据(jù)是指用现有的计(jì)算(suàn)机软(ruǎn)硬件设施(shī)难以采集、存(cún)储、管(guǎn)理、分析和使用(yòng)的超(chāo)大规模的数据集(jí)。大数据具有规(guī)模大、种类杂、快速化、价值密度(dù)低等(děng)特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一(yī)定要给一个标(biāo)准,那么10-100TB通常称为大数据的(de)门槛。
数(shù)据(jù)分(fèn)析是一(yī)个(gè)大的概念,理论上任何对数据(jù)进行计算、处理(lǐ)从而得出(chū)一(yī)些有意义的结论(lùn)的过程,都(dōu)叫数据分析(xī)。从数据本身的复(fù)杂程度、以及对数据进(jìn)行处(chù)理的复杂度(dù)和深度来看,可以把数据(jù)分析分为以下(xià)4个(gè)层(céng)次:数据(jù)统(tǒng)计,OLAP,数据挖掘,大(dà)数据。
大数据分析(xī)和数据(jù)分(fèn)析是有区别和(hé)联系的(de)。这里重点关注两者的(de)是技术要求、使(shǐ)用场(chǎng)景、业(yè)务范围等方(fāng)面的区(qū)别和联系。重点要区分(fèn)理论研究和实际应用两方(fāng)面区(qū)别和联系。
第一:在分析方法上两者并没有本质不同
数(shù)据(jù)分(fèn)析的核(hé)心工作是人(rén)对数据指标的分析、思考和解读(dú),人脑所能承载的数据量是极其(qí)有限的。所以,无论是“传统数据分析”,还是(shì)“大(dà)数据分析(xī)”,均需要将原(yuán)始数据按照(zhào)分析思路进(jìn)行统计处理,得到概要性(xìng)的统计结果供人(rén)分析。两者在这个(gè)过程中是类似的,区别只是原始数据量大小所导(dǎo)致处理方式(shì)的不同。
第(dì)二:在(zài)对统计学知识的使用重心上两(liǎng)者存在(zài)较(jiào)大的不同
传统数据(jù)分析”使用的知识(shí)主(zhǔ)要围绕“能否通(tōng)过少量的抽样数据来推测(cè)真(zhēn)实世(shì)界(jiè)”的主题(tí)展开。“大数据(jù)分析(xī)”主要是利用(yòng)各种类型的全量数据(不是抽样数据),设计统计方案,得到(dào)兼具(jù)细致(zhì)和置信的统(tǒng)计结论(lùn)。
第三:与(yǔ)机器学习模(mó)型的关系上,两者有着本质差别
“传统数据(jù)分析”在(zài)大部分时候,知识将(jiāng)机器(qì)学(xué)习(xí)模型(xíng)当黑盒工具来(lái)辅(fǔ)助分析数据。而“大数据分(fèn)析”,更多时(shí)候(hòu)是两者的紧密(mì)结(jié)合,大数据分析产出的(de)不仅是一份分析效果测评,后续基(jī)于此来升级产品。在大数据分析的场景中,数据分析往(wǎng)往是数据加墨的(de)前奏,数据建(jiàn)模是数据(jù)分析的(de)成果。