一页纸说清楚“什么是大数据”

true · 发表于 2016-6-28 06:36:43

“大数据”（Big Data）是“数据化”趋势下的必然产物。数据化带来了两个重大的变化。一是数据量的爆炸性剧增，最近几年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。以前网上的3D模型非常少，而目前仅Shapeways这一个网站上的3D模型，就已突破了100万个。二是数据来源的多样化以及异构性，比如介绍某款手机产品的网页，既有文本、语音，还有视频、图像、3D模型等，从各个方面展示了该产品的特征，这种多源性也有助于滤除数据噪声、交叉验证。数据间是否具有结构性和关联性，是“大数据”与“大规模数据”的重要差别；“大数据”这一概念中包含着对数据对象的处理行为，即快速挖掘和展现其中蕴含着的有价值信息。

大数据的特点可总结为4个“V”——Volume（体量巨大）、Variety（类型多样）、Value（价值密度低，商业价值高）、Velocity（处理速度快）。牛津大学互联网研究所维克托·迈尔·舍恩伯格教授指出，“大数据”所代表的是当今网络社会所独有的一种新型能力──通过对海量数据进行分析，来获得有巨大价值的产品和服务或深刻的洞见。例如，你在网上买书时，网站根据你之前的购买记录快速推测你的阅读类型（比如你喜欢魔幻武侠小说），然后把当前最热门的3部魔幻武侠小说显示在网页最醒目的位置，以便激发你的购买欲。因此，可利用大数据对客户群进行细分，通过分析其既往行为，推测他们潜在的意图、习惯和计划，以实现精准营销。

大数据时代会颠覆许多传统思维，在哲学层面体现为“经验主义”比“理性主义”更多地被人们所采用。以前人们总在探寻问题的因果：事物为什么会这样？但现在，人们更关心结论。比如，从大量数据分析得出冬天第一场雪过后大白菜价格会涨大概两倍，那么商家会更乐意利用这个结论来关注天气预报并伺机囤积大白菜，而不会像专家那样坐在一起讨论为什么第一场冬雪后大白菜会涨价、为什么是涨两倍而不是涨3.2倍。大数据也意味着对效率的追求，而不是去过分追求数值上的精确。

专家的价值在于因果分析，而大数据却放弃对因果关系（Causality）的追求，仅关注相关关系（Correlation）。也就是说，只需要知道“是什么”，而不需要知道“为什么”。这种变化已经远远突破了技术层面，将对人类认识世界的哲学观产生重大影响。因果关系只是相关关系中特殊的一种，大数据告诉我们很多情况下只要关注相关关系以做出预测就够了。另一种可能的解释是，数据是不会骗人的，而人（即使是专家）的见解往往是主观和偏见的。当然，我们并不是说逻辑性的因果关系不重要，而是我们一开始往往会迷失在纷乱繁杂的数据海洋中、毫无头绪，所以这时就可首先想办法获得统计意义上的相关关系，然后再考虑从中提取出逻辑性的因果关系。这其实很好理解：当我们对数据无法直接获得可解释性时，那就试着先观察出这些数据的统计规律性（“是什么”），然后再针对这些规律进行解释（“为什么”）。

大数据还有一个巨大的优势是，可利用通用的的统计学模型代替各种各样的专家系统，“以不变应万变”。例如，基于大数据（包罗万象的语料数据），Google的翻译算法可统一实现几十种语言（英语、汉语、法语、韩语、拉丁语等等）的互译，而无须针对每种语言定制专门的语法专家系统。IBM 公司的 Fred Jelinek院士是利用大数据进行统计语音识别与合成的著名学者，他曾说过一句著名的论点：“每当我解雇一个语言学家，语音识别系统的性能就会改善一些”。

大数据是网络社会在掌握海量数据收集、存储和处理技术基础上所产生的一种进行判断和预测的能力。专家往往希望归纳出一个模型，而在大数据时代，数据直接自己“说话”，变得比模型更重要，因为再复杂的模型也无法包罗万象。而当数据“大”（多）到能对几乎整个样本空间进行充分覆盖时，就可以减弱对理论和模型的依赖，不再需要通过模型去经历“从特殊归纳（Induce）到一般，再从一般演绎（Deduce）到特殊”的传统流程，而是利用大数据去直接实现“从特殊到特殊”的判断和预测（这种直接的方式也被称为转导，Transduce），因为大数据中已经包含了足够多的“特殊”样本以供参考。换言之，此时数据本身便是模型，也即大数据可实现全样而非抽样（现实中要获得代表真实情况的抽样非常难，比如可能会因为抽样不够全面而遭遇“黑天鹅事件”）。

大数据将给整个社会带来从生活到思维上革命性的变化：人们所接受的服务，将以数字化和个性化的方式呈现，借助3D打印技术和智能数字化，零售业和医疗业也将实现数字化和个性化的服务。

扩展：除了大数据，还有所谓的小数据（iData）。小数据跟大数据的根本区别在于：小数据以单个人（个体）为唯一对象，重点在于深度，即像一位忠诚细致的“个人管家”那样对个人数据进行全方位、全天候地深入精确分析，同时还可主动灵活地设置各种外界访问权限以保护个人隐私；而大数据则侧重在某个领域（群体），大范围、大规模地进行数据的全面收集处理分析，侧重点在于广度。
目前，Hadoop是最为流行的大数据处理平台，是一个开源的、可运行于大规模集群上的分布式并行编程框架，由分布式文件系统（如HDFS）、数据库（如HBase，属于NoSQL类型的数据库）、数据处理模块（如分布式编程模型MapReduce）等组成。借助于Hadoop，程序员可以轻松地编写分布式并行程序，将其运行于大规模集群上，从而完成大数据的计算。除了Hadoop，此外还有另一个高效的分布式并行计算系统Spark，通用性更好、迭代运算效率更高、容错能力更强，目前其发展势头正逐渐盖过Hadoop。
扩展：数据挖掘不仅与统计学习有关，而且与信息论紧密相关。所谓信息，根据信息论创始人香农（Claude Elwood Shannon）的说法：“凡是在一种情况下能减少不确定性的任何事物都叫做信息”。在信息论中，使用信息熵（Entropy、Shannon Entropy，简称：熵）来评估信息量的大小，即不确定性的度量：

通过上式可以看出信息熵被定义为信息（

）的期望值，单位为比特（bit）。事件的不确定性越大，则信息熵就越大（也即把它搞清楚所需的信息量就越大）。比如，“人咬狗”相比于“狗咬人”是小概率事件，可能性小，不确定性大，因此熵更大。
条件熵（Conditional Entropy）的定义：

可证明

，也即如果增加了（与X相关的）Y的信息，X的不确定性下降了。类似地，还有

。

那么，X与Y到底有多相关呢？我们可通过互信息（Mutual Information）来量化地度量“相关性”：

比如，“计算机”和“鼠标”这两个词的互信息就比“计算机”和“牙刷”的互信息更大，因为前者更相关。
相对熵（Relative Entropy），又叫KL距离（Kullback-Leibler Divergence，KL散度）、信息增益（Information Gain）、信息散度（Information Divergence）：

不同于前面的熵和互信息（它们衡量的是随机变量的关系），相对熵衡量的是两个概率分布函数的差异程度。

		自动登录	找回密码
密码			立即注册