TA的每日心情 | 开心 2016-10-18 06:23 |
---|
签到天数: 72 天 连续签到: 1 天 [LV.6]常住居民II 扫一扫,手机访问本帖
|
数据处理分支——数据精简
导读:数据处理、数据挖掘、数据分析、大数据处理、数据精简、大数据存储单位基础知识整理,欢迎收藏。
概述:一、数据处理基础知识;二、大数据时代数据处理分支——数据精简;三、附录:大数据存储单位(计算机存储单位)
01
数据处理基础知识;
data processing
数据是自然和生命的一种表示形式,记录了人类的行为,包括工作、生活和社会发展。数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据指数字、符号、字母和各种文字的集合。数据学(Dataology)和数据科学(Data Science)是关于数据的科学或者研究数据的科学,定义为:研究探索Cyberspace中数据界(data nature)奥秘的理论、方法和技术,研究的对象是数据界中的数据。数据科学有两个内涵:研究数据本身、科学研究的数据方法。
数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。数据处理应用到社会生产和社会生活各领域。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。常用处理软件离不开管理数据的文件、数据库系统等,大数据时代则离不开分布式文件系统和云计算。
1、数据处理软件:数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种程序设计语言及其编译程序,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。
2、数据处理方式:根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。数据处理主要有四种分类方式①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。
3、数据处理技术是用计算机收集、记录数据,经加工产生新的信息形式的技术,涉及的加工处理比一般的算术运算要广泛得多。数据处理比数据分析含义广,是对数据(包括数值的和非数值的)进行分析和加工的技术过程,包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。
数据处理系统已广泛地用于各种企业和事业,内容涉及薪金支付,票据收发、信贷和库存管理、生产调度、计划管理、销售分析等。它能产生操作报告、金融分析报告和统计报告等。数据处理技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信息处理业对这些资源进行整理和开发,借以推动信息化社会的发展。
4、计算机数据处理的8个方面:①数据采集:采集所需的信息。②数据转换:把信息转换成机器能够接收的形式。③数据分组:指定编码,按有关信息进行有效的分组。④数据组织:整理数据或用某些方法安排数据,以便进行处理。⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。⑦数据检索:按用户的要求找出有用的信息。⑧数据排序:把数据按一定要求排成次序。
5、数据处理过程:大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将数据脱机输入到穿孔卡片、穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。
6、数据处理工具:根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。在数据转换部分,有专业的ETL工具来帮助完成数据的提取、转换和加载,相应的工具有Informatica和开源的Kettle。在数据存储和计算部分,指的数据库和数据仓库等工具,有Oracle,DB2,MySQL等知名厂商,列式数据库在大数据的背景下发展也非常快。在数据可视化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。数据处理的软件有EXCEL MATLAB Origin等等,当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。
*大数据时代,需要可以解决大量数据、异构数据等多种问题带来的数据处理难题,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 Hadoop Distributed File System,HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
7、数据清洗:专业数据分析时,往往要有针对性的数据清洗,即把无关的数据、不重要的数据等处理掉。接着对数据进行相关分分类,进行分类划分之后,就可以根据具体的分析需求选择模式分析的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。数据处理与数据管理
8、数据处理与数据管理的区别:数据处理是从大量的原始数据抽取出有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,其过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导全过程。数据管理是指数据的收集整理、组织、存储、维护、检索、传送等操作,是数据处理业务的基本环节,而且是所有数据处理过程中必有得共同部分。数据处理中,通常计算比较简单,且数据处理业务中的加工计算因业务的不同而不同,需要根据业务的需要来编写应用程序加以解决。而数据管理则比较复杂,由于可利用的数据呈爆炸性增长,且数据的种类繁杂,从数据管理角度而言,不仅要使用数据,而且要有效地管理数据。因此需要一个通用的、使用方便且高效的管理软件,把数据有效地管理起来。数据处理与数据管理是相联系的,数据管理技术的优劣将对数据处理的效率产生直接影响。而数据库技术就是针对该需求目标进行研究并发展和完善起来的计算机应用的一个分支。
9、大数据(外文名big data, mega data,别称Data Mining)
研究机构Gartner定义:指可承受时间范围内不能用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
维克托·迈尔-舍恩伯格及肯尼斯·库克耶2008年8月中旬编写的《大数据时代》中提出,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
10、大数据常说的v4特点:大量、高速、多样、价值,适用领域范围:BI,工业4.0,云计算,物联网,互联网+,人工智能等,应用学科有:计算机(最新),信息科学,统计学(最早),经济学(较早)。IBM大数据5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性)。(李清泉,李德仁.大数据GIS.湖北武汉:武汉大学出版社,2014.6:39卷第六期)
11、大数据分析基础:1)数据挖掘算法:大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。2)大数据预测性分析:大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。3)语义引擎:非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。4)数据质量和数据管理:大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。5)可视化分析:大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
12、大数据处理技术:整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。
1)大数据处理之采集:大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。
2)大数据处理之导入/预处理:虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3)大数据处理之统计/分析:统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4)大数据处理之挖掘:与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
02
大数据时代数据处理分支
——数据精简
数据资产成为和土地、资本、人力并驾齐驱的关键生产要素,而大数据在社会、经济、科学研究等方面正以前所未有的速度,颠覆人们探索世界的方法、驱动产业间的融合与分立。信息社会里数据无处不在,多到个人无法有效存取、处理、获取,时代需要数据精简,希望大家重视每一个领域的数据精简。数据精简用一句话来说就是:数据量越来越大,必须从事后做挖掘分析,变为事先事中做数据精简。
互联网、大数据、物联网、人工智能时代即将普及各种数字设备、智能设备、电子信息设备、车联网、物联网设备,人类以前所未有的速度和规模产生数据、信息和知识。信息世界数据的数量和维度越来越多,我们必须采用数据技术手段获取所需信息,简单的诸如:信息分类目录、分媒体和媒介、分实效性、分受众、做物理存放归类等等,复杂的信息往往也是采用很复杂的数据形式在存储和使用。计算机网络和信息设备的快速发展,产生的海量数据存在于各类服务器、媒介、机构,使用者需要采取不同的办法去寻找、加工数据才可以获得所需信息,比如采用数据挖掘、数据图形化、知识图谱、数据升降维度、数据拟合、数据场景模等。在工业生产中,涉及从数据中提取信息的行业,还在以数据挖掘分析为主要方法。
我们即将进入大数据时代,技术上处于数据挖掘分析阶段,尚未达到数据精简阶段。未来信息数据量进一步爆炸,数量和维度激增,这种事后挖掘分析处理的办法就到了瓶颈。数据技术必须继续前进才可以服务于人。未来的数据存储和处理,必定是信息全生命周期加工使用前和事中,就对数据做出处理,而这种处理是以数据精简为目标导向的。国内数据精简方面的研究和应用还没起步,国外虽然有人在研究也是数量不多。未来是一个数据精简的时代!
大数据时代的信息和数字产品,都有过量花哨的功能与可选项,令人无所适从。数据精简就是把有意义的留下,没用的直接去掉。现实中很多实体企业因精简产品取得举世瞩目的成功、品牌家喻户晓,如谷歌极简的搜索首页、“一键下单”功能的电子购物网站亚马逊、精简外形设计和扁平化体验的苹果iPod、iPhone、iPad、简约设计和外形的宜家家具。消费者愿为更简单直接、节约时间的体验支付更高的价格,使得成本类似的产品产出较高溢价,而非依靠垄断、区域保护、包装和广告等低俗竞争手段取得收益。信息和数据领域即将发生类似情景。
信息时代的生活,各种垃圾信息、庸俗信息、有害信息、虚假信息等遍地横流,严重影响高价值人类社会信息的传递,增加了每个人的信息负担,浪费了不必要的时间和社会成本。各种数字设备、智能设备、电子信息设备、车联网设备、物联网设备普及后,产生的海量信息和数据无时无刻都在存储、传播,形成巨大的成本和时间空间的压力。为了必须做数据精简!
而达成数据精简目标,要为数据精简做铺垫:数据产业数据资源和应用的现状、行业数据应用流程和数据储存分析现状、信息与数据分析、数据领域专家研究领域介绍、数据标准化(结构化数据库、非结构化的网络及非数据文本数据)、全景数据库的精简技术、小数据和大数据关联重合精简等数据科学研究方面。只有做好数据精简的基础,摸清数据现状、夯实精简基础,才有可能做信息和数据的精简。
秦陇纪希望提前进入信息精简领域研究、早日推出数据精简产品服务,降低信息、知识和数据爆炸带来的负面影响。大道至简,至简至丰。希望相关研究者和产业家,共同为数据精简学术和科研做贡献,使国人尽快提高人类信息管理能力。信息精简大有可为,前景诱人!
03
附录:
大数据存储单位(计算机存储单位)
计算机存储最小的基本单位是bit,按顺序给出所有计量单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) = Binary Digit(bit这个词的来源)
8Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte(千字节)
1,000Kilobytes = 1 Megabyte(兆字节,简称“兆”)
1,000 Megabytes = 1 Gigabyte(吉字节,又称“千兆”)
1,000 Gigabytes = 1Terabyte(万亿字节,太字节)
1,000 Terabytes = 1 Petabyte(千万亿字节,拍字节)
1,000 Petabytes = 1 Exabyte(百亿亿字节,艾字节)
1,000Exabytes = 1 Zettabyte(十万亿亿字节,泽字节)
1,000 Zettabytes = 1 Yottabyte(一亿亿亿字节,尧字节)
1,000 Yottabytes = 1 Brontobyte(一千亿亿亿字节)
1,000 Brontobytes = 1 Geopbyte(没有翻译)
注:进制单位全称及译音 yotta [尧]它 Y. 10^21, zetta [泽]它 Z. 10^18, exa [艾]可萨 E. 10^15, peta [拍]它 P. 10^12, tera [太]拉 T. 10^9, giga [吉]咖 G. 10^6, mega [兆] M. 10^3 “兆”为百万级数量单位.(秦陇纪16科普版)
作者丨秦陇纪
|
|