开发者俱乐部

标题: 聊聊数据可视化技术的一些常见误区 [打印本页]

作者: xman    时间: 2017-2-24 14:40
标题: 聊聊数据可视化技术的一些常见误区

  排雷啦~咱们聊聊可视化技术中的一些常见误区。
  所谓数据可视化是指把数据以图形动画及地图等形式呈现出来,这样既直观又美观,易于理解从而看出数据背后的问题。

  要做好数据可视化,需要两方面的能力。一方面是"艺术"能力,即知道什么样的数据用什么形式去表现最合适,该用柱形图时不能用饼图,颜色搭配也要合理,等等;另一方面是"技术"能力,设计好的呈现方案还要能真地做出来,并且要把成本控制在可接受范围内。这里我们不深入讨论"艺术"问题,来看看考察和选择可视化技术中的一些常见误区。
  误区:考察报表,挑可视化技术最好的?
  报表原则上也是一种可视化手段,大多数报表工具在很久以前都提供了统计图的功能,可算是可视化的初级阶段。用户自然会想到选购报表工具解决可视化需求,继而也会自然地认真考察备选产品的呈现效果,挑一个可视化技术最好的出来?
  这个想法对于大多数产品都是正确的,但在考察报表工具的可视化技术时却不是这样。
  确实,可视化技术的门槛不低,要做出炫丽的图形动画并不容易,地图呈现还需要事先准备大量数据。按说这种高门槛技术,各厂家产品一定会有明显的差异。但是,可视化领域有一批无私奉献的团队在免费提供开源图形包(含动画、地图等,当然也可能未必无私,只是咱不懂人家的赚钱模式,反正都不要钱、做得好、种类多),大家只要简单集成这些开源包就能拥有很好的可视化能力了。
  结果,产品的技术差异并不在报表工具上,而在这些开源包上。报表工具显然不会把自己憋死,一般都能集成所有常见的开源包。结果就是,集成了开源包的报表工具在可视化技术上没有差别!实在要比较报表工具在这方面的差别,也是比较数据规整和传递手段等集成方案,与可视化技术本身没多大关系。如果只是图形需求,那直接使用开源包即可。不过可视化呈现常常需要图表混合,而开源包的报表能力一般很弱甚至没有,并且要借助报表的格式和计算能力对原始数据做对齐整理,所以大部分情况下还是配合报表工具更好些,这时要对比的还是报表工具本身的能力。

  报表工具向可视化发展并不能树起新的技术门槛,门槛都在开源包那里。为了可视化能力而去购买某种报表工具也是花冤枉钱。还有些可视化产品使用自己的技术而不是开源包,但丰富程度与开源包没法比,功能还要更弱,再考虑到价格,更是不值。
  误区:厂商演示漂亮,我们就能漂亮?
  与上面类似的一种想法是:那家公司演示的可视化效果真好,买了他们产品后我们也能做出这种效果了?
  很多用户都会掉进这个坑里,买了某些产品后才发现自己并不能轻易地做出厂商演示的好效果。
  有时用户确实能明显感到某些厂家的演示效果比其它厂家要好很多。但如前所述,既然采用开源包的可视化产品的技术能力是一样的(不采用的,一般更弱一点),为什么还会有这样的现象呢?原因是:感官上的差别并不是技术能力造成的,而是开始提到的"艺术"能力,具体来讲就是行业知识和美术感觉的完美结合。几家著名国外产品的可视化效果都很好,就是因为其艺术能力超强。
  购买产品就能获得产品所附带的技术能力,但艺术能力却没那么简单,它需要有丰富经验的人根据现实情况来具体设计,这就变成一个服务而不是产品了。有些产品提供了模版能一定程度地把艺术能力传递出来,能适应有急迫需求的场景,但大多数情况还是要根据数据的行业特征和可视化的目标再设计并不断修改才能获得期望的好效果。把上面的话改成那家公司演示的可视化效果真好,请他们团队帮我们做就能有这种效果了!就靠谱多了。
  目前许多报表工具厂商也热衷于向可视化方向发展,结果也是这样。"技术"能力是开源包提供的,并不能构成门槛。想赢得用户获取收益,就只能靠"艺术"能力,商业路径没有问题,但"艺术"能力具有强烈的服务属性,没有办法通用,会迫使公司转型到服务型业务。
  误区:开源包太麻烦了,封装简化后就好了?
  开源包内容丰富、功能强大,但也概念复杂、参数众多,这意味着学习成本较高。一个普遍的想法是开源包用起来太麻烦了,有谁在外面封装一层简化一下就好了?
  对效果要求不高的情况是没有问题的,大部分集成了开源包的可视化产品(包括报表工具)也都会做简化封装以降低初次上手人员的学习门槛。但是,对于希望获得优秀效果的用户,那恐怕要失望了。
  换位思考一下就能明白,这些开源包的作者们当然很希望自己的产品被广泛应用,那自然也会努力把产品做得更易用,而且显然这群人非常专业,那为什么还要做得这么复杂呢?答案是没有办法,如果想控制得深入自由,那就必须有足够的参数才可以(目前的人工智能技术还没有达到自动替用户选定参数的水平),现在提交出来的已经是最好的结果了。试想一下,飞机的仪表盘和操控设备可能比汽车要多出十倍,但有哪个能省掉呢?

  所以,如果想随心所欲地做出炫丽效果,要充分利用开源包的功能,这个成本是省不掉的!其实这些开源包看起来复杂,实际上已经被作者们精心设计过的,学习成本并没有乍看起来那么高,对于有前端开发经验的程序员来说不难上手。当然这比直接使用封装后的模版还是要难,那就要掂量一下需求简单时是否还值得花钱来买这些模版了。
  误区:大数据可视化?
  大数据也是个热门词,把两个热门词结合起来的大数据可视化是个什么鬼?
  数据可视化,不管是服务还是产品,也不管门槛高或不高,都是实实在在的业务。但加了个大字后,就有很大可能性变成忽悠了。
  可视化的结果是要让人看的,而人类视力有生理极限,无论图形、表格、动画等形式,都不可能直接观察大数据(当然有人把几万条数据也称作大那就另当别论了)。大数据要经过后台处理变成小数据之后才能进入可视化环节去呈现,可视化阶段已经不必再处理也处理不了数据量大的问题了。有时大数据也指数据来源形式多样化,但即使这种大,也不是可视化环节去处理的,仍然是在后台数据准备阶段处理。所谓的大数据可视化是个伪技术!可视化是可视化,大数据是大数据,这两种技术没啥直接关系。
  不过,在业务上,大数据可视化是有意义的。从大量数据中如何选择或汇总出哪些最该呈现的内容来展示、怎样体现数据的多样化,这些都是学问。只是,这都是前述的"艺术"能力,与"技术"能力无关。
  听到厂商喊大数据可视化时,要区分出其卖点在于"艺术"还是"技术"。一般行业软件开发商属于前者,他们优势在于对行业的深刻理解,这是相对实在的;但大多数喊得凶的反而是后者,这些公司没什么行业经验,这么做只是为了博眼球。其实道理也简单:如果某个技术厂商能把大数据准备工作做好(即把大变小的过程),这本身就是一个难得的好产品了,根本用不着绑着可视化一起说话;而如果大数据技术不过关,不敢单独出来练,就会常常捆上可视化概念来引人注意了。天天喊大数据可视化技术的,可以直接鉴定成大忽悠。
  蒋步星,润乾软件创始人、首席科学家。
  清华大学计算机硕士,著有非线性报表模型原理等。
  1989年,中国首个国际奥林匹克数学竞赛团体冠军成员,个人金牌。
  2000年,创立润乾公司,首次在润乾报表中提出非线性报表模型,完美解决了中国式复杂报表制表难题,目前该模型已经成为报表行业的标准。
  2014年,不依赖关系型数据的计算引擎集算器正式发布。有效地提高了复杂结构化大数据计算的开发速度和运算效率。
  2016年,荣获中国电子信息产业发展研究院评选的"2016年中国软件和信息服务业十大领军人物"。
  他将在近期来到"清华大数据"讲座上,具体探讨数据库前沿技术,活动将于近期发布在"THU数据派"上,敬请期待!







欢迎光临 开发者俱乐部 (http://xodn.com/) Powered by Discuz! X3.2