innovate511的最新微博
不知道这是不是印证了若不是找工作也不会跟数据产品结梁子呢,呵呵!言归正传,数据产品这个词目前看起来还是来自职位描述,至于什么叫数据产品,大约业界还没有定论。
姑且引用老读悟的定义"数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式。它在用户的决策和行动过程中,可以充当信息的分析展示者和价值的使能者。从这个角度讲,搜索引擎、个性化推荐引擎显然也是数据产品。狭义范畴的数据产品,比如大家熟知的淘宝数据魔方、百度指数、电商的CRM平台、各种公司内部的数据决策支持系统等都是数据产品。"
搜索引擎、推荐引擎代表了当今数据挖掘领域最成功的商业案例,而魔方、指数、CRM等产品也是数据分析和决策的典型应用,因此老读悟的这个定义我还是相当认同的,或者更简单的说,凡是以数据价值驱动为核心的产品形式都是数据产品,说得更艺术一点, the art of turning data into product 。 方法论
这里主要探讨一下,如何设计或者评价数据产品?也就是方法论的问题。说到数据产品,不能不提一下数据分析和数据挖掘。常碰到某牛人对着报表鄙视的说这叫数据分析,根本算不上数据挖掘,但是在我的理解里,数据分析其实也是数据挖掘,只是一种浅层次但是非常简洁有效的数据挖掘形式而已,因此后文不再使用数据分析这个词,而是围绕数据挖掘来思考数据产品的本质。
Data Mining Techniques这本书里对数据挖掘的定义是:数据挖掘是一项探测大量数据以发现有意义的模式和规则的业务流程。"发现有意义的模式和规则"也就是我理解的价值驱动与业务目标,进一步的这些任务又可归纳为分类和预测、评估、关联规则、聚类、孤立点等,而为了解决上述任务所需要的方式方法则包括各种统计学模型、决策树、聚类算法、人工智能等等数学和计算机技术。
数据挖掘的方法论有很多种定义,有DMAIC模型,CRISP-DM模型,SEMMA模型等等,虽然细节不一,但是大体流程并无差异。我个人比较喜欢简洁的DMAIC模型,一个是因为Kaushik的经典Web Analytics2.0里遵循的思想便是这个,更重要的是它引入了循环控制的理念,而不是简单的线性流程。DMAIC模型包括:
Define定义需求,即把业务问题转化为数据挖掘问题
Measure 测量数据,即理解、收集并加工数据,做好准备
Analyze 分析建模 ,即构建模型、评估模型的过程
Improve 解决问题,即部署模型来解决目标问题
Control反馈控制,即评估结果重新开始循环,不断改进