新技术论坛
搜索
查看: 627|回复: 0
打印 上一主题 下一主题

王天青:麻袋理财大数据平台及金融风险控制实践案例分析

[复制链接]
  • TA的每日心情
    开心
    2016-12-9 18:18
  • 签到天数: 85 天

    连续签到: 1 天

    [LV.6]常住居民II

    扫一扫,手机访问本帖
    楼主
    跳转到指定楼层
    发表于 2016-5-5 08:48:22 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
      由51CTO举办的WOT"互联网+"时代大数据技术峰会上,来自上海市凯岸信息科技有限公司的麻袋理财首席架构师王天青做了以麻袋理财大数据平台及金融风险控制实践案例分析为主题的演讲。本文章是把本次分享干货亮点的整理成文字形式,呈献广大的用户:



      今天很高兴也很荣幸,能够在这里跟大家分享一下。我们公司成立的时间也不长,我们在大数据方向上做了一些实践,以及有一些简单的案例,今天拿出来跟大家做一个抛砖引玉。
      麻袋理财来自中信集团,主要是做互联网消费金融,其实它连接了两个P,一个P是借款人,另外一个P是出借人,有钱的人把钱借给缺钱的人,这中间有很大的学问。当然借款人也不一定是一个个人,也可能是一个企业。麻袋理财是我们线上理财的平台,CTCF是我们线下跟这些借款人打交道的公司。
      简单讲一下行业背景。P2P大家已经有所了解了,从2013年、2014年蛮荒时代,到今年已经逐步走向正规的时候了。现在人民银行会同银监会、证监会、保监会等10部委联合印发关于促进互联网金融健康发展的指导意见。其中有四条很重要,第一条是要鼓励创新,第二要防范风险,第三条要趋利避害,第四条是健康发展。
      互联网金融起步也有一定时间,防范风险是各个公司的命根子。比如像银行他们已经有很长的基础,有一定的品牌溢价。银行因为有政府背书,但是万一如果有一个互联网金融的公司出现网站打不开,大家第一个疑问就是是不是跑路了。

      我们跟业务部门同事的讨论,对行业的风险做了一个简单的分类。第一是信息安全,这跟传统的信息安全基本是类似的。第二是运营风险,第三是欺诈风险,第四是信用风险。
      从技术角度来看。第一个是数据种类,我们是想获得很多很多的数据,但是我们不是银行,要跟他们合作拿到的数据是非常少的。第二我们也是试图从各个渠道拿一些数据,但是这些数据之间的关联度是比较小的。再一个从数据的特质来讲,每一类的数据价值密度比较低,因为它并不是一个真正意义上的真性数据、贴名单数据,必须要综合利用。再一个是类型比较复杂,比如它有结构化的数据,数据库的方式,也有半结构化文本的方式。最后在数据分析上,需要你有些时候做实时分析、实时判断。
      讲到底我们说的大数据理念有三个V,一个是量非常大,第二是种类非常多,第三是速度很快,产生的数据量很大、很快。在大数据的生命周期里,第一步我们要获取更多的数据,这个数据可能是我们跟第三方合作拿到一部分数据,另一方面数据是用户提供给我们。第二个我们要把这些数据都存储起来,其实每一样的数据都会有历史版本的,包括用户的基本信息,这些数据我们都需要存储下来。第三个我们要利用数据挖掘算法,对这些数据做分析,矩列分析,关联分析等等。第四是优化,因为机器算法分析的结果并不一定有用,看看哪些东西是我们需要做调整的。最后是产生价值。
      麻袋理财有线上业务和线下业务,线上业务是在云上,线下业务是在IDC里面,我们用的这套虚拟化的平台,当然现在也用了docker。核心的数据都在我们的IDC里面,云上有一些应用访问的数据,都会到云上,最后同步到我们的IDC里面。
      针对实时数据,我们利用了卡夫卡和斯巴克这两个工具做这个工作。首先我们会收集所有的应用状态、性能。我们会把一些重要的关键数据,比如用户登陆的时间、用户提现的时间等做一个整理到卡夫卡这边。我们也用ERP做全文检索,最后实际的数据都放在HDMS上。
      我们在IDC里面部署了这个大数据的平台,底下是HBFS,做一些交互性的数据。

      数据分成外部数据和内部数据,外部数据就是用户提的账单数据,还有一部分社交数据,还有一些征信数据,这些数据最后汇总到HBFS里面。然后我们有内部的系统,内部系统包括信贷系统、账务系统、催收系统,都会有自己的数据库,这些数据定期的可以通过Saoop把数据同步到我们的HBFS里面。当然我们还会做一些数据的清洗和汇总。
      最后是有两大应用场景,第一种是做传统的DI,另一个是用Tez做一个报表的展现。上面我们做深度分析和挖掘,主要用一个SAS这个软件,另外我们也用R/Python做,Python有一个数据挖掘的库,我们会直接用它。最后得到这个结果形成可以被应用到业务系统的规则,来驱动业务系统的升级。这个大概是这么一个流程。HBFS承载了我们所有的数据,这个就是我们现在所说的实时分析和P处理、历史分析,都能支持的一个平台。
      最后所有做的事情是要解决三大哲学问题,你是谁,你来自什么地方,你要去哪里。
      总之,风险控制是互联网金融成败的必要条件,它不是充分条件,是一个必要条件。在互联网的背景下,数据呈现了多样化、海量、需要实时处理,一旦损失或者风险发生,就为时已晚,你必须要在风险发生之前做出判断。因此建立大数据平台是互联网金融必须的技术手段,用传统的方式达不到这个效果。


    高级模式
    B Color Image Link Quote Code Smilies

    本版积分规则

    手机版|Archiver|开发者俱乐部 ( ICP/ISP证:辽B-2-4-20110106号 IDC证:辽B-1-2-20070003号 )

    GMT+8, 2024-12-23 19:46 , Processed in 0.101020 second(s), 22 queries .

    X+ Open Developer Network (xodn.com)

    © 2009-2017 沈阳讯网网络科技有限公司

    快速回复 返回顶部 返回列表