新技术论坛
搜索
查看: 818|回复: 0
打印 上一主题 下一主题

大数据中的反欺诈,平台与羊毛党的攻防恶战

[复制链接]
  • TA的每日心情
    开心
    2016-12-9 18:18
  • 签到天数: 85 天

    连续签到: 1 天

    [LV.6]常住居民II

    扫一扫,手机访问本帖
    楼主
    跳转到指定楼层
    发表于 2017-1-10 20:15:12 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式


      新的2017年,大家鸡年快乐
      有句古话,有人的地方就有江湖,是江湖就会有争斗。对于互联网金融平台来说,有实惠的活动中必定有这样一群人出现,大家戏称他们为"羊毛党"。他们是这个时代的产物,也伴随着P2P网贷行业的发展,可是人心不足蛇吞象,猖獗的薅羊毛行为让很多平台开始警惕了这个群体,随着薅羊毛技术的迭代更新,大数据技术也在发展,一场攻防恶战正悄无声息的进行着。
      新的一年,整个大数据圈子,铺天盖地全是AI技术的发展,大家可谓是悲喜交加。

      它好像一条狗
      一方面情绪高涨,欢呼着新时代的来临。一方面惆怅不安,对自己的未来感到迷茫。
      不管如何,大数据技术正在彰显着它的价值,你关心或忽视,它也的确来了。
      而我们能做的,就是勇敢去面对,用大数据技术去服务于生活,应用于业务,甚至是用技术改革去与羊毛党展开一场正面的较量。
      一. 羊毛党与平台的难舍难分
      羊毛党起源于互联网金融的P2P平台,是指那些专门选择互联网渠道的优惠促销活动,以低成本甚至零成本换取物质上实惠的人,而这一切的行为称之为薅羊毛。

      来自于百度百科
      在这个充满争议的群体身上,具有很多标识性的特征。

      羊毛党群体的特点
      都说知己知彼,方能百战不殆。可即使很多平台都熟悉了羊毛党群体的套路,但每次遇到正规军团伙,还是节节败退下来,惨不忍睹。
      羊毛党有很多神奇的物种:个人、家庭、同事、朋友、技术团队、专业团伙等等。

      薅羊毛
      但是对于平台而言,重点打击的是以薅羊毛来养家糊口,甚至是发家致富,不折手段套取平台活动福利的羊毛党团伙。
      可谓是魔高一尺,伴随着科技的发展,羊毛党薅羊毛的技术手段也在不断迭代,从最初的游击战,发展到最后的正规军,越来越多的薅羊毛方法去规避平台的监控。
      有购买大量SIM卡来进行注册账号
      有购买大量低品牌待机手机进行登录,甚至不断抹机来消除记录
      通过网上购买大量银行卡信息进行实名认证
      使用猫池设备伪造登录信息
      通过代理商修改地理位置和IP地址
      ......

      来自于淘宝的猫池设备
      很多变幻莫测的方法,这也是国人如此厉害的一面,不断的寻找漏洞去获利,去碾压平台运营人员的智商。
      当然,羊毛党对于平台而言,也有一定的好处,藕断丝连。平台也需要活跃度、用户规模量、总投资额不断突破目标。这些都是平台实力和知名度的体现,也是融资上市的底气。
      可利和弊这个平衡点如何去把控,谁都没底,没人想大意失荆州。
      对于羊毛党,在一个又一个平台薅羊毛的结局,无非就是这么几种,可谓是惊心动魄。
      成功薅到羊毛,离开平台
      被监控异常,冻结资金,需要征信
      反被平台套住
      转换为平台忠实投资用户

      被套住的羊毛党
      最后一种结局应该是最完美的,当然,这里面最受益的还是平台自身。
      二. 大多数平台的攻防大战
      长期以来,恶意羊毛团伙对平台的活动运营成本损失很大,甚至导致平台直接被薅干,宣布提现困难,资金链断裂。

      可谓是四面楚歌
      放眼于国内P2P市场,羊毛党监控一直是十分头疼的问题,大多数平台都会选择这两条路:
      借助于第三方接口服务来做一些离线场景下的黑名单监测,比如中国移动养卡库和通付盾黑名单
      也有平台直接购买了第三方的安全产品去监控平台用户的异常行为,比如同盾科技。

      国内的反欺诈安全产品
      但使用起来效果并不佳,有些说不定只是噱头,平台买了也没用。
      思前想后,最根本的原因还是在于:很多平台把数据资产当作自己的隐私,缺乏数据共享意识去跨领域合作打击反欺诈团伙,不希望平台的核心数据脱离平台本身,这也就导致很多第三方监控产品能获取的用户数据极少,更别提监控效果。

      数据资产保护
      在没有平台用户全数据的整合分析下 (用户行为、交易和资金数据、以及用户个人信息),真正防范效果并不太显著,真实用户被误杀的概率会很大。
      借用理财运营朋友的一句话:宁可不撒网,一如既往,也不希望看到平台真实用户被无故伤害,各种投诉负面消息也会接踵而来。

      各种投诉报告消息
      当然,随着整个行业的良性发展和不断试错,很多平台越来越会玩转羊毛党群体,说直白些,就是反撸羊毛党。
      这些平台会通过设置一些活动的隐形规则、投资门槛和活动陷阱,尽最大努力去拉长羊毛党投资资金在平台上的周期时间,降低薅羊毛的整体收益。
      平台的这些狠招的确会让不少羊毛党呼天抢地,有苦说不出。
      但同时也给平台名声留下了不少诟病,各种投诉举报,多少影响平台用户的忠诚度,毕竟有些羊毛党也有可能转换为平台的忠实投资用户,甚至也有真实用户被误伤。

      天平到底何时平衡?
      所以利和弊如何去平衡,没人有底。这也让一些平台不敢去重力度去开展很多新手理财活动和渠道推广活动,去向平台注入更多的新鲜血液,提高用户规模,从而导致平台发展停滞不前。
      三. 大数据中的反欺诈技术的攻防
      人人都谈大数据,也有不少人对它存在一定的误解,但不可否认,大数据生态圈的很多技术已经落地了,数据产品驱动于业务的时代已经逐渐来临。
      相对来说,真正业务场景的痛点,主要有三个面:实时性、精准性和行为干预。
      也就是说,实时精准地监控恶意羊毛党团伙的异常行为,并在产品流程中采取相应的防范措施,这是羊毛党监控真正要解决的痛点。
      而接下来就需要深度思考这几个问题:
      监控渠道的范围需要有哪些?
      监控事件的阶段需要有哪些?
      异常校验的流程会考虑哪些?
      对于监控渠道范围,主要会针对PC、Wap和APP这三个方面,完全囊括用户群体接触平台的所有方式。
      对于监控事件而言,会单独针对用户在平台投资流程中的显著性阶段,比如:注册、实名、绑卡、充值、投资和提现,以及后续的复投跟踪。
      对于异常校验的流程,一方面需要去考虑用户冷启动的问题(平台新用户),一方面需要更精准去识别恶意的羊毛党团伙。

      一份监控流程的草图
      毋庸置疑,整个反欺诈数据产品中,最核心的点就是实时监控和反欺诈模型。
      01.在实时场景上
      我们借助了Spark Streaming流式计算来进行处理。
      目前能保证用户触发监控事件后,整个反欺诈产品能在30秒内完成该用户的所有校验环节,最终评估用户是否为风险,以及异常详情的分析。

      数据源驱动
      02.在校验新用户时
      对于冷启动用户(没有任何资金和投资记录),整个反欺诈监控系统采用了第三方风险库、平台黑名单库和规则引擎进行综合校验评估。
      考虑到第三方风险校验是一个收费的服务,就比如说,拿平台用户的手机号去验证第三方接口,如果命中一次异常,则需要花费几块钱不到的服务费。
      所以说整个数据产品只会在用户注册阶段去验证一次第三方风险库,并对异常用户的数据和风险详情进行存储,服务于平台自身黑名单库的监督性学习机制。

      冷启动用户的校验机制
      03.在反欺诈监控模型上
      随着用户在平台上的行为不断积累,涉及用户的信息、资金数据、投资记录、推荐关系和用户行为会逐渐完善一个用户的完整模样。
      到这时候,整个反欺诈监控模型的效果也将开始发力。
      对于模型而言,它能解决的痛点,我在以往的文章中有提到一些细节。
      还是那句话:好的业务模型不单单只是一个算法而已,它是由多个算法和业务运营规则来组合在一起的。
      对于其中一个用户细分模型,除了去判断用户是否为羊毛党,还需要去识别该用户属于哪一种类别的羊毛党群体。
      在判别出用户属于哪一类型的羊毛党后。
      最后还需要结合业务运营的弹性因子,去综合评估用户的风险,最大可能去挖掘出异常用户群体中的潜力用户,这是整个用户细分模型所在做的事。

      关系网络的demo
      上图是用户细分模型中的一个环节,对于用户的关系维度,有很多强关系、中关系和弱关系的指标。
      在挖掘用户在整个平台的关系时,模型可以横向扩展很多分析维度,从而更全面去挖掘出用户的整个关系网络。
      举个例子,两个人都使用同一个身份证,那这两个人基本上可以归并为同一个用户。而两个人都使用过同一个手机设备,至少可以分析出这两个人算是认识,可能是朋友等等。

      模型跑出来一个结果
      我也看过很多大数据平台在借款端的业务场景也使用过这种分析思想。
      但中肯来说,结合业务分析用户的特点,理财反欺诈和借贷反欺诈肯定有很多不一样,而这种关系网络的分析思想最合适用的场景还是针对于理财投资这块。
      而整个关系网络的分析,困难点还是在于四个点:
      大数据下的清洗
      分析的时间窗口选择
      关系维度的选取
      权重信息熵的平衡
      所有的这些点都决定了整个关系网络的挖掘效果好与坏。这也是精准分析用户异常的一个核心要素。
      04.反欺诈产品的效果跟踪
      在后期,我们对双11活动当天,推广渠道带来的用户数据进行了细分场景的监控评估,总共3.6w个用户,分三个阶段进行分析。
      误杀的参考依据:根据用户是否在后期发次复购行为(这里设定达到3次)来评估效果。

      用户投资场景的细分
      最后,通过整个反欺诈监控系统的重重校验,最终确定活动当天的风险用户有760个(已去重)。
      根据后续两个月内的用户投资行为跟踪,存在3个不到的用户进行复购行为。
      也就是说误杀率控制在不到0.3%,这效果显然是能够让业务运营方感到满意,在监控率和误杀率上得到了平衡。
      长路漫漫,羊毛党与平台的攻防大战才正式开始。
      新的2017年,随着整个反欺诈产品的不断迭代和模型调优,还会融入产品流程环节,去对风险用户进行真正的干预和征信环节。
      我们所做的这一些,一方面保护真正投资人的利益。一方面对恶意羊毛党团伙的对抗绝不退缩。仅此而已!
      作者介绍
      汪榕,3年场景建模经验,曾累计获得8次数学建模一等奖,包括全国大学生国家一等奖,在国内期刊发表过相关学术研究。两年电商数据挖掘实践,负责开发精准营销产品中的用户标签体系。发表过数据挖掘相关的多篇文章。目前在互联网金融行业从事数据挖掘工作,参与开发反欺诈实时监控系统。微博:乐平汪二。


    高级模式
    B Color Image Link Quote Code Smilies

    本版积分规则

    手机版|Archiver|开发者俱乐部 ( ICP/ISP证:辽B-2-4-20110106号 IDC证:辽B-1-2-20070003号 )

    GMT+8, 2024-12-23 00:04 , Processed in 0.122839 second(s), 22 queries .

    X+ Open Developer Network (xodn.com)

    © 2009-2017 沈阳讯网网络科技有限公司

    快速回复 返回顶部 返回列表