众安反欺诈成长背后那份价值千万的经验（二）

查看原文

其他

众安反欺诈成长背后那份价值千万的经验（二）

2017-05-18 众安反欺诈团队 众安数盟

↑ 点击上方“众安数盟”关注我们

本文导航

共1632字

1. 时效性与价值性的完美演绎

2.举个栗子

3.该如何实现

4.又该如何组合

5.应用效果分析

时效性与价值性的完美演绎

大数据有四大特征：数量大、种类多、时效性和价值性。数量大和种类多两大特征，上期的《接口应用》（请点击阅读原文查看）专题已有涉及，可以帮助解释反欺诈在外部数据应用中碰到的问题。至于时效性和价值性，在反欺诈场景尤其重要。欺诈风险发生时欺诈团伙往往一起集中发起申请，或集中在某个地区，或集中在某段时间；要及时识别这些特征需要系统能够实时或准实时地计算出结果，否则坏人就很可能突破防线获得巨额利益。另外，风险暴露以后，为查漏补缺，需要应用离线计算从已知的风险寻找蛛丝马迹，进行深入挖掘，发现有价值的风险特征。总而言之，实时计算对应时效性，可以防御批量攻击；离线计算对应价值性，可以通过更复杂的计算刻画在线无法刻画的特征，发现隐藏的风险，提升策略的绕过成本。

举个栗子

在展业过程中，常会碰到这样的问题，欺诈团伙在发现了新产品口子或探测到老产品的漏洞之后往往会发起批量持续的攻击。实时计算和离线计算，即在线和离线策略，又能各自发挥怎样的作用呢？

举个例子，某个经常游走在多个信贷产品间的团伙，8小时前申请了信用卡购买虚拟产品，1小时前申请了3C分期，现在又来申请大额现金贷。这个时候，离线计算应付这种短时间高发申请是困难的，而使用实时计算却可以很快地刻画该类高频多头借贷行为，输出有效拦截。除此之外，该团伙在3个月前曾在大额现金贷中出现严重逾期，这类时间长的风险特征，通过离线清洗来识别会是比较节约资源的做法。不难理解，实时计算可以识别短期内快速聚集的风险，而离线计算一方面可以汇集外部和内部各产品各平台的风险信息，打破信息孤岛实现共享，形成统一的风险策略；另一方面也可以作为实时计算的补充，配合实时逻辑实现连续的风险识别。

该如何实现

业内能够实现实时计算的框架很多，像Hadoop、Storm、Spark和Samza等等，还有不少在这些框架上的扩展衍生版本。这些框架在实时计算的能力上各有特点，有的处理时间更短时效性更高，有的处理量级更大吞吐量更大，有的支持SQL编程更易上手等等；在技术选型上，建议综合考虑各平台的优劣，结合企业自身技术储备和业务需要选择适合业务自身特征的可扩展架构。

离线计算的实现方式相对实时来说，技术门槛会较低，通常在数据仓库或集市中即可完成。数据仓库或集市的实现，银行、保险和业内公司都有技术积累，此处就不再赘述。值得一提的是，部分较复杂的计算需要进行循环和迭代，使用SQL很难实现，面对这种瓶颈可以基于特殊需求有针对性搭建独立服务器，并选择合适的语言和算法来实现。

又该如何组合

对反欺诈而言，有效组合实时计算与离线计算的最终目的是在有限的计算资源下对欺诈风险进行高效持久的识别和拦截。实时计算对计算资源消耗很大，当时间跨度长计算样本多算法复杂程度高的时候对系统压力是呈指数型增长，因此选择轻量算法配置合理量级是关键；离线计算依赖数据仓库和调度系统，在损失时效性的前提下可以承载量级更大，复杂程度更高的运算（如聚类算法、图算法等），从而补充实时计算的不足。通过离线算法产出风险标签，结合在线计算进行策略设计，是反欺诈工作的核心。

举个例子，对于一段时间内来自同一区域的大量高频申请，该如何刻画和拦截的呢？将问题拆解，首先，通过全量或增量聚类算法离线产出风险标识；然后就可以通过在线实时计算每个申请与风险区域的距离来识别和拦截这类攻击了。

应用效果分析

在现实场景中，在线策略与离线策略的效果如何呢？举一个真实的例子，在某产品上线后的第一个月，欺诈风险比例很高；在第二个月迭代了反欺诈离线策略，风险在后续的两个月内有明显下降，但由于策略时效性不足，风险仍然处于高位；当策略加入实时反欺诈策略后，欺诈风险得到有效控制，降低到可控水平。

在线与离线是大数据反欺诈的左膀和右臂，双臂展开才能在风险的钢丝上保持平衡。

下期预告

图算法（或者说知识图谱、复杂网络）在很多场景都显示了不俗的能力。例如：反洗钱模型、社交网络图谱和企业关系图谱等等，下期我们将聚焦图算法在反欺诈中的应用，介绍相关经验。

点击下方“阅读原文”查看上期《接口应用》

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言