66号学苑

其他

审批通过率突然下降应该如何应对

审批通过率和不良率是一对权衡指标,在新业务上线初期,维持一个较低的通过率可以保证最好的客群进去。随着业务规模做大和风控样本积累,此时需要在风险容忍度可接受范围内提升通过率,以保持收益的最大化。如果某一天风控通过率忽然降低,这种情况下策略分析人员应该如何应对?1.寻找通过率下降的时间点或时间段在风控策略稳定之后,审批通过率一般稳定在某一小范围内波动,当监控每日通过率指标时发现,T-1、T-2时点的通过率明显下降,我们应该先通过监控报表迅速定位到具体时间点或时间段。假设如上图示例1和2所示,明显发现2019.6.23和6.24授信通过率下降。Tip:上图示例通过率下降到6.9%、7.0%可以直接用肉眼分辨数据,但实际业务一般建议以通过率趋势图和PSI指标监控通过率下降。2.判断策略节点主次要拒绝影响发现通过率下降的时间点或时间段之后,下一步先聚焦到策略节点。本文为FALers举例两个策略节点A(准入)和B(规则)。以6月23日为时间节点划分,对比数据分析,寻找拒绝率的波动差。上图示例2中波动差按照B段A节点拒绝率-A段A节点拒绝率计算出来,以此类推。此时计算波动差仍然可以考虑加入PSI=(B-A)*LN(B/A)测算波动差,A节点的PSI为0.77%,B节点的PSI为0.01%。按照波动差确定通过率的下降主要因为A节点的拒绝率上升引起,从而将通过率下降的影响因素从策略A和B两个节点问题进一步聚焦到A节点上。3.从节点聚焦到节点规则层深度分析完成节点的聚焦分析,定位到引起通过率下降的主要原因节点A,接下来需要进一步分析节点A内包含的所有规则拒绝情况。与节点聚焦分析一致,寻找引起拒绝率上升的主次要拒绝规则。在规则层确定主次要影响因子时,分析方法不仅结合数据同时也参考业务场景。从上图示例4可以发现,按照波动差分析得出年龄准入拒绝和X3_准入拒绝是主要引起通过率下降的规则。4.具体规则分布分析从步骤3确定出年龄准入拒绝是第一位引起通过率下降的规则后,第四步就从规则层聚焦到具体策略规则的分布上。通过分析具体策略规则分布的波动差定位具体策略规则的某一分布,找出引起通过率下降的主要策略分布。从上图示例6可以发现,年龄准入拒绝这一策略规则中,18-25岁的分布拒绝率在时间A段和时间B段的波动差最大,这个年龄分布的拒绝率上升可能是引起整个审批通过率下降的主要规则分布。造成以上18-25岁年龄分布拒绝增加的原因,很常见的一种是进件客群发生了变化,针对客群发生突然变化的情况,如何将分析结果指导决策执行,是策略分析最后且最重要的一步。5.分析指导决策仍以上述案例为例,通过一系列聚焦分析发现,18-25岁的进件客群变化是引起整体通过率下降的核心因素。实际业务场景中,并不会因为此时通过率突降就进行策略规则的调整,更多的是通过聚焦分析后,结果进一步细分两个参照要素:进件渠道的进件量分布和最大进件渠道的年龄准入拒绝分布。5.1.进件渠道分布分析既然是客群的变化引起了整体审批通过率的下降,从进件的所有渠道数据中进行分布排序,定位到渠道进件量A段和B段都最大的一个进件渠道C。5.2.最大进件渠道的年龄准入拒绝分布通过进件渠道进件量分析,从众多进件渠道中定位到最大进件渠道C。此时分析主要拒绝规则-年龄准入拒绝的渠道C的分布情况,是否满足条件:B段与A段年龄18-25岁的波动变高。从上图示例8中分析发现,渠道C年龄在18-25岁的客群进件量在B段比A段上升明显,即从渠道进件前段业务确定出引起通过率降低的主要进件渠道C。至此,可以进行策略分析决策建议。5.3.决策建议将策略分析结果应用于前段业务指导和决策,提醒前端业务人员在渠道C可以适当缩紧18-25岁客群的进件需求,以此共同维护金融公司整体风控通过率,这才是风控策略分析工作者最终的使命和义务。来源|金科应用研院作者|Jackie
2019年6月26日
其他

模型评估指标

本文主要介绍python已有模块中模型评估指标的使用,主要有sklearn.metrics、scikitplot.skplt等方法,并且重点展示分类模型的常用的几个评估指标。载入数据加载breast-cancer数据集:#
2019年6月25日
其他

反欺诈概念库-信用卡反欺诈管理

2005年6月,美国爆出4000万张信用卡资料外泄的特大新闻。消息传来,舆论哗然。尽管我国只有数千个信用卡账户数据资料受波及,但一石激起千层浪,国内金融管理机构、各银行、信用卡持卡人等在采取应急措施避免损失的同时,对于信用卡的安全性、信用卡的反欺诈管理等也给予了高度的关注。本文将系统地介绍欧美信用卡行业欺诈的概况和种类,介绍其在长期的实践中摸索出来的反欺诈技术手段和经验,为中国信用卡行业的反欺诈管理提供参考。由于美国的信用卡行业的反欺诈历史较悠久,欺诈损失得到了较稳定的控制,而信用卡欺诈在英国正突出地表现出来,而且呈上升态势,与正在迅速发展中的中国信用卡行业具有较多的相似之处,所以本文主要以英国信用卡行业情况为例加以阐述。一、信用卡欺诈的概况图1是英国1995年至2004年信用卡行业的欺诈损失情况。我们可以看出,在过去的10年时间里,英国信用卡的欺诈损失额节节上升。这一方面是因为欺诈活动日益猖獗,欺诈作案日益团伙化、技术化;另一方面是发卡量和交易量大幅度增加的结果。2001~2003年欺诈损失得到了稳定控制,这是因为这几年间英国大部分银行推广使用了智能性反欺诈模型。2004年欺诈损失再度大幅度攀升近20%,这是因为有组织的欺诈团伙要在英国于2005年全面普及芯片卡和密码系统之前大肆进行了欺诈活动。1.信用卡欺诈的种类信用卡的欺诈包括身份信息被盗(identity
2019年6月20日
其他

机器学习:信用风险建模中的挑战,教训和机遇

机器学习如何服务信用风险?由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。
2019年6月19日
其他

干货|银行智能欺诈风险预测模型研究

近年来,伴随移动互联网、虚拟现实等技术的飞速发展,银行服务模式日趋多样化。在客户享受灵活便捷服务的同时,银行欺诈风险呈现出更加隐蔽、专业的特点,发展出更多的作案手法和表现形式。传统欺诈检测通常依赖专家规则、黑名单库等方法,已经不能适应新的欺诈挑战。银行亟需研究并应用先进的机器学习算法,以数据价值为驱动建立智能化的风险预测模型,以此作为欺诈风险防范的强力手段。一、银行反欺诈发展趋势国内外银行在传统反欺诈管理中主要依赖专家经验,通过人工方式制定检测规则,当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略。这种管理模式得出的反欺诈规则存在一定的局限性,不能枚举所有业务场景,无法对各类欺诈行为进行全面覆盖。与此对应,欺诈者会针对性的对已有规则进行回避,导致专家规则处于被动调整的位置,无法跟上欺诈手段的更新换代[1,
2019年6月18日
其他

原来评分卡模型的概率是这么校准的!

在建立评分卡模型的时候,往往建模样本的好坏比和实际情况是不一致的,这是因为:1.产品本身坏样本较少,为了提高评分模型的敏感程度,会对坏样本进行过抽样或者好样本进行欠抽样;2.
2019年5月29日
其他

差异化信用额度管理的“三板斧”

在金融行业发展度过野蛮阶段后,差异化定价和额度管理成为金融机构符合监管要求前提下是否可以最大化获利的核心竞争力。每个客户的消费规律不同、征信数据表现不同、借款需求和还款能力不同,因此初始额度能否足够引起客户兴趣,是一件非常重要且需要持续监控优化的事情;同时,额度也是决定借贷产品盈利能力的关键组成部分,它可以在风险损失不变(或可接受增幅)的前提下带动利润增长并提高客户的满意度。额度授予,包括初识额度、主动提额、被动提额、降额。从金融机构差异化信用额度管理角度考虑,我将讲解三种额度管理的方法,戏称“三板斧”。第一斧·进件规则型额度矩阵在初期没有很多数据验证的情况下,可以通过一些进件指标进行交叉生成额度矩阵,例如,以收入为单一规则进行额度授予,首先可以划定该产品预计发售的额度区间(例如额度为3000-10000),即可用一些收入指标分配额度给客户。举例说明,对于低收入客户授予3000额度,中收入客户授予5000额度,高收入客户授予1万额度。同样,对于高风险客户授予3000额度,中风险客户授予5000额度,低风险客户授予1万额度。最初的额度管理矩阵就产生了。第二斧·评分模型Cutoff+策略额度管理在数据产生一定的表现期后,评分卡已经开发上线,这个时期可以对一部分灰色客群运用评分卡的合理cutoff进行额度管理第一次优化。评分卡模型合理的cutoff应该联动地考虑一些量化指标。以FAL量化风控训练营审批策略课程的一个案例为例,通过一系列指标的联动分析,最终测算出不同分数段的累计净收益(逆向),再结合不同业务时期的损失与利润需要,制定好符合业务发展的Cutoff。评分模型找到合理的cutoff之后,结合调额策略进行额度管理。一般调额步骤包括筛选可调额客户、划分调额组和对照组、结合Vintage观察调额组和对照组资产逾期变化、调额策略回顾及优化调额策略。举个例子,初始筛选可调额客户的策略可以是:评分模型利润最大化cutoff分数段客户、历史未逾期客户、帐龄达到6个月、活跃月份占比超过80%、额度使用率超过85%、未办理过再分期业务。通过这些策略条件筛选出来的客群,划分80%为调额组、20%为对照组。通过观察调额后两组资产质量的变化、不断优化调额策略,不断剔除调额后逾期增加的客户,直至对照组和调额组的逾期一致,那样说明此时的调额策略是最优的,此时就可以按照调额策略进行额度管理的二次优化。第三斧·回归模型寻找最优Lamda第二斧通过不断的优化策略过程,可以逐渐找到最优的调额策略,实现差异化额度管理,是一种可行易用的额度管理办法。但这种办法一个缺点是策略试验周期久,需要有经验的策略专家制定高效的初始调额策略(有点像聚类算法里的初始种子),同时根据调额策略回顾不断优化,仍然有一些经验测试调额的感觉。第三斧是运用机器学习算法,最近邻居法,基于定价利润最大化的回归模型寻找出定价模型中Lamda的最优解,实现差异化额度管理的最大利润化。举个例子,大家都知道EL=PD*LGD*EAD,调整授信额度(EAD)后会引起EL的变化,但授信额度的变化与EL的变化不是线性关系的,此时就有调额后罚项因子的介入干预。罚项因子的公式为EXP(Max(LN(调整后人均授信/人均授信),0)*Lamda)),通过回归模型找到最优Lamda就成为第三斧的关键点。因为第三种方法过于复杂,需要对EL=PD*LGD*EAD这个定损模型有很深度的理解,文字难以表达这个调额的逻辑,所以本文不再过多介绍,在FAL量化风控训练营的定价课中有详细的课授案例解释。这就是我为大家分享的差异化额度管理的“三板斧”,大家有什么问题或者更好的管理办法,欢迎评论区留言。希望我的这篇原创分享可以对读者您有所启发。来源|金科应用研院作者|Jackie
2019年5月27日
其他

谈谈如何做好反欺诈工作

一、设立目标风险管理的目的是促进业务的健康发展,帮助企业获得利润,所以,在反欺诈目标的设立上,决不是将欺诈风险降到越低越好,而是需要综合平衡用户体验、产品收益等指标,将欺诈风险控制到可接受的范围内即可,避免意外风险的发生,做到产品收益最大化,而不是风险损失最小化。明确的反欺诈目标,有利于明确努力的方向,项目的优先级以及后续资源的调配,有节奏的提升反欺诈能力。反欺诈目标的设定,要遵循SMART原则,首先要做到目标具体,要对欺诈行为进行清晰的定义,这涉及到业务的边界及后续对目标进行拆分,需要做好对欺诈样本的打标签的工作,这部分工作的内容在这里不做展开。其次,设定的目标要做到可度量,可监控,可通过风险大盘,BI、报表工具等,对设定的目标进行监控,对应反馈比较快速的指标要做到实时监控(如报损率指标),对于表现相对延后的指标也要做到按日或按月监控(如欺诈造成的逾期率等指标)。第三,目标的设定要合理,最好能有公司现状或行业同类指标做参考,这样可以确保目标设定的合理性,合理目标的标准,即需要通过一定的付出努力的情况下可以实现,避免设立过高或过低的目标。同时可以根据资源投入等实际情况,规划好短期、中期和长期目标。第四,避免设定单一目标,要从系统化的角度出发,避免为实现单一目标,解决单一问题导致的其他问题,反欺诈本身其实一个平衡的艺术,即要关注用户体验、产品收益,又要避免公司预期之外的风险损失,所以,设定目标的时候也要考虑到相关的指标一起制定,如制定欺诈损失率的指标时,也要同时兼顾拦截率、人工审核率等指标。第五,遵从时效性原则,设置完成目标的明确的时间点,没有时效性的目标,难以考核,另外,时效性也有利于任务优先级的调整。同事可以避免拖延等问题,是效率更高。二、发现问题,并对问题零容忍第一,明确问题。首先要基于自身业务的理解,明确当前面临的最主要的是哪类欺诈问题,因为不同的问题有不同的解决方法,以信贷业务申请欺诈为例,根据欺诈主体的不同,可以分为本人欺诈、他人冒用身份欺诈和联合欺诈。如果是冒用他人身份欺诈是主要问题,通过引入活体识别技术是一种有效的手段,但如果是用户本人骗贷,通过活体几乎无法解决,因为就是用户本人在借贷。所以,首先要明确要解决的问题是什么,或者将要面临的问题是什么,对于新开展的业务,在缺乏历史经验积累的情况
2019年5月15日
其他

绝对干货!有关评分模型验证的7大问题

信用评分世界正处于一个困难的环境中,在这种环境中,贷款人被经济衰退迫使以非常保守的方式经营其业务。消费者以类似的方式处理信贷......然而,随着我国经济扶持力度不断加大,消费者已经调整,而许多贷方却没有。最明显的一个信贷类型就是小微企业信贷,引用我常说的一句:我国的小微信贷非贷给真正的小微。当然今天我们讨论的不是有关小微企业信贷,而是关于评分模型验证的7个问题。在最近的一次金融科技应用研究院(简称FAL)研究中发现,贷款人验证他们的信用评分模型对于解释经济衰退期间的消费者行为。与传统的评分模型相比,消费者的信誉度可能更高
2019年4月18日
其他

部署决策引擎的这几个技巧你知道吗?

一套完整的风控体系,在风控中,少不了决策引擎,今天就浅谈一下风控决策引擎。一、优先级风控决策引擎是一堆风控规则的集合,通过不同的分支、层层规则的递进关系进行运算。而既然是组合的概念,则在这些规则中,以什么样的顺序与优先级执行便额外重要。风控系统的作用在于识别绝对风控与标识相对风险,如果是绝对风控,则整套风控的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的风控规则,而主要单条触发“拒绝”即可停止剩余规则的校验。因为所有规则的运行,是需要大量的时间、金钱与性能成本的。所以,整套风控决策引擎的搭建设计思路,基于规则优先级运算的注意要点如下:1、自有规则优先于外部规则运行举例说明:自有本地的黑名单库优先于外部的黑名单数据源运行,如果触发自有本地的黑名单则风控结果可直接终止及输出“拒绝”结论。(可在客户准入条件中加入本地的内部数据,无成本,精准,实时)2、无成本或低成本的规则优先于高成本的规则运行举例说明:借款用户的身份特定不符合风控要求的,诸如低于18岁的用户,则可优先运行。而一些通过对接外部三方征信的风控规则,需支出相关查询费用的,则靠后运行。此外,在外部三方征信的规则中,命中式收费的风控规则(如黑名单与反欺诈)又可以优先于每次查询式收费的风控规则(如征信报告)运行。3、消耗低性能的规则优先于高性能消耗的规则运行举例说明:直接基于用户现有属性的数值,如当前用户的民族是否非少数民族,则可优先运行。而一些风控规则,需借助爬虫接口,且需待将爬取到的数据经过二次加工与汇合之后,再对汇合的总值进行判断,如手机运营商手机使用时长,则此类风控规则应后置运行。二、可调整风控的核心思路是基于大量真实的样本数据,将逾期用户的身份、行为与数据特征进行提炼,从概率学的角度上进行剔除,从而保障到剩余用户群的逾期概率处于一个相对较低的区间。而对数据的提炼与作用过程,将使用到“参数”的定义。“参数”决定了区间和上下限范围,一条风控规则通常作用于某一数据类型,依据此数值是否满足“参数”的定义范围,得出是否可通过风控的结论。由于风控最终还是数据“喂出来”的结果,风控的本质就是数据,而非主观臆断的设限,故而,随着数据样本与内容的不断发展,必然将会涉及到一些动态的调整,后期可能会发现原本设定的“参数”过于严谨而导致审核通过较低,或者是设定得过于宽松而导致逾期率较高等。所以,整个风控决策引擎的搭建设计思路,基于可调整与可维护的注意要点如下:1、非刚需与必要的风控规则,能够“开关化”举例说明:一些必要的风控规则,如用户的银行4要素验证是否一致性,这是必要规则,就无需可开关。而一些如校验用户的芝麻信用分是否高于500分,则可做成“开关”。待该规则上线后,可通过分析此项规则的触发率得出是否合理的判断。因为芝麻信用分是否可作为决策依据将主要取决于业务方向与用户群体,因为理论上芝麻信用分的高低主要与用户在芝麻信用体系内的数据绑定维度的多与少相关,并不一定绝对反映用户的信用程度。2、风控规则上的“参数”可调整与灵活配置举例说明:很多风控体系通常会加入对手机运营商的校验,所以有一些风控规则,诸如校验用户手机号的使用时间长度是否大于6个月。其中的“6个月”便是所定义的参数,此处最好可调整与配置。因为去验证用户的稳定性,是否用“6个月”,还是用“3个月”的长度更合适?具体合理的参数是需要通过数据分析的结论进行得出,如果由于定义“6个月”长度的要求而发现其他一些手机使用时长虽然短一些,并未与用户是否逾期形成直接必然因素,那么可将该参数放松调整到“3个月”。三、记录与统计风控最终到底是“跑出来”的,所以,整个风控系统对所有不同风控规则的触发需进行有效的记录与统计,以便后期可支持数据分析与风控模型调整的相关工作。具体的记录与统计内容,主要如下:1、触发的具体风控规则举例说明:通过两种不同的视角进行记录,一是用户与订单层面,记录其所触发的明细规则;二是风控规则层面,记录某条风控规则具体的触发率。例如接了多家三方征信的反欺诈服务,通过比对这几家的触发效果,将反欺诈触发率较高的风控规则可前置执行。2、风控规则所要求的“参数”举例说明:规则定义方向,参数定义标准。其中,包含相符的与不相符都要进行记录,即便此次风控规则并未触发,如果后期发现逾期率较高,则可通过反推此风控规则并结合逾期用户的数据特性,可判断是否需调整此“参数”。3、数据源内容举例说明:某些风控规则是通过二次数据解析与汇总进行的,但原始数据需要进行保存,诸如手机账单的通话明细数据,此部分数据一是可作为风控规则使用,二是未来可用作于催收与贷后管理。四、建模现金贷风控体系较简单。如果是固定额度与固定费率式的产品业务定价,则风控体系更多的是规则的集合。但若是有延伸的提额功能模块,与可根据用户前端不同的输入项数据,而输出与之相匹的不同的额度与费率的产品,则此时需要模型化。风控建模需借助于函数的定义,此外也可以借助评分卡的机制进行补充。而评分卡的模式在另外一方面也作用于系统审核与人工信审,譬如高于X评分的订单申请,系统直接通过;处于X与Y之间的评分,则需人工审核,甚至通过电话联系;而低于Y评分的,则系统直接拒绝(半自动)。作者|杉菜君来源|金融可以应用研究院5月量化风险管理精品课程66号学苑&金融科技应用研究院联合出品更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||25页PPT解读国内外金融科技发展与风控模型||反欺诈-那些list背后的玄机||案例:坏账准备金你知道怎样测算吗?||特征选择二:卡方检验法||特征选择一|
2019年4月17日
其他

合规网络信贷产品,有着怎样的流程设计和运营策略?

合规的网络信贷最基本要求放款方是金融机构,综合贷款利率不超过36%,没有砍头息、暴力催收等现象。本文就跟大家谈谈合规的网络信贷用户画像、产品设计、获客逻辑和用户增长体系。今天我们来谈谈网络信贷用户画像、产品设计、获客逻辑和用户增长体系。合规的现金贷平台最基本要求放款方是金融机构,综合贷款利率不超过36%,没有砍头息、暴力催收等现象。用户画像1.
2019年4月15日
自由知乎 自由微博
其他

25页PPT解读国内外金融科技发展与风控模型

虽然近几年中国的金融科技产业飞速发展,衍生出很多特色金融产品、独特风控模式,但欧美国家的金融业发展历史悠久,金融市场较中国更为开放,金融衍生品、风控模型的创新能力依旧值得国内借鉴,取长补短。金融科技应用研究院(简称FAL)通过以下研究报告,从“中外行业概述”、“中国市场分析”、“互联网金融风控模型”、“行业发展预测”四个方面浅淡国内外金融科技发展与风控模型,希望读者朋友有所收获!获取完整研究报告资料,需点击“好看”、分享此文至朋友圈后扫码入群,报告资料统一在指定“金科应用研究院报告”微信群里发送,微信群二维码在文末!如扫码入群无法进群,或超过群码有效日期,请加官微:fintechapplab!来源|金融科技应用学苑作者|杉菜君66号学苑&金融科技应用研究院联合出品更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||为什么你的模型,业务总是不满意||评分卡的开发||特征选择1||互金欺诈与反欺诈||风控模型的衡量指标|
2019年3月21日
其他

反欺诈|那些list背后的玄机

黄姐姐经常被问到的一个问题:从哪个角度可以看出这是个欺诈分子?以及哪个字段比较好用?如果单纯地从理性分析(暂且忽略鬼神说的不可解释性),1-8被黄姐姐分成两组:组A:1-5;组B:6-8。整理一下:组A应用了4天,组B应用了1天,且最终结果为True。那么,最终结果为true,可能是组A作用力的累加效果,也可能是组B立竿见影的效果。想要确定,还需要进行重复实验。确定了组A和组B后,还可以进一步拆分分析。比如,可能是组A的方法1加上组B的方法6起到的作用。一个着急的母亲,会同时采用多种方法来解决宝宝的非正常哭闹;一个反欺诈从业者,也希望一下子把所有字段输入模型,跑出个结果来防范欺诈。但正如黄姐姐所做的,先去掉操作性不强的,再去掉不吓人的方法;由于一些字段的噪声很大,同样需要我们先予以去除,然后再进行系统的分析。这一过程需要充足的样本和不断的思考和实践,着实费时费力。不过,基于一些项目经验,黄姐姐尝试了很多处理不同list的方法。以下分享几个比较有效的处理方法。App
2019年3月18日
其他

一条案例:坏账准备金你知道怎样测算吗?

无论是为金融放贷机构提供资金的资金方还是进行放贷行为的资产方,在整套资产管理体系中都十分关注一个名词:“坏账准备金”。英文中,“准备”(Provision)这个词表示为特定的或未知的事提前准备。比如常见的在军事活动、野营探险、传染病爆发提前准备食物或供给。在金融里,准备金是一个会计概念,是为可能出现的损失提前留出资金。在信贷中,准备金是为预期贷款损失准备的,是审慎信用风险管理中非常重要的措施,甚至最早的贷款机构就已经考虑到这个问题。坏账准备金分为两大类:1.普通准备金:与具体账户无关,用于各类账户。2.专项准备金:为预计可能出现的问题(如已知或可疑的欺诈、法律和收回问题等)而建立的准备金。对于投资方,通过分析资产方的坏帐准备金是否充足,可以作为评判其抵御风险强弱的一个重要考核标准。究竟坏账准备金如何快速测算?一条案例带你解密!案例介绍一条案例:现有一家金融公司从2016-08月到2017-07月累计放贷金额数据,并按照Current、M1、M2、M3、M4、M5、M6、M6+分别追踪每月的放贷资产累计变化。如何根据上述资产质量评估2017年8月预计的坏账准备金?首先要专业科普3类基础资产状态追踪指标:1.Current:表示目前处于正常还款未发生逾期的金额/客户;2.M1:表示目前处于逾期一期的金额/客户,逾期天数范围在1-30天;3.M2:表示目前处于逾期二期的金额/客户,逾期天数范围在31-60天;4.M6+:表示目前处于逾期6期以上的金额/客户,逾期天数范围在180天以上;基于这3类基础资产状态追踪指标,又衍生了例如WO、C-M1、Delq.Rate-Coin、Delq.Rate-Lagged等量化风险指标。再次要专业科普迁徙率(Roll
2019年3月13日
其他

特征选择二:卡方检验法

卡方检验可以用于判断两个类别变量的相关性是否显著。在分类的应用场景中可以用卡方检验选择特征,特征与目标变量的相关性越显著说明特征越重要,预测力越强。一、先简单介绍一下卡方检验的步骤。假设y为目标变量,取值为好和坏,x为特征变量取值为高、中、低。1.先计算y和x的实际值列联表,如下图:2.假设y和x不相关,总体y中坏占比=254/1831=13.87%。根据原假设,计算出假设值列联表:3.计算卡方统计量:其中,A是实际值,T是假设值,卡方分布的自由度=(x属性个数-1)*(y属性个数-1)=(3-1)*(2-1)=2。上面计算的卡方值=45.41,查卡方分布表可知P(卡方值>45.41)
2019年3月12日
其他

为什么你的模型,业务总是不满意

score(P0,p,ck,pbase):B=ck/log(2)A=P0+B*log(pbase/(1-pbase))score=round(A+B*log(p/(1-p)))return
2019年3月11日
其他

评分卡的开发

为了让更多童鞋了解申请评分卡建模过程,小编做了一个简略版的评分卡。该评分卡制作比较粗略,有部分步骤并不是严格按照严格流程来制作,仅仅为大家做一个评分卡流程梳理。一、明确业务目标及业务定义
2019年3月7日
其他

特征选择一

建模时如果特征过多容易造成“维度灾难”,降低模型效果,因此特征选择非常重要,本文结合特征重要性和特征相关性来挑选特征。衡量特征重要性有很多方法,如统计变量IV值、Gini值等,还可以通过一些模型如决策树、随机森林等得到特征的重要性importance等方法,以上方法主要是采取监督方法(即X变量对Y变量的重要性)来衡量变量的预测力。此外特征之间的相关性分析属于特征选择的非监督方法。下面以IV值和相关性结合为例进行介绍。首先计算特征的IV,计算方法和代码在之前的文章中有介绍,Python计算IV值,计算结果存在数据框iv_df中,如下图:然后计算特征之间的相关系数,计算结果存在数据框corr_mat中,如下图:最后,通过IV值和相关系数的结合选择特征,算法如下:(1)剔除IV值
2019年3月4日
其他

互金欺诈与反欺诈

根据人民银行在2015年发布的《关于促进互联网金融健康发展的指导意见》的定义:互联网金融是传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。根据央行妈妈的定义,互金的范围比较广:P2P、第三方支付、现金贷、消费贷均可位列其中。本文主要以消费金融为例,阐述如何揭露互金的套路(欺诈)以及如何反套路(反欺诈)。不知道各位是否听到过这样的牛逼:1.
2019年2月28日
其他

风控模型的衡量指标

一、ROCROC是根据混淆矩阵衍生评估标准,FPR与TPR分别取值后围成的一条曲线,实际上是由无数个点构画而成。
2019年2月27日
其他

一份案例:如何选择合适的第三方数据源

不论是银行还是非银机构进行金融信贷产品展业过程中,都需要持续的与外界资源进行互换沟通。获客、导流、风控、委外催收,正是因为整个产业链条的分工合作,金融信贷产业才可以总体维稳、获益。不论是金融第一梯队银行类,还是二、三梯队非银机构,风控部门在进行信贷风险控制环节都需要接入大量的第三方外部数据,以此支撑信用风险精准判断与预险。如何选择合适的第三方数据源,保证风险可控的前提下节省数据成本,一份实操案例教你来选!案例介绍一份案例:现有1000个样本数据,分别测试2家黑名单,2家欺诈名单与2家多头,如何选择合适的第三方数据源?首先要专业科普选择第三方数据源重要考察的5大指标计算公式(以黑名单为例):1.查得率(Search
2019年2月26日
其他

40页PPT详解金融业智能反欺诈的应用

信用风险和欺诈风险虽属不同的风险界定范畴,但欺诈风险管理仍然涵盖在整个信贷信用风险管理生命周期中,由此可见其重要程度。
2019年2月22日
其他

Vintage、滚动率、迁移率的应用

一、VintageVintage源于葡萄酒酿造,葡萄酒的品质会因葡萄生长的年份不同、气候不同而不同。Vintage分析是指评估不同年份的葡萄酒的品质随着窖藏时间的推移而发生的变化,并且窖藏一定年份后,葡萄酒的品质会趋于稳定。如下图,2000年的葡萄酒品质最好,窖藏5年左右,葡萄酒品质会趋于稳定。借鉴葡萄酒Vintage分析,信用分析领域不仅可以用它来评估客户好坏充分暴露所需的时间,即成熟期,还可以用它分析不同时期风控策略的差异等。一个客户的好坏,需要经过若干个还款周期后才能充分暴露,如果表现期较短,有可能将一个不是很坏的客户定义为坏,也有可能将一个很坏的客户定义为好。比如一个客户在开始的几个周期内发生了逾期后将逾期还清,并且后面的周期不再发生逾期,若表现期较短会将此客户定义为坏;又比如一个客户刚开始一直正常还款,但到后面发生了比较严重的逾期,若表现期较短会将此客户定义为好。另外,可以通过比较不同时间的贷款在相同周期的逾期表现,来分析不同时间的风控策略的差异、宏观形势的变化等。下图为2017年4月至2018年12月放款的M4+(即逾期91天以上)的Vintage图和Vintage数据表,此图统计的逾期用的是月末的逾期状态(有些时候也可以使用历史逾期状态,一个客户只要发生过M4+逾期,未来每个月都将该客户记为M4+逾期客户),计算逾期率使用金额(也可使用笔数)。从图中可以看出,不同月份放款的M4+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期。从图中还可以看出,资产质量不断提升,2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。二、滚动率前面说的Vintage可以用于分析客户表现的趋势、稳定的时间等,对于客户好坏程度的定义没有涉及,而通过滚动率分析可以对客户好坏程度进行定义。滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况,如下图。在观察点2018年6月30日,取1万个客户,统计该1万个客户从观察期到表现期的最大逾期的变化情况,如下表。从该表可以看出:1.正常的客户,在未来6个月里,有96%会保持正常状态;2.逾期1期的客户,未来有81%会回到正常状态,即从良率为81%,有7%会恶化;3.逾期2期的客户,从良率为23%,有39%会恶化;4.逾期3期的客户,从良率为14%,有61%会恶化;5.逾期4期及以上的客户,从良率仅为4%,有82%会继续此状态。
2019年2月21日
其他

一份最全风控产品质量监控(PQR)总结 文末有福利哦~

风险管理的精髓在于收益与损失的平衡,在保证收益最大化的同时平衡现在以及未来的风险不良。策略、模型都是为了实现这一目标而努力,通过提炼最终目标的周边纬度而成的监控指标体系,对于最终风险管理的整体把控,毅然十分重要。PQR(Portfolio
2019年2月20日
其他

电商及社交数据在金融反欺诈领域的应用

随着金融企业业务的深入,以及消费金融业务竞争的白热化,针对信用白户进行快速有效的信用评级风控显得尤为重要。一、电商社交数据的数据覆盖度:下图为各类金融机构的互联网行为数据整体匹配情况。
2019年2月19日
其他

生成标准评分卡

最近总有人问小编如何进行评分卡模型分数转换并生成标准评分卡。基于树模型的评分卡出来的直接是分数,所以可以直乘100或1000直接变成整数即可,基于树模型的评分卡没有办法生成标准的评分卡。这里着重介绍LG模型的分数转换,LG模型是可以生成标准评分卡的。标准评分卡格式如下:一、评分卡定义及分数转换已知正样本(flag=1)的概率为:则负样本(flag=0)的概率为:这样就可以计算正负样本的比值,称为好坏几率:评分卡设定的分值刻度可以通过将分值表示为几率对数的线性表达式,即其中,A和B是常数。接下来就可以进行转换了。步骤如下:设定时的分数设定当每增加1倍时,增加的分数PDO(point
2019年2月13日
其他

拒绝推断

在做申请评分卡时,所使用的数据是审批接受的已知好坏状态的样本数据,然后用此评分对新的申请进行评估,这里会存在所谓"样本偏差"的问题,因为接受样本只是申请样本的一部分,此评分没有考虑拒绝样本的信息,在对总体申请进行评估时会有偏差。如果能够想办法将拒绝样本和接受样本放在一起建模,就是所说的“拒绝推断”。先想想什么情况下不需要做拒绝推断?如果之前的审批策略不是很有效,相当于随机选择接受的客户,那么接受样本和拒绝样本的分布应该是一样的,这种情况就没必要做拒绝推断了。相反,如果之前的审批策略越有效,接受样本和拒绝样本差别就越大,那么越有必要做拒绝推断。另外做拒绝推断也是为了更多更准确地找出好客户,降低成本,提高收益。拒绝推断常用方法有三种,实验法、直接赋值法和模型扩展法。(一)实验法实验法就是在生产环境中做实验,积累全量数据。如在某一段时间内,接受所有申请,等该批申请客户有了风险表现后,直接在该样本上建模,所使用的数据和未来要预测的数据在分布上偏差较小。实验法其实是花钱买数据,需要承受较大的坏账损失,一般机构接受不了,更别说银行等受严监管的金融机构了。前两年现金贷火爆的时候,由于收益高,很多做现金贷的公司,除了验证身份、过一下黑名单等简单措施,所采取的风控手段很少,通过率极高,这样的环境相当于提供了一个天然的数据收集实验场。(二)直接赋值法直接赋值法是指通过外部数据或人工的方法,为拒绝样本打上好坏标签。比如通过查看外部数据发现此人在其他机构发生过很严重的违约行为,那么这种拒绝样本可以直接标记为坏,该方法需要花费一定的数据成本,并且有些外部数据较难获取。还可以让审批人员对拒绝客户进行复核,标记出认为违约可能性高的样本,不过此种方法也不经济,需要花费很多的人力,且加入了主观的人为因素,容易造成偏差。(三)模型扩展法最为常用的技术是模型扩展法,先用接受样本建模,然后预测拒绝样本的好坏,最后将拒绝样本和接受样本放在一起建模。模型扩展法有以下几种。1.简单扩展法可以拆解为几个步骤:(1)在接受并已知好坏的样本上建模。(2)用此模型为拒绝样本打分P(bad概率),设置一个阈值P0,大于P0标记为坏,小于P0标记为好。选择的阈值要确保拒绝样本的坏账率比接受样本的坏账率高,一般设置拒绝样本坏账率是接受样本坏账率的2-5倍,当然要结合客群特征、通过率等因素综合考虑。该方法的一个缺点是,拒绝样本的分类有一定的随机性。(3)将打好标签的拒绝样本和接受样本放在一起,重新建模。(4)重复(2)和(3)直至模型参数收敛,一般迭代两三次就能得到收敛模型。2.拆分扩展法拆分扩展法并不是将拒绝样本直接标记为好或坏,而是根据打分概率将一个拒绝样本拆分成一个好样本和一个坏样本,打分概率为权重。具体可以按以下步骤进行:(1)在接受并已知好坏的样本上建模。(2)用此模型为第i个拒绝样本打分Pi(bad概率),然后将该拒绝样本拆分成一个坏样本和一个好样本,坏样本的权重为Pi,好样本的权重为1-Pi,而每个接受样本的权重均设置为1,这时可以根据权重计算坏账率。还可以调整拆分后的拒绝样本的权重,使拒绝样本的坏账率是接受样本坏账率的F倍,比如坏样本的权重调整为Pi*C/(Pi*C+1-Pi),好样本的权重调整为(1-Pi)/(Pi*C+1-Pi)。(3)将(2)拆分后的拒绝样本和接受样本放在一起建模。(4)重复(2)和(3)直至模型参数收敛。3.分段扩展法上述所说的简单扩展,将拒绝样本按照某个阈值采用一刀切的方式分成好样本和坏样本,这样的切分使拒绝样本的违约分布和接受样本差别极大,而分段扩展正好修正这一缺点。步骤如下:(1)在接受并已知好坏的样本上建模。(2)然后为接受样本和拒绝样本打分score,下图为每个评分区间内接受样本的违约分布和拒绝样本的数量:接下来,按照各分数段对拒绝样本打标签。一般拒绝样本的违约率高于接受样本,这里假设拒绝样本的违约率是同分数段接受样本的2倍。以0-350分数段为例,接受样本的违约率为26.7%,设置拒绝样本的违约率为53.4%,然后根据这个违约率,随机的将该分数段内的样本设置成好和坏,或者根据分数高低,高分数设置为好,低分数设置为坏,就像简单扩展法中的做法。下图为打好标签的拒绝样本的违约分布:(3)将(2)中打好标签的拒绝样本和接受样本放在一起建模。(4)重复(2)和(3)直至模型参数收敛。4.其他方法除了上述几种方法,还有一些其他方法,比如可以通过近邻(Nearest
2019年1月24日
其他

风险建模,缺失值怎么处理?

相信每个做过风险建模如评分卡模型的小伙伴都遇到过缺失值的问题。从小编使用过的工具或算法包来看,只有xgboost等少量的算法包支持包含缺失值的数据集,其他的绝大多数算法包或工具是不支持的。另一方面,从小编接触过的大量数据集来看,绝大部分的数据都存在缺失值的情况。所以我们在风险建模的过程中是无法避免地要处理缺失值的。缺失值的分类一般先要分析缺失值的原因,区分缺失值的类型,缺失值通常可以分成三种类型:1.完全随机缺失变量x是否缺失和自身取值无关,也和其他变量的取值无关。2.随机缺失变量x是否缺失和自身取值无关。3.非随机缺失变量x是否缺失与自身取值有关。缺失处理方式接下来谈下怎么处理缺失值,主要有以下几种:1.
2019年1月14日
其他

九个步骤轻松搞定评分卡开发

学习评分卡对于非科班出身来说,是一件比较困难的事情。那么是否有一套可以遵循的方法论来学习如何开发评分卡呢?以下就是本次干货的分享内容-评分卡开发方法论SCORECARD。SCORECARD这九个字母分别是九个英文单词的首写字母,代表评分卡开发工作顺序,它们的含义分别是:S
2019年1月9日
其他

坏样本不够多,怎么办?

今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法。首先样本过少分两种情况。一种是确实没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候,没啥数据,但是又觉得规则撑不住,所以还是想做模型来和规则一起来维稳,这时候你可以把这种情况当做冷启动来处理,我之前讲冷启动的时候,提到一点点,这边我们来细化一下可以有哪些方法。放弃这仅有的样本,重新寻找近似的坏样本。为什么我说要放弃这仅有的样本,如果是产品上线的初期,首先这时候你的风控不敢放松,容忍度较低,那么通过率相对较低,这是坏样本少的一个方面,另外一个方面就是,本身产品刚上线的话,可能坏样本就是近一个月进来产生的坏样本,指不定就是逾期了3天,你就觉得他是坏客户,这有些说不过去,所以这里有两个点希望你放弃这批坏样本:1、够不够坏,如果够坏,那是不是剩十几个了。2、坏样本的覆盖面不全,这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征,尽管可以拟合出来的模型在当下有用,但是后续还是有很大的可能会不稳定。在第一点中我说希望你放弃坏样本的理由,如果你的坏样本不满足第一天的条件,你可以不放弃的,我不想劝你。那么补充坏样本可以有以下几种方式:1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道,但是一般一般呢,不是粗暴放款的,至少都接了简版征信,简版征信中有好几个逾期标准,举个例子哈,五年内超过90天逾期的次数,点到为止,你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候,把之前有前科的人抓出来扫一遍一样。2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据----多头数据,这个方法跟警察抓嫌疑犯一样,虽然我没看到你明显犯罪了,但是我觉得你有动机。可以使用多头的数据中,你们不能容忍的超过几次的阈值,例如近一个月超过20次,那么等于大于20次的客户就是坏客户。3.物以类聚法或者专家评分卡。根据你的经(感)验(觉)找出几个跟客户逾不逾期的强相关变量,最好是数值型的变量,这时候可以把那之前提到的那几十个坏样本,使用聚类(建议knn)找出,哪一类的坏样本的占比最高的,把这个类的样本就当做坏样本。后者使用专家评分卡,找出专家评分卡下分数比较低的那5%-10%。4.使用人工标准。那么我们在审批环节中(假设你们还是有人工介入的),这时候可以概括两种拒绝的人:1、系统拒绝,2、人工拒绝。那么系统拒绝的客户,你可以定义为,他一出来,你一眼就知道他是坏人,人工拒绝的客户,你可以理解为,这货一路伪装了好多东西,但是最后被你们公司高端的审批高超的话术征服了,道出了他想犯罪的想法,然后你叫他滚,然后他犯罪不遂,但是没有你们高端的审批,这个人就可能变成你们公司的坏客户。那么这里说一个问题,就是公司做模型是为了什么,为的节省人力,最理想的状态就是风控的各个环节可以让90%的客户完成审核审批,10%人工核验,你们要是有种100%风控系统全自动审批,我也不拦你。所以你这时候,你就发现,你顶着风控建模师的职称,你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的,所以人工拒绝的客户就变成你的坏客户了,这些思路顺着下去,你可以分析出更多适合你的模型的坏客户。5.无监督建模。这个方法是区别于以上四个方法,以上都是在说怎么找出坏样本,因为我们要做监督模型,那么要是你有种一点,你跟领导说,我觉得我做无监督的效果也可以做的很牛逼,这我也不拦你的,毕竟建模的思维本来就是扩散,这个就有个问题就是说,如果是无监督的话,那么可能部署到系统上是个问题。来源|屁屁的sas数据分析作者|屁屁更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||信贷常用风险指标||哪家数据供应商的数据好用||模型验证-ROC和AUC||40张PPT详解信用风险模型在金融科技中的开发和应用|
2019年1月8日
其他

互金线上产品风控流程

小编之前接触较多的是大额产品风控流程。在大额产品中,由于额度动辄十万以上,我们要求用户提供征信报告,对征信数据的使用占了很大的比例。而低额度产品,则对征信报告的要求不高,很多人可能没有征信报告或获取难度较高。对于这类额度相对较低的产品而言,客户体验往往是第一的,强调快速下款,所以要求流程简单,通常只要客户完成核身即可申请。我们目前主要产品的额度在1000-50000之间,期数有单期及多期。这里以多期的产品为例,探讨一下这类金融风控业务的特征及风控流程。贷前环节贷前主要包括用户准入、核身、反欺诈、授信评估、放款。1.准入用户准入主要分为强准入规则和弱准入规则。一般来说,强准入规则是相对固定、不易改变的,比如一些地域、民族、年龄以及内外部黑名单等,又比如年龄必须满足20-45周岁才可以申请等。弱准入规则主要是进行风险下探的,可以进行调整。比如灰名单的设置,不同于黑名单,灰名单是通过一些准确率较高的规则或者黑名单通过多级关联产生的,这些名单没有黑名单准确率高,但是在一定准确率条件下补充了黑名单的覆盖情况。2.核身主要包括实名认证、人脸识别和电子签章。实名认证主要是身份证、姓名二要素认证、加上手机号码的三要素认证、还有加上银行卡的四要素认证。3.申请反欺诈对于低额度产品而言,重点是识别出欺诈用户,将他们拒之门外。欺诈是操作风险的一种,主要包括:第一方欺诈、第二方欺诈、第三方欺诈。第一方欺诈是申请人自己欺诈,身份是真实的,申请者本人是知情的,比如自己或通过中介包装信息进行申请。第二方欺诈主要指内部欺诈,或内外部人员勾结进行欺诈。第三方欺诈是使用、盗用冒用他人身份进行欺诈,申请者本人不知情,比如团伙利用农村收集的身份证进行欺诈。目前反欺诈常用的手段有名单库(内外部黑名单)、专家策略、机器学习、关联图谱等。4.授信评估授信评估首先要对客群进行分类,或者按照渠道分类,或者根据客群本身的一些属性进行分类,比如有无信用卡客群等。对分群之后的用户进行一些策略规则的制定,这时候可以用一些三方的分数或者对特征进行分析,找出重要度较大的特征,此处重要度可以根据IV、XGB、RF等多种算法综合排名,或者最优分箱,找出坏账率大于平均坏账率三倍左右的特征段进行策略规则的制定等等吧。制定完规则后就是对客户的收入进行评估制作收入模型了,收入模型可以根据银行卡流水数据、公积金数据来做。再接下来就是申请评分卡了,这里需要注意的是要把欺诈风险和信用风险区分开来做评分卡模型。做完收入模型和申请模型后,就可将收入模型和申请模型做一个二维矩阵,对于矩阵中每个单元格设定一定的额度水平,在此基础上授予相应的额度。5.放款用户在授信后,会发起取款消费等操作。在这个过程中,我们需要保持对用户的持续监控,对客户进行鉴权认证,并保证用户的信息没有发生较大的变化,以及排除欺诈交易等。贷中环节放款之后,进入到贷中环节。在贷中环节,我们仍需对客户贷款进行严密监控,这样做的主要的目的有两个:1.对异常账户的用户进行提前预警、催收;2.对额度进行调整或冻结。用户在提款之后,根据客户的借还款行为表现,通过统计或机器学习算法建立起模型,并使用模型去评估是否有逾期风险或者是否应该授予更高/低的额度。模型通常会采取定期跑批的方式打分。比如说每月跑批,对符合条例规定的人,给他提前预警或者调额。同样地,根据模型分也可以制定若干强规则和弱规则。贷后环节贷后这块主要是逾期贷款催收的内容。主要包括:1.使用贷后数据和三方数据制作催收评分卡,根据催收评分的结果,对可催人群进行差异化人工入催,优化催收成本,提升客户体验;2.对失联客户的交易前后行为特征进行分析,结合社交信息建立起关联图谱网络,通过图谱中的社交节点进行失联修复。来源|风控建模作者|小溪1005更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||信贷常用风险指标||哪家数据供应商的数据好用||模型验证-ROC和AUC||40张PPT详解信用风险模型在金融科技中的开发和应用|
2019年1月7日
其他

信贷常用风险指标

本文主要列举了信贷常见的风险指标,并且对一些核心指标进行了说明。1、放款本金与本金余额放款本金为每个月的放贷金额;本金余额为截止统计时点,所有未收回的本金金额,包括逾期未还本金与未到还款期限的待还本金。某个贷款产品的放款与还款数据的数据表格(期限3个月,等额本息还款,为方便说明,图表中数字去除利息与罚息等数据,仅展示本金)2、不良贷款率不良率计算存在不同口径:一般而言,借款人若拖延还本付息达三个月之久,贷款即会被视为不良贷款。人行《贷款分类指导原则》(试行),要求商业银行依据借款人的实际还款能力进行贷款质量的五级分类,即按风险程度将贷款划分为五类:正常、关注、次级、可疑、损失,后三种为不良贷款。这里采取比较通用的定义,即逾期超过90天的贷款,称之为不良贷款。贷款不良率
2019年1月3日
其他

哪家数据供应商的数据好用?

一、接数据的背景每家公司都有接第三方数据的需要,但是第三方数据如果不是你们老板有很强势的关系,可以说让对方免费给你们提供,那么理论上都是要花钱买的,价钱从1分钱-到十几块不等,类型之前我也介绍过,有各式各类的授权获取的爬虫数据,理论上,只要你需求,客户授权了,那么供应商都可以帮你爬。数据供应商加工过所谓他们通过内部渠道拿到的一个统计数据,这个统计数据一般不经过客户授权,所以只能是“统计”数据,你要是详细那就不合规了,例如客户装的app类型有哪些之类的,还有一类就是数据公司为了避免你不能对他辛辛苦苦清洗的数据创造出对你们公司有效益的信用评分卡,所以他也会做一些信用分,卖给你们公司,那么基本上就这三类,当然也有一些特别的数据,掌握在少数公司的手上。二、一般数据需要其实我个人觉得,数据这东西跟买化妆品是一个道理,每个人都有每个人的肤质,每家公司有自己客群,别人好用的你不一定好用,别人不好用的,你们家公司指不定就好用,也不是数据越全越好,这句话不是说数据维度多不好哈,要是你们什么数据都有,数据成本一个客户才一块钱,我真的要说,你们老板真他妈牛逼,数据当然越多越好,但是也要从成本考虑。所以我认为一般的公司的三方数据大概涵盖这几部分就可以了,你们家要是放那种一笔好几十万的,那请对客户打破砂锅问到底吧。我说的一般就是放款那种1000-50000的哈。1.一到两项授权数据,基本配备:运营商数据。太多授权,客户体验感会不好,产品经理说的,运营商数据不仅检查客户的欺诈嫌疑,还有可以做为贷后催收的不时之需。2.多头、黑名单,有利于做前置规则。3.可以衡量用户资产的数据,有征信就征信,没有就信用卡额度之列的数据,有利于 定额度,或者消费数据也是可以的。三、为什么测数据麻烦1.假设你不是领导,那么供应商来你们公司给你们介绍产品,介绍产品后,除非产品烂到你觉得,特么这种傻逼数据怎么可以拿出来卖,不然你都要测数据吧,当你答应人家决定测试数据的那一刻起,旁友们,你的事情就来了。测数据的第一步就是提数据,如果你们家只有一个产品,那还好,重点是,你们公司要是真的只有一个产品还能养活你们全部的人,那真是牛逼!!!既然要测,那就多个产品都测一下吧,然后取数就是,各个产品取数,匹配标签,匹配额度,三要素加密,按照数据供应商的格式给人家送过去。2.测完呢,你就要分析了,评估数据效果,这个不同的数据效果怎么评估我在之前的文章已经介绍过一些,但是这个工作量肯定是要抽出一个人力一个工作日去分析的,分析只是一部分,还有一些保密协议琐碎的事情,这里就不算工作日了。3.这是花钱买的,所以除非你是哪个可以出钱的人,不然你这个数据一定要用汇报 结果,汇报结果就一定要突出你的数据的价值,当然这是后话了,毕竟你要是数据 真的有用,价值只是你的展示形式而已。四、怎么好好选供应商那既然测数据这么麻烦,那么为了节省人力去做不必要的人力测试,在选择供应商的数据可以怎么选呢,我讲了那么多就是要供应商要好好找。这里我肯定不会告诉你家数据好不好,只是分享一些我的一些建议,肯定有比我更有经验的人,他们的建议会更好,所以你也是酌情的看哈:1.多头数据
2019年1月2日
其他

模型验证—ROC和AUC

怎么用它评价模型?事实上,如果不明白这些评估指标的背后的直觉,就很可能陷入一种机械的解释中,不敢多说一句,就怕哪里说错。在这里就通过这篇文章,针对上述4个问题,介绍一下ROC&AUC。问题1:
2018年12月29日
其他

40张PPT详解信用风险模型在金融科技中的开发和应用

本文授权转载自金融科技应用学苑公众号ID:Liang_fintech风险管理是金融活动的核心,尤其是互联网金融。我国金融产业的发展表现出很强的政策导向和信贷属性驱动,各类以数据驱动的智能风控产品服务已经成为不管是传统信贷业务,还是互联网信贷业务的重要支撑工具。信用风险模型对于金融科技作用尤为重要,本文通过J.K在SAS讲座中的分享资料为大家浅谈信用风险模型在金融科技中的开发及应用。领取报告:请后台回复“风险模型”更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||你的模型做拒绝演绎了吗?||黑产大数据:手机黑卡调查||新时期银行非结构化数据治理与应用思考|
2018年12月28日
其他

干货|大数据风控审批策略应用详解

本文授权转载自金融科技应用学苑公众号ID:Liang_fintech风险管理按照信贷流程分为贷前、贷中、贷后,在贷前环节有一个部门充当着风险管理的第一道也是极为重要的一环--风险审批策略部门。所有的风险贷前审批策略规则都是由这个部门制定部署在策略引擎中,进行后台大数据机器的运转。风险贷前审批策略的数据分析、定期回顾、策略调优等等工作都与信贷风险大数据紧密相连,运用SAS或者其他统计分析工具,可以快速地做出数据分析并将之运用上线。本次金融科技应用研究院出品的《SAS大数据风控审批策略应用》,通过讲解SAS统计分析工具的编程常用语言模块,以及SAS在风控策略中的应用,帮助大家了解如何通过大数据分析进行风险策略数据分析!报告获取:请后台回复“风控策略”更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||你的模型做拒绝演绎了吗?||黑产大数据:手机黑卡调查||新时期银行非结构化数据治理与应用思考|
2018年12月27日
其他

一图让你了解特征工程的所有套路

本文授权转载自金融科技应用学苑公众号ID:Liang_fintech有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。下图便是进行特征工程的所有顺序和步骤,及采用什么方法来完成每一步的操作。通过以上步骤对数据的预处理,就可以将其作为最终的特征样本数据,通过不同的模型去更方便的探索数据中所包含的规律。更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||你的模型做拒绝演绎了吗?||黑产大数据:手机黑卡调查||新时期银行非结构化数据治理与应用思考|
2018年12月26日
其他

你的模型做了拒绝演绎了吗?

在平时的建模中,申请评分卡模型是用来评估申请客户是否会出现短期或者长期的资金紧缺造成的逾期的情况,评分卡面向的客户是所有的申请客户,然后在我们的建模过程中使用的是放款的客户,那些被拒绝规则拒绝的申请客户是被排除的,那么这时候我们拿到的建模数据中的坏客户的比例实际上是比实际申请中的坏客户的比例是低很多的,那么这时候那些拒绝的客户表现出来的数据特征往往就被我们忽略了。所以今天想跟大家分享的是,不是全部人在建模中都会做的事情——拒绝演绎,我不知道这个词谁取的,字面意思都不知道在干嘛的,拒绝演绎的意思是,你做了一个模型之后要检查对于被规则拒绝的客户的评分是不是受用,因为在建模的数据中,用的是公司放款后的有了表现的客户,对于拒绝的客户不在建模样本中,但是假设被规则拒绝的客户通过你的评分卡的时候,都是出于高分的区间,那么你这个模型就尴尬了,所以有时候为了模型的可用性,还需要做拒绝演绎这一过程。在《信用风险评分卡研究》这本书对于拒绝演绎有专门的一章是特地来接介绍拒绝演绎的执行方法的。那么我也是参考这本书,以及我平时的工作经验总结了以下几种做拒绝演绎的方法。1.不做拒绝演绎假设你的模型根本就不用考虑拒绝客户在你模型中的评分表现的话,那么你是可以不做拒绝演绎的。拒绝演绎不是一定要做的,就像你现在不就没做嘛。2.以批核率代替假设你的模型已经生成评分卡,每个客户都有分数,且按照比例分好了区间,这时候假设A
2018年12月21日
其他

黑产大数据:手机黑卡调查

机黑卡似乎和大众没什么关系,但据说见过下面这张图的同学,每天的生活品质能提升30%。楔子言归正传,作为一家严肃的安全公司,其实猎人君是来尝试解决这类问题的。作为老板,你是否发现搞活动时用户热火朝天,活动一撤就一潭死水作为策划,你是否只顾了活动的吸引人,而没有考虑对付虚假用户?作为程序员,你是否觉得通过短信确认下用户就万事大吉了?……辛辛苦苦筹划的活动,好不容易申请了一批福利准备搞上一个月拉上几万优质用户,结果三天就来了十几万,五天就掏完了精心准备的小红包,第六天在线就蹭蹭掉,然而用户就像一阵风,再也不出现了。如果你是活动策划,相信多少都经历过类似的场景,此时你的心情,一定是这样的。如果想识别这些虚假用户,找猎人君就可以了,我们的
2018年12月18日
其他

新时期银行非结构化数据治理与应用思考

一、引言数字化正在成为经济金融发展新的重要引擎,推动商业银行信息技术、业务发展、管理模式等加速转型升级。数据是数字化转型过程中的基础要素,提高数据管理与治理能力,实现“安全用数、高效用数、用优质数”,才能更好的支持数据创新应用,实现数据价值,推动商业银行的数字化转型。2018年5月,中国银行保险监督管理委员会发布《银行业金融机构数据治理指引》,用以指导银行业金融机构加强数据治理,提高数据质量,发挥数据价值,提升经营管理能力。指引对金融机构的要求包括数据治理、数据管理、数据质量控制、数据价值实现和监督管理等各方面,强调数据治理体系的搭建,将数据治理纳入公司治理范畴,建立自上而下、协调一致的数据治理体系。此外,指引更强调通过数据治理来实现数据价值,这不仅包括利用传统计量模型制定管理策略,提升管理体系的有效性,还应当运用大数据技术,实现业务创新、产品创新和服务创新。针对文本、语音等非结构化数据进行挖掘,从而在营销或运营等场景中提供智能化决策支持,成为银行数字化转型过程中的热门话题。在这个过程中,面向非结构化数据的数据治理与数据应用必须双管齐下,数据应用建设直接促进数据价值的发挥,数据治理能够影响数据价值挖掘的潜力上限。本文分析了非结构化数据治理方法,并详细阐述了银行中的关键应用场景,最后通过电销和商户分析两个案例说明了非结构化数据的实际应用价值。二、非结构化数据治理方法对于大部分金融机构而言,非结构化数据已经占到银行信息的80%或更高比例,是银行非常宝贵的数据资产。这部分数据的存储并不统一,而是分散的存储在很多地方,并且数据具有非常快的增长速度,但是它又包含许多非常重要的信息,这些信息对于提升客户分析非常有帮助。而大多金融机构现有的数据范围和规模不足以满足当前分析决策的需要,需要结合非结构化数据治理,实现对数据的全面获取、集成治理、分析应用,构建新型数据中心,为后续分析提供支持。下面简要阐述对于金融机构来说,怎样通过内容管理实现非结构化数据治理。内容管理首先是要明确企业内容管理的范围,定义并维护企业信息内容架构,简单来讲,就是整合内容管理范围内的信息并将其通过分类体系进行类别划分。其次,一旦信息按照关键词标记并且按照适当的信息内容架构分类,就可以利用索引技术或全文检索技术建立非结构化数据的检索。最后搭建内容管理系统,将不同环境中的结构数据和非结构化数据有机的结合起来加以利用,提供一体化的信息集成服务,进而从中获取大量有价值的信息,更好的发挥大数据的优势。此外,对于内容管理系统还应经常定期进行维护,安排数据管理专员、数据管理专业人员以及档案经理相互协作,考虑与结构化数据治理相类似的动态因素。由于非结构化数据中含有大量的客户敏感信息,因此做好数据的隐私与安全管理也是金融机构面临的一大难题。对于数据的隐私与安全管理,首先要充分理解数据安全需求及监管需求,定义数据安全策略、安全标准和安全控制及措施;其次要管理用户、密码和用户组成员,管理数据访问视图和权限;重点监控用户身份认证与访问行为,重点关注客户信息的安全性,建立问责机制;最后要做好数据安全工具的选取、使用和维护。非结构化数据治理是为了消除信息孤岛,提高数据质量,共享信息资源,更好的探索大数据背景下的数据应用。大数据下的数据应用,离不开相应的场景,接下来我们给出非结构化数据的两个创新应用场景。三、非结构化数据创新应用场景银行数据不仅包含结构化数据,还包含非结构化的语音、文本数据。常见的文本数据有投诉工单、法律合同和交易描述,语音数据包括催收语音、客服语音和其他电销语音等。随着自然语言处理、文本挖掘等技术的日趋成熟,越来越多的银行开始重视非结构化数据所带来的实现价值。1.电销客户价值分析语音文本数据最初用于智能质检,现在逐步转向智能化分析,一方面是期望从中得到关于客户的各维度信息,如客户对外呼方式的接受度、对产品的偏好以及潜在需求点等,用于完善客户画像和提高营销响应率;另一方面是从客服角度出发,结合客户反馈信息,上线差异化话术,进而提升服务质量和外呼成功率。对于语音数据的分析来讲,前期数据转译质量是关键,后续分析时候需要不断对转译模型的参数进行调节。▸
2018年12月14日
其他

你是不是觉得你的变量太少?

今天我们来聊聊建模中最让人又爱又恨的衍生变量吧。因为我个人认为建模,拟合模型并不是重点,最重点是你能有多少底层变量,以及你能把数据处理到噪声少掉多少,噪声数据影响整体数据的准确性,衍生变量影响你数据深挖的程度。实际上不论是建模还是策略,对于客户维度的挖掘一直都是主要的工作,如果一直按照业务经验去定客户维度,那么风控系统的客户维度就不会增加,你就客户的精准定位就没有其他公司的全面。1.缺失变量衍生这是一个最简单的衍生变量的思路。举个例子,就是你现在有个变量是缺失了大概30-50%,你觉得尽管我做了缺失值填补,或者单独分为一组,但是我觉得会不会缺失和不缺失有比较大的特征,所以这时候你可以衍生一个变量叫,职业是否缺失,但是这里我要加一个附加条件哈,例如这个职业是否缺失,是在什么前提下可以衍生的,是在你们的申请资料提交中,职业他是一个可选项,可填可不填,那么这时候你去衍生这个变量是有一定的业务意义的。氮素,我并不是说就只有这种情况可以衍生这类变量,而是说你在衍生的时候最好清楚他的口径,你不要等下进入了模型之后,发现这个变量只是有些数据是因为系统迭代的时候缺失了,或者之前没有这个选项造成了。这只是个例子,就是希望你们多关于一下数据的意义。2.流水数据流水数据我一般会以3个步骤进行衍生。第一步,我会将一些标签类数据做清洗,例如我们的运营商数据中,电话标签,这个电话是酒店的电话,外卖电话、快递电话之类,我会把这个标签清洗之后汇总,汇总的可能就是以生活服务类,酒店会所类,贷款业务类等等。第二步,那就是我将一些时间的节点清洗,一般有时间节点,我会看下这类电话是在那个时间段拨打的,没有时间点,有日期,那我会清洗出上旬中旬下旬,上班日周末、最近一个月,最近两个月这类时间标签.第三步,就是合并维度,合并维度之前我会有一个总的单标签的统计变量,例如酒店会所类的全部拨打次数这类,接下来才是标签与时间维度或者拨打电话类型合并,我举个例子,例如:最近一个月贷款电话次数。那再上去,就是标签和电话类型以及时间合并,例如:最近一个月贷款电话被叫次数。以上是处理的数据的三部曲,接下来我们手下流水数据的几种思路。(1)就第三步说的比较单一的维度组合,这里就不多讲,因为一般大家都知道。(2)流水数据取统计量。例如,平均通话时间,每月平均号码数,最长的通话时间之类的。那更上一层楼就是,每个拨打电话次数的标准差,方差,psi之类的。这里我要特别提醒,就是你这里在取的时候,你要先想好,就是你的标准差是取6个月,那么你那些没有6个月的客户,你要怎么处理,置零或者置空的话你要先想好哦。(3)占比类。例如,最近一个月占最近6个月的通话号码个数占比,主叫电话占比。你还可以通过自己观察一个客户的行为,定义一些标签,我举个例子哈,就是我发现与自己亲近的人拨打的电话时间大概都会超过三分钟,那么这时候你可以自定义例如,超过三分钟的电话个数这类变量。又或者你发现经常去东莞的人不要好,你可以定义一个,例如:去东莞的次数。3.组合变量说到组合变量,其实这个谁都会,但是我想告诉你们一个比较贱的方法。其实当你的底层变量比较多的时候,组合变量一个一个去写是很浪费时间,而且是很枯燥的,所以我建议呢,你可以尝试用决策树帮你组合(这里必须说,这不是一定好用的方法,只是建议!)。思路是这样子的:1.你可以先将变量降维,proc
2018年12月10日
其他

R语言实现变量分箱及应用

本文是决策树分箱在R语言中的实现,代码如下,其中df是待分箱的数据集,key_var是主键,y_var是y变量,max_depth是决策树的最大深度,p是决策树叶节点最小占比。cut_bin
2018年12月7日
其他

揭秘“微信群控” | 黑产网络竟如此猖獗

在电影《钢铁侠3》中,我们看到了身穿机械战甲的男主角托尼为了打倒坏人,通过他的电脑智能系统“贾维斯”,一人控制无数台机器人同时作战,最终赢得胜利,迷倒了一片吃瓜群众。而在现实生活中,也有一些人打着微信营销的旗号,研发了一款类似的系统设备,名为“微信群控”。同样是用一个系统控制着多台设备,但不同的是,微信群控所谓的”营销神器”并不是为了什么正义。相反,微信群控通过群控技术,批量模拟正常人行为来谋利,微信上很多恶意行为都是通过它来完成的。今天,我们就给大家介绍一下微信群控这种微信恶意使用模式:微信群控的基本概念了解微信群控,首先要区分“群控”和“微信群控”。“群控”系统是指,通过系统自动化控制集成技术,把多个手机操作界面直接映射到电脑显示器,实现由一台电脑来控制几十台甚至上百台手机的效果。群控系统对中控电脑上每个手机的操作界面进行编号,对应相同编号的手机,从而实现一对一的手机操作控制。“群控”系统通常是由软件和硬件构成,硬件部分包括群控主机、HUB集线器、电脑主机和终端手机;软件部分用支持分控功能的群控系统,在本地局域网环境下即可实现手机群控。图:手机+HUB+群控主机演示而“微信群控”,是在群控系统基础上,针对微信定制化、批量模拟正常个人用户操作的软硬件集成系统。它以群控系统+各种批量模拟脚本的手段,完成微信批量操作,规避微信产品规则,对抗微信安全技术策略,从而实现各种各样的”营销”效果.其本质是一种新型的、高级的微信黑灰产变现和导流实现工具。简单来说,微信群控通过群控技术,批量模拟正常人行为来谋利,微信上很多恶意行为都是通过它来完成的。图:架子上密密麻麻的手机+旁边的电脑系统就是微信群控设备图:微信群控系统对多台手机微信进行操控目前市面上的微信群控系统主要分成两种:USB群控和云控。USB群控指的是通过USB数据线将手机上的数据传输到电脑上,实现电脑对手机的控制。云控则指的是手机手机连接服务器,电脑连接服务器,通过网络通讯,实现对手机控制。但不管是USB群控还是云控,除了技术实现原理上的不同,都改变不来它们被坏人拿来作恶的本质。图:把多个手机微信操作界面直接映射到电脑显示器微信群控作了那些恶?微信群控设备更多得被一些不法分子用于非法牟利,不仅篡改GPS把手机定位在全国各个地方,还可以将微信所有操作批量化自动化执行。最常见的就是色情牟利,通过定位到不同地方,以美女诱惑加好友,之后向你讨要红包、推荐股票、贩卖色情视频等来骗取钱财。甚至通过免费赠送礼品,诱骗你填写个人信息进行售卖或骗取运费赚取差价获利。比如下面这些:图:篡改GPS把手机定位在全国各个地方●虚假养号在做所谓的“营销”之前,骗子会先从网上购买或自己注册一批微信号进行养号,通过利用微信群控开始各种加好友、发朋友圈、发红包、甚至伪装成美女和你聊天交友等等,而背后往往就是一个正操控着上百甚至上千个微信的大叔在和你互动。千万百计的模拟成一个正常的微信,目的只是为了避开微信的打击和为后面的作恶做准备。图:一台电脑控制多部手机养号●朋友圈频刷广告为了增加自己产品的曝光度,他们利用微信群控里面的批量发布朋友圈功能,不停的刷屏发广告,对我们正常用户来说,只会觉得反感和受到骚烧。甚至还有一些发送假红包链接诱骗我们进行点击,除了欺诈骗钱还存在盗取我们帐号的风险。图:批量发布朋友圈●色情变现色情变现即通过色情内容引流获得关注,之后再用各种套路骗钱。最直接的就是伪装成美女,利用微信群控的批量加好友功能不断的添加好友,并且用各种借口和你讨要红包。比如说会给你提供色情上门服务,之后再骗你先交保证金、打车费等费用,最后当然是连人影你都没见到。图:不法分子以上门服务为由骗取定金色情变现的套路还有很多,如告诉你叫多少钱就能拉你进群看福利(色情)视频,但付完钱就把你拉黑。一些同城交友的平台上,要求你充值后才可以继续和美女聊天,但其实对面和你聊天的也许就是一位抠脚大叔或是设定好的机器和你在聊天。所以说色字头上一把刀,骗子们最终都只是瞄准了你钱包里的钞票而已。●刷数据量之前网上曝光的一些自媒体公众号刷阅读量的新闻,就是通过微信群控非法操作。连点赞也是虚假的数据。据调查,网上最便宜的阅读量刷单价格是12元1000个,也就是说,要刷出“10万+”仅需要1200元,可见这个产业链的黑暗和虚假。所以如果你看到有些文章阅读量和点赞很高,但是评论和赞赏都没有的话,那么极有可能就是刷出来的。图:虚假刷数据交易●薅羊毛:对于薅羊毛党来说,群控更是助长了他们的气焰。他们经常对一些公司举办的优惠活动、免费领取福利下手,比如企业红包、优惠券、佣金、现金补贴等等。利用大批量的微信号去刷这些活动,最后提现或转卖出去来获利。所以往往活动一开始,当满心希望的你进入活动页面时,眼里只有“红包已抢完”的心塞画面。而这正是薅羊毛党利用群控干的“好事”。甚至有些电商平台被这些薅羊毛党刷到不得紧急停止赠送活动。可见他们为了占小便宜也是无所不用其极。图:微信群控系统操控多台手机领取红包为什么会有微信群控?上面提到的这些恶意类别,都是黑灰产团伙针对微信常用的手法,他们为了规避微信团队的技术策略打击,选择微信群控这种技术来进行谋利。而另外一些人则是被所谓微信群控的宣传内容所忽悠,他们打着微信自动化营销专家的名号,不断的吹捧“微信群控”是营销利器,吹嘘自己的群控系统能够批量打招呼、发朋友圈、加好友、点赞等等功能,帮你在短时间内实现快速获取大量客户。他们经常灌输这样的概念:比如,他们的销售员会用生动数据给你灌迷汤:“假设一个员工控制100台手机,平均每天可加100个微信好友,100部手机每天就可加10000个好友,一个月就是30万个。一个人一个月就能做到30万微信好友规模。如果你有10个员工,一个月就可以做到300万规模。有了这么大的用户量,还愁赚不到钱吗?”。看上去是一桩稳赚不赔的生意,但实际上,他们忘了一点:微信群控营销行为的本质,是建立在大量骚扰其他正常用户的前提下实现的。作者:微信安全中心更多精彩,戳这里:|这是一份可以让你很牛很牛的风控技能包||概率图模型在反欺诈的应用||SAS-字符处理||KS和AUC的关系|
2018年12月6日
其他

概率图模型在反欺诈的应用

图模型的主要应用场景为欺诈侦测报警,从各个特征出现的频率对异常概率进行预警。概率图模型所涉及到的知识点非常广,所以对读者的基础知识要求也相对较高。现在借助以下几个问题开始概率图模型的学习:为什么需要概率图模型及其优点?概率图模型都有哪些应用模型?为什么需要概率图模型?对于复杂系统理解和拆分,图应当是首选的分析利器。概率图模型就是一类用图形模式表达基于概率相关关系的模型的总称。概率图模型结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。也就是说,概率图模型是用图来表示实体之间的关联和约束,具体到机器学习领域就是特征和类别、特征和特征之间以及类别和类别之间的关联和约束。图的表达能力非常强,仅仅用点和线就可以表达实体之间复杂的关系。如果给关联实体的边再加附加上概率,就近一步表达了实体之间关系的强弱和推理逻辑。概率图模型具体可以给我们带来什么呢?这里可以简单概括一下:分类任务中,借助概率图建立实体之间紧凑的依赖关系,可以减小类后验概率计算所需的参数估计工作量。概率图模型可以很容易与专家和领域知识结合,比如做一些实体之间的独立性假设,简化系统实体之间的依赖关系。网络结构概率图模型如图主要分为两种,即贝叶斯网络和马尔可夫网络。贝叶斯概率图模型是有向图,因此可以解决有明确单向依赖的建模问题,而二马尔可夫概率图模型是无向图,可以适用于实体之间相互依赖的建模问题。这两种模型以及两着的混合模型应用都非常广泛。概率图模型可以很清晰的表达实体之间的依赖以及导出联合概率以及条件概率的计算公式。贝叶斯概率图依赖分析及联合概率因子分解。
2018年11月30日
其他

SAS-字符处理

Expression,因为Perl语言以正则表达式著名,其他语言中的正则表达式也基本引入Perl的模式。1.prxparse函数定义一个正则表达式2.prxmatch返回首次匹配的开始位置data
2018年11月23日
其他

KS和AUC的关系

上周末在某论坛里看到一个数据集,就拿来跑跑模型。画出KS和ROC后,就突然想到,以前经常有人问KS和ROC的区别,于是就把自己的理解记录下来,如有错误,请指正。1.KS计算方法假设建模的目标是坏客户(正样本),根据模型的打分结果,对样本按照评分升序排列,或按照预测概率降序排列,计算累积正样本率和累积负样本率,累积正样本率和累积负样本率差的最大值就是KS值。KS曲线见下图。2.AUC计算方法先看如下混淆矩阵,如下图。定义真正率TPR=TP/(TP+FN),假正率FPR=FP/(FP+TN),这里的真正率就是累积正样本率,而假正率则是累积负样本率。在计算AUC值时,同样地对样本按照评分升序排列,或按照预测概率降序排列,设置不同阈值,计算TPR和FPR。然后以FPR为横轴,TPR为纵轴,画出ROC曲线(见下图),则曲线下方的面积即为AUC值。3.KS和AUC的关系现将KS曲线和ROC曲线放在一起比较,如上图。KS图中,红色线是TPR曲线(累积正样本率曲线),蓝色线是FPR曲线(累积负样本率曲线),绿色线是KS曲线。ROC图中,蓝色线是以FPR为横轴,TPR为纵轴,画出的曲线。由于按照正样本预测概率降序排列,所以排在前面的样本为正的概率更大,但为正的概率是递减的;相反排在前面的样本为负的概率更小,但为负的概率递增。所以KS图中,TPR曲线在FPR曲线上方,并且TPR曲线的导数递减,FPR曲线的导数递增,而KS曲线先上升到达峰值P点(导数为0)后下降,P点对应的C值就是KS值。ROC图中,ROC曲线的导数是递减的,且刚开始导数大于1,逐渐递减到导数为1的T点(T点对应P点),然后导数继续降低。另外,A值对应X值,B值对应Y值,且C=B-A=Y-X。在用KS评估模型时,除了看P点对应的KS值C,还要看P点的横坐标F值的大小,一般来说,相同的KS值,F值越小越好。F值越小,说明模型对正样本的预测越精确,也就是说在识别出正样本的同时也能保证对负样本更小的误杀率。
2018年11月22日
其他

模型实施

小编之前在p2p公司工作,主要负责的线下大额贷款,关于决策点cutoff的确定主要是根据通过率来确定。但小编最近面试了很多公司,大多是线上产品,面试官问了很多关于cutoff的确定,小编在这里总结一下如何确定cutoff,可能有很多错误的地方,还请大家指出。一般来说评分卡的cutoff应用是:1)设置两个决策点:如果进件评分高于
2018年11月21日
其他

模型监控

大家知道,搭建完模型就要进行模型的实施及监控了。本篇文章主要介绍模型的监控部分。评分模型是基于过去数据去预测未来,一般随着时间推移,客群和风险点会发生变动,如市场环境周期波动造成风险点的变动;如策略的变动造成的客群变动等等。因此评分卡模型在开发上线之后,需要定期进行监控报告,当异常情况出现时要进行适当维护,确保评分卡能有效的识别客户信用风险。一般模型监控分为前端监控和后端监控。前端监控主要是近期客户与评分卡建模时点客户是否一致或呈现稳定形态。
2018年11月19日