如何搭建和实现互联网金融授信领域的风控模型?

感谢各位关注问题,求业内人士分享。问题背景:在美国,传统的授信一般是FICO,但因为中国没有征信局的存在,所以FICO应用不广。不同的企业都有自己的方法,比如宜人贷、京东白条、阿里小贷等,有没有不涉及

请先 登录 后评论

1 个回答

xxxxxa

简单回答一下,权当抛砖引玉,希望能有专家出来回答 :-D

首先要解释风控和授信

  • 风控是风险控制,主要是控制业务流程中作弊和欺诈行为的发生
  • 授信是指企业向客户提供资金支持的行为

所以,互联网金融授信过程中的风控,目的主要是控制欺诈,核实本人身份和资料真假

领域限定:互联网上的个人信贷

不同领域的风控业务相差较大,其他领域不太熟悉。

目前主要的风控方式有3种:

  • 线下风控:就是靠人工面对面确定身份、居所和工作单位等;
  • 线上风控:银行卡实名认证、手机号实名认证、央行征信、第三方征信、其他黑名单数据、自己黑名单、防伪冒欺诈数据……主要是各种自己获取的数据和第三方数据交叉验证,训练自己的风控模型;
  • 线上和线下结合风控:部分高风险业务,可以投入人力审核,但要注意ROI。

如果是线上风控,核心3要点有:

  • 数据
  • 模型
  • 规则

其中,最重要的是数据,因为核心数据资源是稀缺的。

线上风控使用的数据大多属于2类:行为数据和资质数据。

做个人信贷,比较重要的资质数据是:个人身份信息、社交信息、电商购物信息、信用信息。

常用的数据采集点包括:

  • 个人身份信息(身份证、学生证、学信网)
  • 社交信息(通讯录、通话记录、搜索引擎、微博人人等社交网站)
  • 电商购物信息(电商购物、快递记录)
  • 信用信息(信用卡、贷款情况)

以上资料,主要是由客户主动提供,再加上企业从各种渠道拿到的数据,进行交叉验证。

比较重要的行为数据有:设备数据(cookie、MAC、IMEI)、位置数据(IP/LBS/GPS)、时间属(填写速度、时间)、业务行为(资料修改)等等。

业界使用的风控模型差距不大,比较通用。

从线性的LR模型,到GBDT、随机森林,再到最近很火的神经网络,性能逐步提升。

模型的选取,主要考虑业务需求和技术能力,虽然LR比较简单,但也有很多优点,所以在特定领域特定问题上表现很好,仍被广泛采用。

具体到个人信贷业务上,需要一个非常抗过拟合、非线性能力的模型。

规则一般由经验丰富的专家来人工定义,在业务量不大的初期,完全可以通过人工规则来处理风控问题。

当然,随着业务量的增大,后期还是很依赖模型的学习能力。

常见的应用案例

paypal/支付宝在支付领域的风控:https://gigaom.com/2015/03/06/how-paypal-uses-deep-learning-and-detective-work-to-fight-fraud/

如何评估效果

有2个关键指标:准确率/召回率,分别对应误警和漏警。

  • 准确率/误警:错误识别,将好客户当做风险点处理。需要平衡用户体验和可解释性,处罚规则不应过于粗暴。
  • 召回率/漏警:漏掉了风险,将风险客户当做好客户处理。

模型和规则的更改,在上线前,需要做很多离线和在线的测试,确保最终效果是可以接受的。

暂不清楚业界是否有其他方法,请专家补充。

其他

  • 除了风控模型,整体的风控流程也非常重要。
  • 风控与业务高度相关,更换客户群体和领域后,风控策略、模型特征、规则就会发生巨大的变化,所以很多东西是不能通用的。比如大学生消费贷款和白领的信用贷款,所需要的数据特征就很不一样。
请先 登录 后评论