如何“谨慎”使用“数据驱动”的风控模型(一)—— 数据篇

/ 知识分享 / 没有评论 / 197浏览

谨慎使用“数据驱动”

       人工智能时代来临,2017年“数据驱动”在整个信贷生态圈热度陡增,无论是金融机构、助贷机构、征信机构、大数据厂商等,无不在各大论坛、峰会、沙龙、融资中宣传各自“数据驱动”的理念。而银监会的121号文则给大大小小的机构泼了一盆冷水,“谨慎”使用“数据驱动”的风控模型,字字珠玑。我们认为,监管层的意图无需过度解读,但无疑监管层已深刻洞察行业鱼龙混杂,充斥着以“数据驱动”为名、实以高利率覆盖高坏账的玩家。我们也在与各大信贷机构的风控从业人员、风控解决方案提供商的交流过程中,发现对“数据驱动”理念一知半解的大有人在,更别谈“谨慎”使用了。我们总结认为至少存在以下误区:

  • 对接了外部征信数据就认为是“数据驱动”或者是“大数据风控”
  • 过度依赖大厂或权威资源,例如芝麻分、人行征信等等,缺乏自主风控能力
  • 算法至上,认为风控模型解决一切,KS值多高、坏账率控制的多低,云云

       人工智能的发展离不开数据,作为未来消费金融行业的重要着力点,如何正确搭建“数据驱动”的风控模型,并“谨慎”使用呢?

       首先谈理念,这里需要将讨论的范围从狭义的风控模型扩展到风控体系,限于篇幅,仅介绍小额消费信贷的风控审核场景,应对欺诈风险及信用风险,不包括操作风险、流动性风险及系统性风险。大额度的消费信贷或小微企业融资,以目前的征信数据条件人工参与风控是必不可少的,此处不再赘述。数据驱动(风控)的关键理念包括:

       ->理解你的客户,不同的客户群体、消费场景、产品设计所面临的风险点是不同的,没有一套风控体系(风控模型)可以包打天下;

       ->数据为先,有用的数据、高质量的数据是成功的关键,如同没有上好的食材,给个米其林三星大厨也没用;

       ->风控体系搭建非一日之功,数据驱动也非一针见效的灵丹妙药,需要不断的迭代、优化,小步快跑,早期建议先进行小范围、短周期试验,除非公司不在乎钱;

       ->风控的目的不是杜绝坏账,而是基于盈利的预期,平衡风险与收益,取得利润最大化

       ->紧盯你的数据表现,切勿盲目乐观,新的风险往往从未知之处悄然而至,如果你的风控体系能越快识别、应对、抵御这些风险,遭受的损失就会越少。

       铺垫了这么多,终于可以切入主题了。谨慎使用“数据驱动”的风控体系,需要“数据 + 决策 + 监控”的动态闭环。整个体系需要不断的演进,通过持续的模拟测试,A/B实验,不断发现新的规律、新的变量,使风控体系越来越健壮。


数据篇

       风控数据包括了采集的原始数据与加工的衍生数据,原始数据包括产品采集的用户基本信息、设备指纹、消费场景相关的交易信息,以及外部征信数据;衍生数据是按照风控决策的需要,对原始数据加工后的变量。

       数据的种类很多,用途也很多。设备指纹数据与反欺诈高度相关,多头借贷、失信被执行人等数据则与信用风险强相关,性别、年龄、地域、学历等则是信用风险的弱相关数据,通常组合在一起使用更有效。

       在互联网爆炸的时代,XX盾,XX融,XX查,XX联等数据供应商铺天盖地,企业内部也有动辄成千甚至上万的数据标签,大家似乎都不缺数据。然而,数据多不代表数据有用,数据多不代表能够支撑高频、实时、复杂、多变的风控决策,错误的数据一定会得到错误的决策结果。因此,今天我们着重和大家聊聊数据质量管理,如何确保数据能用、有用。

       数据质量管理,通常由以下5个关键步骤组成:质量问题探查,清洗规则定义,清洗方案测试及部署,实时数据清洗,数据质量监控。

       数据剖析:解决问题之前,必须了解问题。要解决数据质量,首先要了解数据的现状,了解潜在的问题。举个栗子,假设我们拿到一批数据,其中有性别这个字段,我们想当然会觉得里面的值应该是“男”或“女”,但实际观察里面的值可能是“男”、“女”、“男性”、“女性”、“F”、“M”,“空”,等等;再比如,身份证的字段,有些是18位的,有些是15位的,也可能是12位的,仔细观察12位的数据,它是截取了前4位或后4位,中间用了*号做掩码;再比如,电话号码字段,观察其中的数据,有固话、手机、带区号的、不带区号的,区号分国家代码的,区号不分国家代码的,等等。可以想象,数据字段越多,剖析出的问题会非常多。我们有时把数据质量管理等同于数据清洗这个动作,实际上,数据剖析的重要性丝毫不亚于数据清洗的执行,没有足够的数据剖析,是无法制定完善的数据清洗方案的。

       清洗规则定义:通过数据剖析,了解了数据的各项问题之后,就可以针对各数据项的特点,设计清洗的规则。清洗的方法有很多种,包括替换、映射、截取,等等。除了将数据清洗成干净有用的数据之外,通常还需要制定规则,将无法清洗的脏数据隔离起来。

       清洗方案测试与部署:确定了清洗规则之后,部署之前应经过充分的模拟和测试,可以先用离线数据、历史数据进行批量清洗,检查清洗的效果。

       实时数据清洗:清洗方案部署到线上系统后,可以自动清洗实时采集的数据,及时将脏数据隔离起来。

       数据质量实时监控:数据清洗不是一劳永逸的,一切都在变化之中。是不是出现了新型的脏数据?清洗程序有没有正常运行?数据源是否出现了质量事故?数据源是否断了?能不能自动切换主备线或采取其他的备用机制?一句话,数据质量实时监控

       好了,数据篇的主要内容今天就介绍到这里,近期还会继续推出:如何“谨慎”使用“数据驱动”的风控模型(二)-- 决策篇,向大家介绍完整的风控决策体系,敬请期待。