机器学习在银行收单侧套现智能排查中的应用初探-移动支付网

机器学习在银行收单侧套现智能排查中的应用初探

2022-4-19 13:29

机器学习(Machine Learning)作为人工智能领域的一个较为基础的实现方式,其形式化定义为：对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E的积累而自我完善，即可称该计算机程序正在基于经验E进行机器学习。机器学习每次运行(学习)的结果大概率是不一样的，具有迭代的特征，体现出学习的能力，这也是其区别于传统计算机应用的一个显著特征。

按照人工智能泰斗闫乐坤(Yann Lecun)的定义，机器学习包括三大范式，即基于标签数据的有监督学习、没有数据标签的无监督学习和基于外界环境刺激的强化学习。目前，在金融领域广泛应用的是有监督学习范式。如图1所示，从样本数据中学得模型的过程即称为“学习”，这个过程通常是通过在学习系统中执行某学习算法来完成的。有监督学习又分为基于连续变量(函数)的回归学习与基于离散变量(概率)的分类学习。机器学习的目标是使学得的模型能更好地适用于新样本，要利用学得的模型进行预测，并在实际场景中验证其泛化能力。

图1 有监督学习范式工作过程

一、机器学习在金融领域的应用

人们通常认为机器学习的三要素为算法、数据和算力。事实上，机器学习的工业化普及显然还需要场景的加持。机器学习作为一个并不年轻的学科，之所以在本世纪取得了突飞猛进的进步，主要是源于这几类要素在这些年取得的飞速进展及其相互间的化学反应。特别是在金融领域，海量的数据、足够的算力与精进的算法工业化完美结合，使得机器学习在风险控制、客户推荐、信用评价、量化投资、资产组合管理等场景中得到了广泛应用。

从经济本质上说，金融的获利是依靠非对称信息，而人工智能可以强化金融机构获取非对称信息的能力。金融机构在人工智能这一科技领域的应用上终于开始具有了基因上的优势。当然，目前来看，商业银行通常没有能力也没有必要去研究基础算法，其优势是大数据及算力资源、可落地的场景以及可控的持续反馈(学习)能力。美国证券交易委员会(SEC)正是在大数据、事实型知识图谱等的支撑下，通过整合近40年的“无序”数据发现了纳斯达克前主席麦道夫的世纪骗局。

二、利用机器学习进行收单侧套现排查

套现风险是近年来内外部合规检查关注的焦点问题，特别是在其被监管部门定性为与洗钱风险可能存在交集以后，套现排查的准确性与效率越来越成为银行风控人员关注的热点问题之一。

一般意义的套现行为涉及套现商户账户、套现出口账户(套现团伙控制的个人账户)、套现入口账户(信用卡持有人账户)等交易主体。表现形式一般为多张信用卡在某(些)商户机具上大量刷卡消费，随后商户入账资金被转入某个人账户，资金再通过各种方式支付给信用卡持卡人(佣金)或套现团伙。套现行为本质上属于金融欺诈行为，对于金融机构来说，套现行为不仅影响金融机构的合规审慎经营，也可能成为洗钱犯罪的通道工具，面临着重大的法律与合规风险。目前，套现行为的实现手段不断翻新，且逐步呈现出隐蔽化、团体化、产业化的发展趋势。对套现行为的智能化侦测既是商业银行挖掘实现内外部数据价值、推进合规建设与智能风控建设、实现数字化转型的需要，也是监管部门乃至国家宏观经济安全层面对商业银行的要求。

传统的收单侧套现交易侦测手段主要依赖于规则进行可疑交易的识别。例如，商户主使用本人信用卡在本人商户刷卡消费，被认定属商户本人套现行为；持卡人完成信用卡消费后，短时间内消费商户向信用卡持卡人名下借记卡转账且触发设定阈值，商户则被认定为协助持卡人套现。这种通过规则来进行识别的模式通常只能覆盖一部分实现手段较为简单、可用规则清晰定义的套现场景。随着套现与反套现之间的攻防对抗不断演进，套现手段也在不断升级。原有的基于规则的排查方式无法满足内外部检查的要求。在实际套现场景中，存在大量看似账户不属于同一个人，但实际上是有关联关系的团伙或者小团体套现，其间存在着大量复杂的资金往来关系，即存在“规则维度爆炸”的倾向，仅仅依据专家经验、通过人工制定套现规则的方式很难有效实现对套现行为的跟踪定位。

伴随着人工智能、大数据、知识图谱等技术的发展及其在金融领域的逐步应用，金融机构在风险管控方面有了更多的思路与手段，如何借助金融科技手段提高银行的风控能力和效率，成为商业银行数字化转型的重要组成部分。

为此，一些银行通过引入大数据与机器学习等技术来解决这一痛点问题，尝试采集信用卡的还款信息、借记卡的转账信息、相似的地址信息等图类特征，通过利用机器学习建立基于模型的高维度特征向量，去发现隐藏更深、更隐蔽的非法套现行为。一方面，基于对商户资金流动路径的分析，从信用卡端、商户端到回流账户端出发进行深度挖掘，全方位监控商户的资金流动状况，分析商户的交易数据；另一方面，基于对历史套现案例进行分析，提取其他关键特征作为补充，最终构建套现交易侦测机器学习模型，用以辅助发现套现交易，提高收单侧反套现的工作效率，实现风控工作从传统人力密集型向智能密集型的数字化转型。

套现排查可以被理解为一个分类问题。为解决这类分类问题，机器学习提供了逻辑回归(Logistic Regression)、朴素贝叶斯(Naive Bayes)、决策树(Decision Tree)、决策森林(Decision Forest)等多种模型算法，以及正则化(Regularization)、梯度提升(Gradient Boosting)、Bagging、Stacking等多种行之有效的工业方法。当然，模型应用的效果还取决于数据清洗、特征工程以及参数调优等很多主客观因素，需要我们在实践中不断探索与试错。

三、机器学习建模流程概述

机器学习作为一种已经工业化的技术，有着自己较为成熟的方法论。基于机器学习实现收单侧套现智能排查，其机器学习建模流程如图2所示。

图2 机器学习建模流程

1. 问题定义

该阶段主要将业务问题转化为机器可学习的目标任务，其间需要明确样本和标签定义。

2. 数据导入

该阶段主要将训练模型需要的数据导入机器学习平台，通常是若干张不同维度的数据表，包括各类跨时间尺度全量数据和不同时点的切片数据。

3. 数据处理

该阶段主要对数据的数量、格式、合法性、缺失情况等进行探索、检查与处理，根据需要进行一些加工与清洗，从而得到更多有价值的数据。

在机器学习中，数据从无序到相对“有序”的过程很重要，数据本身和对数据的加工过程会极大影响机器学习的效果乃至最终结论。算法学习过程决定了数据价值产出的实际效果，而数据质量则决定了数据价值产出效果的上限。

4. 特征工程

该阶段主要提取、衍生足够的数据特征，并最终拼接成一张大的特征宽表用于模型训练。

5. 模型训练

该阶段主要选取合适的算法进行模型训练，持续地、有针对性地调整训练参数，生成更好的机器学习模型用于后续的迭代计算。同时对模型训练模块生成的模型进行评估，选择效果最优的模型作为最终的生产模型。

人工智能项目通常不是“交钥匙”的交付模式，模型的投产仅仅是个开始，后续仍旧需要不断地设计场景、训练模型，不断地试错甚至调整方向。

6. 模型评估

该阶段主要对模型的实际运行效果进行评价并反馈。

四、基于机器学习实现

收单侧套现智能排查的实践

在本次收单侧套现排查实践中，我们主要采取了梯度提升决策树(Gradient Boosting Decision Tree，GBDT)算法进行模型训练。

1. 算法介绍

提升(Boosting)是一种常见的机器学习技术，在分类问题中，通过改变训练样本的权重学习多个弱分类器，并将这些分类器进行线性组合，以提高分类器的性能实现强学习器，即“三个臭皮匠顶个诸葛亮”这一思路。它通常采用对基函数进行线性组合与前向分步算法，其数学基础是：所谓强学习器与弱学习器在概率近似正确框架(PAC)下等价。提升树是以分类决策树(Decision Tree)为基函数的提升方法，由于它可以在数据输入、输出间关系十分复杂的前提下很好地拟合训练数据，被认为是机器学习中性能最好的分类算法之一。

所谓梯度提升方法是将损失函数的负梯度(求偏导，即

在当前模型的值作为当前模型拟合数据的残差(Residual，即实际值减去预测值)近似值，不断使用残差拟合的方法进行迭代，并最终生成强学习器。GBDT在本世纪初由Friedman等数据科学家首先提出，在分类算法中得到了广泛应用。

2. 实现过程

收单侧套现排查是一个典型的二分类算法，即需要在消费交易样本全集中区分出正常交易和套现交易。我们通常称样本数据中的套现交易为黑样本。黑样本的来源主要包括各类内外部检查、银联等外部机构协查、业务部门基于规则发现等。不同于其他欺诈行为，目前套现行为缺少充足的黑样本，这也是我们需要克服的主要困难。本次实践使用的数据包括商户交易流水表、信用卡交易流水表、借记卡交易流水表以及信用卡账户还款数据等账户明细数据，此外还包括开卡开户信息等其他数据。

数据处理(清洗)的主要方式包括处理离散缺失值、删除缺失率大于一定数值的变量、处理连续缺失值、删除唯一值变量、对交易时间及交易金额等进行分箱处理等。这一步骤是最耗时的阶段，通常会耗费70%的精力与时间。针对反套现建模的特征工程从账户基础信息、异常交易行为、关联交易三个方面展开，基于基础特征、衍生特征、图类特征、时间特征等维度尝试生成一个具有一定可解释性的特征集合。

机器学习的算法研究相对高深与前沿，但代码实现在Python及各种先进工业框架的加持下则相对简单。GBDT模型的搭建与训练核心代码如下：

#GBDT模型搭建及训练

在金融实践中，模型评价通常通过扩召回实验的方式，即通过对历史上未被认定为套现数据的回溯，基于模型运算结果，由总分支机构业务人员配合二次确认完成。

3. 实验结果

在扩召回实验中，我们选定了323笔经模型预测得到的可疑交易，最终被认定为套现的交易共有164笔，命中率50.77%。这次实践证明利用机器学习的方式发现可疑套现交易是完全可行的。当然，这其中是否存在过拟合(overfitting)的倾向，还需要在后续的迭代学习过程中继续观察。

4. 实验结果分析

本次实践的主要瓶颈是数据的完整性与一致性，如果能获取到更完整的数据链条，或是获取到更多的特别是基于知识图谱类的信息，对于模型训练、提升侦测效果会有更大的帮助。

模型的训练需要反复的迭代。为保证这一过程的高效进行，除了要打造一个科学、可验证的模型引擎外，还需要在此基础上打造一套完整的工作流引擎，即实现从历史数据持续导入、模型不间断运行、可疑数据下发、分行反馈与验证到样本数据导入参与模型进一步训练等环节的闭环流程，最终实现快速迭代、自我学习。这是一个要素数字化、过程自动化的过程，模型投产后可自动产出标签，自动跟实际验证效果进行比对，自动调整模型内部参数结构，自动设定每日/周/月进行定期重新学习，从而达到越来越理想的效果。

另外，本次套现侦测实践是从收单侧出发，而套现行为的另一主体则是发卡侧的信用卡。如果发卡侧、收单侧之间信息能够充分打通，应该能发现更多的套现行为。当然，这同样也需要更强大的数据来源支撑和数据加工能力，以及基于客户信息安全保护的合规性考量。

五、几点思考

1. 关于模型的可解释性

在将机器学习等人工智能技术应用到银行风控环节的初期，可解释性是个绕不开的话题。特别是在将可疑案例下发到分支机构进行排查的阶段，分支机构对可解释性有着很高的要求。如果不能提供足够的排查线索，可能会出现“算法认为是，员工认为不是，但实际上可能确实是”的无奈现象。之所以选择GBDT算法，也是因为决策树的思维方式接近人脑，从某种意义上说具备可提供解释的算法基础。但即便如此，人工智能算法及算力客观上也会制造“维度爆炸”。机器学习超越人类专家的维度临界点是千万级，例如，国内某互联网公司基于机器学习的广告推荐引擎，特征维度量级已超过百亿级，部署在2万～3万台服务器上，在这个数量级运行的特征向量是很难用人脑解释的。我们现在所要求的“可解释性”是否会发展成为“不可解释”？如何与员工有效地沟通，建立新的算法理解、信任、执行与审计机制，是我们迟早要面临并解决的问题。同时我们也应看到，基于规则的广告推荐引擎，1万条规则即需要几百人进行维护，而引入机器学习后，基于模型的百亿数量级特征的维护人力同样也是几百人。人工智能大大解放了生产力。

2. 业务先行还是技术先行？业务驱动还是技术驱动？

这是一个在实践中仁者见仁智者见智的话题，同时也是一个需要基于历史阶段定位辩证地进行讨论的话题，即在不同应用和历史阶段，二者的侧重点可能会有所不同。业务与技术可能是交互引领同时又互相牵制的关系。初期如果没有业务的引领，就技术论技术，人工智能应用的发展极有可能得不到团队的普遍认可与采纳，成为“无本之木”；但因为人工智能技术发展的超前性与革命性，业务模式的发展确实需要技术的引领和驱动。所以二者之间的最常态可能是一个业务技术双行、技术业务双驱的动态平衡。例如，目前为解决样本数量较少特别是黑样本数量稀缺的问题，业界就已经提出了“小数据”理论，尝试实现基于“小数据”的自动因子学习和迁移学习，并提供数据打标和数据合成的整体解决方案。

3. 如何规避人工智能算法的各类风险

随着机器学习、深度学习、强化学习等人工智能技术的快速发展，其可能产生的法律合规风险及伦理风险也逐渐显露，例如，人脸信息采集的合法性、自动驾驶(机器人)事故的伦理甄别、隐私数据的权属是采集人还是被采集人等。对于机器学习在金融领域的应用来讲，其合规风险主要来自大数据的采集与应用过程，特别是一些跨行业数据的应用。《中华人民共和国个人信息保护法》和《中华人民共和国数据安全法》两部重磅法律的先后出台，标志着“数据自由流通、可控流通、可计量流通”开始落地，金融行业有了合规运营的法律依据。隐私计算是实现这一目标的重要技术手段。隐私计算主要包括多方安全计算、联邦学习、可信计算等技术，为构建“数据可用不可见、数据不动价值动”这一愿景提供了技术支撑。金融行业面临着来自市场竞争和监管的双重压力，对于隐私计算技术的需求也最为迫切。

人类历史上历次产业革命的本质是在提升资源配置效能的同时提高风控能力，目前人工智能已经具备了这样的特征。人工智能作为一种通用技术，已逐渐发展为覆盖金融领域的国民级应用，成为具有时代标志属性的产业基础设施。人工智能正在加速拓展人类对未知世界认知的边界，我们也期待它在银行领域有着越来越广泛的应用。

（本文作者单位为华夏银行个人业务部）

本文转载目的在于知识分享，版权归原作者和原刊所有。如有侵权，请及时联系我们删除。

分享 ()收藏

评论加载中

月点击排行