• 预热世界杯 玩法各异!3张竞彩红单了解一下 2019-10-18
  • 崇拜不劳而获是腐败的根源之一,正气不足是腐败的第二个根源,沉迷于初级趣味易滋生腐败,提高素质力争不想腐,以医者之心防治腐败。 2019-10-09
  • 人民日报评论员随笔:让文化热情涵养更多经典 2019-10-09
  • 国产手机跟进“刘海屏”,凸显苹果在智能手机市场的影响力 2019-10-05
  • 世界杯倒计时:球迷街头狂欢为自己的国家打Call 2019-10-02
  • 紫光阁中共中央国家机关工作委员会 2019-09-24
  • 洪崖洞客流激增 渝中开通2条应急通道12辆公交车驰援 2019-09-24
  • 中央环保督察“回头看”10省区问责630人 2019-09-19
  • 天津举办改善营商环境专题讲座 2019-09-19
  • 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析篇:基于海量数据的异常交易研究(上篇)

    辽宁快乐12直选走势图:数据分析篇:基于海量数据的异常交易研究(上篇)

    浙江快乐彩和值走势图 www.pn-vs.com 来源:数据分析师 CPDA | 时间:2019-05-05 | 作者:admin

    近年来,随着我国普惠金融的发展,贷款欺诈行为屡见不鲜,贷款归集现象较为严重,为商业银行风险管理迎来新的挑战。

     

    本文通过对银行卡交易流水样本数据进行分析,综合运用社交网络、知识图谱的理论算法,运用大数据可视化工具,寻求对具有异常交易的资金归集群体进行捕捉,通过构建异常交易网络模型的方式对异常贷款行为进行分析,为信用风险管理的工作提供辅助。

     

    通过构建策略模型工具的方式,建立识别金融交易属性中资金归集特性的欺诈行为,力求模型兼具实用性与创新型,对实际应用有一定的指导作用。

     

    关键词:

    大数据;可疑交易;资金归集;社交网络;知识图谱。

     

    第1章 可疑交易分析的价值与意义

     

    随着零售信贷业务的发展进步,线上自动化业务逐渐成为一种新的金融产品模式。这种由线下转为线上、由纸质人工变为数字自动、由服务渠道单一化转为多样化、由大众标准服务转为个性体验服务的模式转变,带来的不仅是客户体验的提升与效率的增加,随之而来的还有异常丰富的数据,逐步形成了多渠道多维度的海量数据。

     

    因此,以新技术与海量数据为驱动的风险管理的模式已经得到快速的发展,互联网开放、分享、去中心化的特点可以提供更好的客户体验,但在实际的风险管理中,互联网客户的欺诈行为也较为严重,其中比较突出的现象之一,就是以贷款归集现象为表现的异常交易行为,为商业银行的风险管理带来了新的挑战。

     

    如何从海量的数据中筛选出异常交易的数据,并对信息进行管理是一个难题。异常交易的突出特征是资金的异常归集行为,虚假的交易流水与违规的贷款用途将增加风险管理的难度。通过大数据技术,结合风险管理经验,充分挖掘海量的数据中蕴含的特征信息,对人工分析难以捕捉的价值信息进行自动化识别,降低风险管理成本,提高精确识别能力,对商业银行的贷款管理具有重大的意义。

     

    第2章 可疑交易网络构建

    2.1 策略研究与数据准备

     

    通过对某行四个地区的某年度共计7495.78万的数据进行分析挖掘,各地区交易流水数据量及占比如图2.1所示,可以看出交易流水数据量已达到千万级别,因此传统的数据分析及挖掘方法已难以解决,需要利用计算机大数据分析方法,基于海量数据的挖掘算法对数据进行进一步清洗、建模与挖掘分析。

     

    基于海量数据的异常交易研究 - 数据分析篇:基于海量数据的异常交易研究(上篇)图2.1 某行四个地区交易流水数据量及其占比

     

    通过业务上对异常交易的特征定义,对交易流水数据分析,捕捉其中交易的关联性,从而作为构建复杂网络的基础。第二步为对海量数据的清洗,清洗原则包括将资金流入、资金流出、交易时间、交易对手、交易金额、交易频率、交易分类等十几个维度纳入考量,整理出三十五项清洗规则,从海量的资金交易流水中筛选出异常的交易,通过多维度的考量数据相关性、交易对手特征、交易时间范围、交易金额特征等,捕捉其中高风险的交易。最后,从高风险的异常交易流水中清洗出可疑的交易流水。

     

    基于海量数据的异常交易研究1 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    图2.2 流水清洗数据量变化表

     

    数据量变化范围如上图2.2所示,可以通过趋势线看出,经过复杂数据关联后,数据量由原始流水最初的7495.78万迅速增长了5倍,达到了3.75亿的数据量,通过清洗模型的清洗,异常交易的数据被筛选出来,最终获得的可疑流水约0.53万。流水的清洗工作是通过SAS工具完成的,得到了字段含义清晰、完整且规则的数据,为下一步构建可疑交易网络模型做准备。

     

    2.2 欺诈网络分析模型构建

     

    根据清洗模型的清洗结果,依据社交网络中的流-组算法(Stream-Group)进行建模和分析,并通过可视化的工具进行展示,以便更加直观的展示给风险管理人员,为其判断客户的风险提供数据上的支撑与依据。

     

    2.2.1 建模原理

     

    首先,需要做以下几点内容需要明确:(1)同一人名下有可能会对应多个卡号;(2)所有人的卡号视为一个集合,并包含在研究的数据集中;(3)多对一的归集和一对多的归集行为,对于我们研究的可疑交易,转出方与转入方是相反的。

     

    Node(V):节点。将每一个同一卡号的持卡人定义为一个节点。

     

    Edge(E(t)):边。若两个节点之间有转账记录,则说明两者之间有关系,将两者之间的阶段用带时间的t的有向边进行标记,方向由转出方指向转入方。

     

    Weight of Edge:边的权值。根据不同的情况,定义不同形式的边。如果两个节点之间具有关系,可以通过定义边的权重的方式进行转账关系频率的表示。即两节点转账频繁,则边的权值大。若要获取转账金额与还款金额之间的关系,我们会定义两者的比率为边的权重,更加直观的展示出其贷款的还款金额与他人为其转账的金额之间的关系。流-组(Stream—Group)算法在有向图挖掘上具有良好的效率。其流程大体为:首先,采用S-Group算法发现最新网络的社区结构;其次,计算最新网络的划分I^x与以当前网络图分割S^x的划分I^x的相似度;最后,根据划分的相似度和指定的阈值C_0判断是否出现变化点,如果时间片t不是变化的点,那么采用Inc-Group算法更新网络图分割S^x的划分I^x,否则开启一个新的网络图分割S^(x+1)。对于图分割矩阵S^x,假设有那个节点,那么图的矩阵表示如下:

     

    数据分析篇:基于海量数据的异常交易研究 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    其中:数据分析篇:基于海量数据的异常交易研究1 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    给定图G的子图G^',R是G的关联矩阵,则G^'的紧密度计算如下:

     

    数据分析篇:基于海量数据的异常交易研究2 - 数据分析篇:基于海量数据的异常交易研究(上篇)

     

    算法的详细过程、矩阵与图的计算,由于篇幅所限,暂不做详细介绍。

     

    2.2.2 模型构建与可视化

     

    基于以上原理,对数据进行建模,本课题的可视化构建工具采用的是Geghi 0.8.2 beta版对数据进行展示的,根据每一个账户之间的转账关系进行聚类,为了更加直观的对数据进行展示,再根据已经处理好的数据中的每一个节点的入度和出度,以及边的权值,对节点与边进行处理。

     

    数据分析篇:基于海量数据的异常交易研究3 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    图2.3 模型构建过程

     

    如图2.3所示,为模型构建的流程,数据由最初的散点分布最终聚类成为各个聚簇,并根据各群体特征使用不同的颜色进行标记。图中左上图为初始阶段为进行聚类的数据点分布;右上图为根据节点的度与边的权值进行数据预处理,标记为不同的颜色;右下图为使用胡一凡算法进行聚类与数据布局;最终得到左下图所示的聚类簇,即通过算法与可视化工具获得了每一个进行资金归集的可疑群体,为了更加清晰的对捕捉的可疑群体进行展示,通过Fruchter Atlas算法对可疑数据进行重新布局,获得下图。

     

    数据分析篇:基于海量数据的异常交易研究4 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    图2.4 Fruchter Atlas算法布局结果

     

    如图2.4所示,采用Fruchter Atlas算法进行布局,获得了可直观展示资金流向的布局图。由上图,以展示的一对多的资金流水归集方式为例,每一种颜色的节点代表每一可疑的交易群体,在每个群体中,可疑交易的资金归集人为中心节点,其节点相对较大,边界点为可疑的交易客户。由于数据保密性要求,将客户信息进行隐匿,仅作结果展示。

     

    数据分析篇:基于海量数据的异常交易研究5 - 数据分析篇:基于海量数据的异常交易研究(上篇)

    图2.5 A地区、C地区可疑交易流水分布热图

     

    另外,通过可疑交易数据可以获得可疑客户的地址范围信息,如图2.5所示,根据可疑交易客户的地址信息,我们可以可视化的展示出可疑用户的主要地理位置,图中左半部分为A地区的可疑流水热图,右半部分为C地区的可疑流水热图,该图是根据地址获得经纬度,并通过可视化工具完成的,实现了以大数据的方式多维度的刻画客户风险。

     

    未完,请接下篇详情阅读

    数据分析篇:基于海量数据的异常交易研究(下篇)

    文 / 北京CPDA数据分析师 兰铁

  • 预热世界杯 玩法各异!3张竞彩红单了解一下 2019-10-18
  • 崇拜不劳而获是腐败的根源之一,正气不足是腐败的第二个根源,沉迷于初级趣味易滋生腐败,提高素质力争不想腐,以医者之心防治腐败。 2019-10-09
  • 人民日报评论员随笔:让文化热情涵养更多经典 2019-10-09
  • 国产手机跟进“刘海屏”,凸显苹果在智能手机市场的影响力 2019-10-05
  • 世界杯倒计时:球迷街头狂欢为自己的国家打Call 2019-10-02
  • 紫光阁中共中央国家机关工作委员会 2019-09-24
  • 洪崖洞客流激增 渝中开通2条应急通道12辆公交车驰援 2019-09-24
  • 中央环保督察“回头看”10省区问责630人 2019-09-19
  • 天津举办改善营商环境专题讲座 2019-09-19
  • 日本核能行业誓言日本将在今年内重新启用核电 2019-09-03
  • 中国保险行业协会发布汽车后市场配件合车标准 2019-09-02
  • 晋中市通报五起违反中央八项规定精神问题 2019-08-30
  • 两小鸟缠绕困路中,公交司机车流中救助 2019-08-30
  • 互联网药品信息服务资格证书 (京)-经营性-2009-0016 2019-08-29
  • 淮南23家存在重大安全隐患单位被挂牌督办 2019-08-29
  • 手机怎么购买福利彩票 足球队服 四川时时彩网 手机上炸金花技巧规律 波克捕鱼万炮版 云南快乐十分遗漏数据 金蝉捕鱼破解版 足球宝贝2006开阴彩绘 陕西快乐十分最大遗漏数据 北京11选5走势一定牛 快3图标 皇朝国际娱乐网站 十二生肖波色表图2019 欢乐斗地主小游戏 香港生肖时时彩微信