发布时间:2023/8/14 14:52:29
对金融机构授信部门而言,数据挖掘技术已经开始扮演着日益重要的角色,如何发掘房屋贷款户数据库中所包含的信息,并利用这些信息及早预测出可能发生违约的不良房屋贷款户,并拒绝贷款给这些高危群,藉此降低呆账发生机率,同时减少金融机构损失,这就是房屋贷款信用风险管理。以往银行大多使用人工方式对申请人的信用状况,依照5C的原则,即房屋贷款户的特性、还款能力、资本、抵押品及总体经济环境,进行相应审核,但面对日渐增多的申请案件,若要维持人工审件,银行势必花费可观的人力成本。同时,人工审件时,审核人员大多根据经验主观判断申请人的信用状况,为此银行必须研发正确、有效且快速的信用审核制度。
二、审核系统建构方法
1.类神经网络模式
类神经网络是目前发展极为迅速的一门学科,其最大的优点是除可应用于拟合非线性形式外,还能弥补多元回归及建立ARIMA 模型时受诸多假设约束的缺陷。
类神经网络的网络型态有许多类,其中以倒传递类神经网络为最具代表性、应用最广的模式之一。其网络结构一般而言包含三层神经元:输入层、隐藏层及输出层。类神经网络对于变量的选取有较大的自由度,没有如回归分析般的限制,研究者须以文献、专家意见判断或经由统计方法处理,进而选取输入层的输入变量。而在输入层之变量决定后,对于网络结构中的隐藏层数目、隐藏层中神经元数目、训练的学习率大小等,都需要以主观逻辑判断,或以不同组合加以测试,以找到能产生最佳预测结果的参数。
2.判别分析
判别分析要求数据满足独立同分布,以及正态性的要求(Johnson等,1998),根据Fisher(1936)的线性判别模型,具体可表示如下:D=B0+B1X1+B2X2+…+BnXn
其中:D为鉴别分数;B0为估计常数项;Bn为估计系数;Xn为自变数。
判别分析主要优点是简洁方便,并能整合预测变量,而其主要的问题则为违反正态性等假设时模型的拟合效果会较差,目标维度的简化难以说明每个变量的相对重要性、难以使用在时间序列数据上,且当数据型态不符合相关研究工具的要求时,可能得到相当不理想的分类结果。
3.logistic回归
Logistic回归种应变量Y仅有两个可能类别结果,以0与1表示二元变量,例如分析发卡银行是否核准发卡给信用卡申请人,按照审核结果,其反应变量定义为发卡或是拒绝发卡,而自变量可以是任何形式的变量数据,其回归模型的参数利用最大似然法估计得到。
三、实证研究
本文采用我国台湾地区某金融机构大台北地区房屋贷款户共510笔资料进行实证研究,分成两组作实证研究,第一组为人口统计变数,采用性别、申贷时年龄、婚姻状况、教育程度、职业、服务年资、月收入等七个人口统计变量作为评估房屋贷款户是否违约的自变量。第二组为所有变量,采用除上述七个人口统计变量外,另加入其他十一个变量,即月付金占总收入比例、贷款成数、有无保证人、借保人关系、有无政府优惠贷款、自住或非自住、贷款型态、贷款金额、屋龄、借保人申贷时之信用状况、房屋是否为小坪数/国宅/工业区等,共十八个变量作为评估房屋贷款户是否违约的变量。
数据库中共包含510个样本,其中有90%的房屋贷款户属于缴息正常的客户,10%的房屋贷款户属于违约的客户。所谓缴息正常客户,表示房屋贷款户在贷款期间未发生异常行为,包括逾期缴款、催收或呆账等行为;至于曾发生异常行为中任意一项,银行均将此客户视为违约客户。
在实证过程中,本文将分别采用SPSS 10.07和Vesta出版的Qnet(1998)软件分别进行分析。
1.判别分析实证结果
由于房屋贷款户申请数据的可能自变量较多,为取得较精简的自变量,本研究使用逐步判别法进行判别分析,并且依据各变量的U统计量作为删减变量的准则。根据逐步判别分析的结果,第一组人口统计变量被删减成婚姻状况及教育程度2个较为显着的变数;第二组所有首先依违约比率10%随机抽出350笔样本作为回归样本,其余160笔(违约比率变量(即人口统计变量及其它变量),被删减成月付金占总收入比例、贷款成数及贷款金额等3个较为显着的变数。
根据相关分析结果,第一组整体的正确判别率为75.0%,第二组整体的正确判别率为79.4%,第二组所有变量所建立的判别方程优于第一组人口统计变量所建立的判别方程。
2.logistic回归实证结果
本文利用逐步logistic回归进行分析,并且依据各变量的t值作为变量采用的准则。根据分析的结果,第一组人口统计变量中7个变量筛选出婚姻状况及教育程度等2个较为显著的变量;第二组所有的18个变量筛选出贷款成数、月收入及自住或非自住等3个较为显著的变量。再按照所选出来的显著变量分别建立房屋贷款户核准与否的logistic回归方程。
根据相关分析结果,第一组整体的正确判别率为84.4%,第二组整体的正确判别率为85%,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。
3.类神经网络实证结果
Cybenko (1989)等指出包含单一隐藏层之类神经网络模式已足够描述任何复杂的非线性系统,因此建构的倒传递类神经网络将只包含单一隐藏层。而由于第一组人口统计变量输入层包含七个神经元,第二组所有变量包含十八个神经元,因此隐藏层中神经元的数目分别选择 14及36进行测试;最后在网络的输出层部份则只包含一个神经元,即房屋贷款户是否违约。在参数的相关设定中,Rumelhart(1986)建议较小的学习率通常会得到较佳的结果,因此学习率将测试 0.002、0.003、0.004、0.005及0.006五种组合。而停止训练准则方面以训练数据的 RMSE值小于或等于0.0001,或最多训练3000次为准,拥有最小测试数据RMSE值的网络结构被认定为最佳结果。
建立类神经网络模式时,第一组采用人口统计变量、第二组采用所有变量作为预测房屋贷款户是否违约的输入层变量,以进行模式的建立,并以房屋贷款户缴息正常或违约作为反应变量;从510笔的房屋贷款户资料中随机抽样所得350笔样本作为训练样本,另外160笔样本数据则作为测试模式用。
利用Qnet(1998) 软件进行分析,测试不同神经元及学习率组合下类神经网络预测模式结果,当节点个数分别为14及36,学习率为0.005时可得到最大的正确判断率以及最小误差。而将样本数据测试测试模式准确度进行比较发现 ,利用类神经网络方法来判断房屋贷款户缴息正常或违约,第一组及第二组分别可得到96.9%及99.4%的整体正确判别率,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。