会计基于决策树上市公司信用风险模型实证探讨

当前位置: 大雅查重 - 范文 更新时间:2024-02-09 版权:用户投稿原创标记本站原创
我国证券市场机制和企业破产制度的完善,信用风险【会计论文】,不但使企业遭受损失,影响企业的存活和发展;,大量上市公司信用风险时,将有可能引发金融危机。因此,对上市公司信用风险的管理是非常必要和迫在眉睫的。而上市公司信用风险评估模型的建立是防范信用风险的手段,因此,研究上市公司信用风险评估这一课题,已经我国经济生活中亟待解决的【会计论文】。
定量技术和支持工具、软件已付诸商业应用,继传统的比例浅析【会计论文】,统计策略会计专业论文了广泛的应用,如判别浅析【会计论文】和Logistic回归等。信用等级评估是对企业或个人的某些单一财务指标加权平均确定的。该策略会计专业论文的最大缺陷指标和加权值的确定带有很大的主观性,使得评估结果和实际论文格式范文有很大的出入。因此引入科学策略会计专业论文来确定评估指标,并建立准确的定量模型来解决信用等级评估的【会计论文】。近年来,信息技术了迅速发展,如数据挖掘技术等能从海量数据中智能的规则和知识,再加上我国上市公司信息披露制度的不断完善,使得的研究的数据也不断的增加本科会计论文,这些条件的出现使得对基于数据挖掘的上市公司信用风险评估模型的研究具有了数据和技术。

一、模型简介

(一)决策树算法 决策树是对已知类别的数据样本归纳学习的树形结构,树内每个非叶节点代表对属性取值的测试,每个叶节点代表类别。决策树策略会计专业论文信息理论的信息增益选择具有最大信息量的属性来建立决策树的节点,再属性字段的不同取值来建立树的分枝,如此对每个分枝递归建立整个决策树。产生决策树的算法如下:
输入:训练样本,各属性均取离散数值,可供归纳的备选属性集合为attribute_list。
输出:决策树
算法:Gen_decision_tree
创建节点 Node;
IF 该节点样本均为同一类别c THEN返回Node 叶节点并标志为类别c;
IF attribute_list 为空 THEN返回Node叶节点并标记为该节点所含样本中类别个数最多的类别;
从attribute_list 选择信息增益最大的属性 test_attribute;
将节点Node标记为 test_attribute;
test_attribute=Vi条件,从节点Node产生相应的分枝,且设Si为该分枝条件所的样本集合;
IF Si 为空 THEN将相应叶节点标志为该节点所含样本中类别个数最多的类别,ELSE,将相应叶节点标志为由Gen_decision_tree(Si,attribute_list, test_attribute)返回的值。
,信息增益的计算策略会计专业论文为:设S为S个数据样本的集合,类别属性取 N个不同的值,对应于N个不同的类别Cj,j∈{1,2,3,…,N},Sj为类别Cj样本个数。那么对给定数据分类所需的信息量为:
Infor(S1,S2,…SN)=-■pj log2(pj)(1)
,pj是任意数据属于类别Cj的概率,即pj=Sj /S。设属性V取v个不同的值{V1,V2…,Vv},则属性V将集合S划分为v个子集{S1,S2…,Sv},Si了集合S中属性V取Vi值的那些样本。设Sij为子集Si中属于Cj类别的样本个数。那么属性V划分样本集合所的信息熵计算如下
Entr(V)=■■Infor(S1,S2,…SN)(2)
Infor(Si1,Si2,…SiN)=-■pijlog2(pij) (3)
pij=■(4)
这样属性V对样本集合划分所的信息增益为:
Cain(V)=Infor(S1,S2,…SN)-Entr(V) (5)
(二)K最近邻法 K最近邻法简称KNN算法,在理论上是比较成熟的策略会计专业论文,最初于1968年由Cover 和Hart,其思路非常简单直观。KNN策略会计专业论文是一种有监督学习的分类算法,它并不产生额外的数据来描述规则,它的规则数据(样本)本身,并不要求数据的一致性【会计论文】,也说K最近邻法在一定上减小了噪声样本对分类的干扰。KNN未知样本的K个最近邻样本来预测未知样本的类别,K个最近邻样本的选择是一定的距离公式判定的。
KNN分类算法的原理为:将待分类样本y表达成和训练样本库的样本一致的特点【会计论文范文】向量;然后距离函数计算待分类样本y和每个训练样本的距离,选择与待分类样本距离最小的K个样本y的K个最近邻;y的K个最近邻判断y的类别。KNN算法必须明确两个的因素:最近邻样本的数目K和距离的。K表示选择样本的数目,距离对应非负的函数,用来刻画不同数据间的性。在KNN算法里对于模型的选择(尤其是K值)是对大量独立的测试数据、多个模型来验证最佳选择。
(三)Logistic回归模型 Logistic回归模型是一种非线性概率模型,其因变量是分类变量0和1两个取值。回归模型可表述为
p=■
s=cj+■ckxk
xk(k=1,2...,m)为上市公司信用风险评定影响变量,cj(j=1,2...,m)为回归系数,回归或极大似然估计, Logistic回归值p∈(0,1)为信用风险浅析【会计论文】的判别结果。P是的连续增函数,S∈(-∞,+∞)。并且
■p=■■=1
■p=■■=0
对某上市公司i(i=1,2...,n)来说,其Logistic回归值pi接近于0或(pi≈0),则被判定为一类经营差的企业,若其Logistic回归值pi接近于1或(pi≈1),则被判定为经营好的企业。并且pi值越远离0,表示该企业陷入财务困境的可能性越小;反之,表示该企业陷入则务困境的可能性越大。

二、基于决策树的上市公司信用风险评估模型实证浅析【会计论文】

(一)指标体系建立综合考虑信用风险的影响因素,借鉴我国财政部统计评价司的企业效绩评价指标体系和国有商业银行企业资信评估指标体系国内外有关文献的指标,在分类、汇总、整理的上,同时兼顾数据的可性原则和可量化原则,从企业盈利能力、偿债能力、营运能力和发展能力4个,选取了10个财务指标。
(1)盈利能力指标。企业获利能力是企业信用的,企业盈利,才有可能按时偿还债务。选取的企业赢利能力的指标有净资产收益率X

1、销售(营业)利润率X2。

(2)偿债能力指标。偿债能力是企业资信的保证,企业偿债能力如何,通常是评估企业资信评级最的,偿债能力归根结底是企业自有资产的变现能力。选取的企业偿债能力的指标有流动比率X

3、速动比率X4和资产负债率X5。

(3)营运能力指标。营运能力浅析【会计论文】是对企业资金周转论文格式范文的浅析【会计论文】,资金周转得越快,资金效率越高,企业的经营管理越好。选取的企业营运能力的指标有总资产周转率X

6、存货周转率X7和应收账款周转率X8。




(4)发展能力指标。发展能力企业未来发展前景及潜力。选取的企业发展能力的指标有资本积累率X9和总资产增长率X10。
将上市公司分为两组,第1组ST公司,该类企业具有的财务风险。非ST公司第2组,该类企业财务论文格式范文正常。若模型将ST组样本判为非ST组,则称为犯类错误;将非ST组样本判为ST组,则称为犯类错误。
(二)样本选取 样本的选取为两分类模式,即违约和不违约。将ST上市公司财务论文格式范文异常一类,也即会发生违约的一类;将非ST公司财务论文格式范文正常的一类,即不会发生违约的一类。ST公司是现财务论文格式范文或其他论文格式范文异常,导致投资者难于判断公司的前景,权益可能受到损害的公司。
实证浅析【会计论文】原始数据来自于色诺芬数据库,随机选取我国深、沪两市交易所2009年公布的60家ST公司一类经营“差”的企业,同时另随机选取75家不亏损公司一类经营“正常”的企业与之相匹配,因此,数据样本集由135家上市公司组成,然后从中任选30家ST公司及38家非ST公司组成训练样本集,余下的67家公司组成测试样本集。
(三)模型构造与检验 构造决策树,会计论文范文是找到样本空间的最优划分,ID3算法的属性选择对策会计毕业论文选择信息增益最大的属性测试属性,从而确定样本空间的划分。但ID3算法着输出分支多,预测可靠性性差的【会计论文】。.5算法从ID3算法演变而来,用信息增益比来测试属性选择的,大量的实验测试:用.5算法构造的决策树较ID3算法的预测效果有更好的可靠性和健壮性。实验模型运用数据挖掘软件WEKA

3.6.3,.5算法以信息增益比最大为原则选取节点生成决策树,如图1所示。

选出了6个好的属性决策树节点,X5为根节点,也资产负债率对于违约和履约分类的贡献是最大的。括号数代表平均有样本数据条件被分到了相应的类中,用10 次迭代交叉验证法来验证模型的误差率,验证结果如下:
正确分类的样本数588

6.5671 %

错误分类的样本数9 1

3.4328 %

(四)结果浅析【会计论文】 运用决策树模型与Logistic和K最近邻模型了比较浅析【会计论文】。从结果来看,三种模型都具有较好的预警效果,但相比之下,决策树模型的总体判定准确率更高,决策树模型对样本所的数据信息的学习比较。一种非线性映射,数据之间的自性个别数据的缺失对模型的预测效果影响不大。因此,决策树在浅析【会计论文】和研究上市公司信用风险,具有良好的应用前景。
从表中,决策树在测试样本集整体准确率(也即预测准确率) 达到了87%,好于Logistic和K最近邻模型的78% 。在本实验中,在建立模型时考虑的是整体准确率,从这一角度看,决策树模型具有一定的优势。从三种模型的结果中比较,训练样本类错误率高于测试样本的类错误率。【会计论文】还做机理上的解释,但现象恰好是希望的。
表1,还对模型的鲁棒性做比较。对于训练样本集,决策树的整体准确率是最高的,达到了75%,是Logistic模型的74%,效果最差的是K最近邻模型的66%。在测试样本,准确率(预测准确率) 都有了不同的上升。变化率最大的是决策树,为12%;是K最近邻模型,为8%;变化率最小的是Logistic,仅为4%。,在三种模型中,决策树模型的鲁棒性最差,Logistic模型的鲁棒性最好。决策树模型的鲁棒性论文格式范文最好的,但也保持了较好的,实际应用的要求。
综上所述,以我国上市公司研究,以因财务论文格式范文异常而被处理界定上市公司陷入财务困境的标志,交叉验证技术建立决策树模型,并与Logistic和K最近邻模型了比较浅析【会计论文】。实证结果决策树模型能地预测上市公司的信用风险,且适用性较好。当然,在浅析【会计论文】中,有待改善之处,如:市公司样本代替企业,可能会造成典型性不强的【会计论文】;只考虑财务因素影响变量,未对非财务因素(如行业因素、其他宏观因素)考虑。

文献:
[1]吴世农、卢贤义:《我国上市公司财务困境的预测模型研究》,《经济研究》2001年第6期。
[2]张焱:《数据挖掘在金融领域应用研究》,《计算机工程与应用》2004年第18期。
[3]张剑飞:《数据挖掘中决策树分类策略会计专业论文研究》,《长春师范学院学报》2005年第1期。
[4]王娜等:《K-最近邻分类技术的新发展与技术改善》,《河北省科学院学报》2009年第26期。
[5]庞素琳:《Logistic回归模型在信用风险浅析【会计论文】应用》,《数学的实践与认识》2006年第9期。
[系华东交通大学校立科研基金资助课题“基于数据挖掘的上市公司信用风险评估模型研究”(课题编号: 09GD02)的阶段性研究成果]
(编辑向玉章)

[1]