2015年
财会月刊(30期)
金融与理财
随机森林算法在地方融资平台主体信用评级中的应用

作  者
赵芸淇(博士)

作者单位
(国网能源研究院,北京102209)

摘  要

      【摘要】地方政府融资平台债务化解及转型是我国当前经济形势下的热点问题,本文首先梳理了中央政府针对地方政府性债务管理所出台的一系列政策及方法,以进一步了解地方政府融资平台的转型方向。然后,通过使用当前大数据挖掘技术中比较流行的随机森林算法,对转型前融资平台的主体信用评级进行检测,发现当前融资平台的评级结果存在高估的情况,而高估部分正是来自政府的隐性担保。最后,对影响融资平台评级指标的重要性进行了分析,以期为未来融资平台的顺利转型提供参考。
【关键词】地方政府融资平台;随机森林算法;政府债务

自2010年6月起,中央政府出台了一系列监管政策以对地方政府融资平台进行清理规范。通过对地方政府融资平台的分类管理,公益类平台不再具备融资功能,具有各类市政建设功能的地方政府融资平台纷纷转出平台监管。目前,随着配套政策的不断细化,各类平台的转型也日渐明晰:一是对现金流全覆盖,经营效益好的平台,要与政府脱钩,进行市场化改革,将债务转化为一般企业债务;二是具有市政建设和民生建设的平台,则积极推广PPP(政府与社会资本合作)模式,吸引社会资本广泛参与,以项目为最小单位,按照市场化原则举借债务,政府不再为债务兜底,但政府会承担特许经营权给予、财政补贴、合理定价等责任;三是承担纯公益性项目,现金流无法满足建设要求的平台,仅承担项目建设责任,融资则由政府发行债券募集。
但是,地方政府融资平台的存量债务仍然令人担忧。不论是2010年,还是经过一段整顿后的2013年6月底,地方政府融资平台的政府负有偿还责任的债务在政府性债务中均占有很大的比重,分别为47%和38%,对未来5年政府存量债务的化解提出了挑战。
一、地方政府债务融资体系的重构
随着新《预算法》的大规模修订和实施,如何处理和管理地方政府性债务,如何为地方政府配套“新型城镇化”建设、“一带一路”建设落实资金需求,这都是政府必须处理的问题。令人欣慰的是,中央政府也非常积极地出台了相应政策。
政策一:大力推广PPP模式。自2014年9月至今,政府出台了一系列文件以推广PPP模式。2014年11月,财政部下发《关于政府和社会资本合作示范项目实施有关问题的通知》,针对地方融资平台存量项目,积极鼓励以PPP模式进行融资,并将之前的TOT(Transfer-Operate-Transfer)等建设方式也都转型为PPP模式。
政策二:政府债务置换。2015年3月,财政部在国务院的批准下,即对新《预算法》实施之前的历史债务,按一定比例置换为政府债券。本轮政策的债务规模为1万亿元,置换时点范围为2013年6月30日前审计的需要2015年偿还的债务,置换比例为53.8%(置换规模占总规模比)。此项政策的出台,可以减轻地方政府配套建设资金筹集的负担,也可为地方政府赢得时间来化解历史债务。
政策三:发行专项债券。2015年4月,财政部下发《地方政府专项债券发行管理暂行办法》。专项债券的发行对象是有一定收益的公益性项目,可将项目打包发债,其还款来源应为相应的政府性基金或专项收入。为保证专项债券的发行,该办法还将社会保险基金、住房公积金、企业年金、职业年金等保障性资金纳入投资者范围,并免征企业所得税和个人所得税。
上述政策的出台,首先要解决的是政府“存量债务”问题,其次是政府的“债务融资”问题。无论如何,占政府债务较大比例的融资平台债务安全平稳地转型,并剥离政府隐性担保,力促地方政府债务的健康发展是最为关键的一步。地方政府融资平台作为债务的承担主体,其信用能力的评价对未来融资平台的转型至关重要。尤其是在当前PPP模式下,大多数金融机构倾向于和发行过企业债券且主体信用评级在AA+以上的融资平台合作,以实现平台转型和社会资本的引入。因此,对地方政府融资平台信用主体有效性检测的研究,将会为未来地方政府融资平台转型后的信用能力再评估提供重要参考。二、随机森林算法
对地方政府融资平台主体信用评级有效性检测的方法是随机森林算法。随机森林是Leo Breiman在2001年提出的,是在随机选择的数据子集中通过一系列决策树的生长来构建预测值的全集。
作为算法的基础,这里先说明一下决策树原理。图1为决策树的简单描述图,最上端的被称为根节点,一个决策树只有一个根节点。它是通过对各种可能影响因素进行对比后找出最有影响力的因素作为根节点,之后再根据相应的规则继续选择可能的影响因素作为中间节点。每一个中间节点就是一个分裂问题,如果所有属性都被用完,找不出来影响因素就停止生长,成为叶节点。每一条从根节点按照有向边到达叶节点的路径都是一个分类。决策树需要设定避免其过分生长的停止规则和修剪方法,不需要对数据集进行分布假设。

 

 

 


决策树的缺点是每一次分裂只和前一次分裂规则有关,并且不会考虑之后的分裂。因此,每一次不同的分类将产生不同的结果,从而出现过度适应噪声,即过拟合困境。随机森林的基础分类器原理是决策树原理,但是随机森林恰好克服了这一缺点,它是将众多决策树集合到一起,通过决策树的投票来选出最优的分类准则。
 随机森林算法,目前是大数据挖掘应用较多的方法。作为机器学习法,相比传统计量经济学而言,没有对现实数据的严格假设,能较好地模拟现实。事实上,使用机器学习法对结果风险进行检验,不是通过P值来完成的,而是通过没有参加模型训练的测试集来完成的,结果容易理解也是其非常重要的优点。
(一)随机森林算法的基本原理
首先,随机形成决策树集合中的每一棵树,它的每一个节点中,都会根据一小组输入的变量或者属性来进行分裂。接着,在训练集中根据这些属性计算出最佳的分裂点。树的生成是通过CART(Classification and Regression Tree)算法来尽量生长并最大化其规模,而不需要修剪,根节点包含所有的数据,在每一节点上,使用所有变量来找出最好的分裂,产生两个子节点,一直分裂下去,直到修剪的树到达最小测试集误差。子空间的随机选择规则是结合了袋袋法(bagging)来进行重复取样,作为替代,训练数据集每次只生成一棵树。
这些过程的基本原理是这样的:对于第K棵树,产生一个随机向量θk,这个随机向量和之前产生的随机向量是独立同分布的,每一棵树的生成都是用了训练集和随机向量θk,即一个分类器h(x,θk),这里x是一个输入向量。在随机分裂选择中,θ是由独立随机整数的个数组成,介于1到k之间。θ的性质和维数依赖于树的构建过程。当大规模的树产生后,将投票产生最受欢迎的类,这个过程就是随机森林。
(二)随机森林算法的特性
随机森林算法有较低的泛化误差(the generalization error),比如,随机分裂选择比bagging做得好,输出的随机噪音通常也比较好。为了改进精度,随机特性需要使相关系数ρ最小化,同时保证其强度。这一分类的过程有如下特性:它的精度和Adaboost一样好,有时会更好一些;对极端值和噪音有很好的稳健性;比bagging、boosting更快;给出了误差、强度、相关性的内部估计值;它很简单;与支持向量机相比,随机森林的分类器表现非常优异;在森林的构建过程中,能够内生泛化误差的无偏估计;估计缺失数据最高达80%的模型;在分类中,能够给出哪一个变量是最为重要的因素;变量之间和分类之间的关系可以在输出中找到。
三、数据整备及样本的预处理
(一)数据整备
本文使用的数据,除了因变量的评级指标是分类数据,作为自变量的数据都是数值型变量。为了保证有效性检测的可靠性,本文选择了WIND数据库中2012年1 920家发行企业债券的财务数据,其中含287家地方政府融资平台的财务数据。笔者希望通过相对较大的样本来分析融资平台信用评级的有效性,并使用R软件中的missForest、随机森林等机器学习方法来进行有效性检测。
其中,missForest算法主要是用来弥补缺失数据的。目前,数据存在缺失值的问题是我们进行数据分析时常常需要面对的问题。因为大多数构建出来的分析方法,都需要没有缺失值的完整观测数据。另外,很多数据分析还会遇到另外一些问题。比如,高维多元数据的变量数目可能会大大超过观测值的数量,存在连续和分类变量的混合数据类型,以及参数方法难以处理的数据的复杂相互关系和非线性结构。
missForest算法是Daniel J.Stekhoven和Peter Buhlmann于2012年提出来的。这一算法可以包含不同类型的数据,尤其是能够同时处理由连续变量和分类变量组成的多元数据集。missForest算法既不需要调参数,也不需要对数据分布方面进行假设,该算法完全能够解决复杂类型数据存在缺失值的问题。missForest作为一种非参数的方法可以同时处理不同类型的数据,并且对于数据结构方面的假设几乎很少。即使在对某一特定类型的数据进行缺失值弥补时missForest算法的表现,也优于KNN(k-Nearest Neighbor algorithm)和Miss PALasso(Missingness Pattern Alternating Lasso algorithm)对连续变量的弥补,以及MICE(Multivatrate Imputation by Chained Equations algorithm)和加入哑变量的KNN算法对分类类型数据和混合类型数据的弥补。尤其在复杂的数据相互关系和非线性关系中,missForest算法则更胜一筹。
(二)样本的预处理
1. 地方政府融资平台样本的信用评级预处理。地方政府融资平台和大多数国有独资企业类似,都是由当地财政部门或者是国资委出资设立,只不过地方政府融资平台的经营权是由地方政府主导,国有企业则自主经营。地方政府融资平台参与民生类建设项目时,常常以项目为核心,作为股东成立相应的公司,间接运营管理项目建设。为筹集资金,以项目打包发债,也是地方政府融资平台融资的主要方式之一。目前,已发行债券的地方政府融资平台,大多数是效益较好、还款资金来源有保障的企业。WIND统计数据显示,地方政府融资平台主体评级大多在AA级以上,其发行的项目债券的评级通常也都在AAA以上。
如图2所示,287家地方政府融资平台企业中,被评为AA的融资平台有192家,占比66%,被评为AA-的融资平台占比20%,被评为AA+的融资平台占比13%。

 

 

 

 


可见,287家地方政府融资平台的信用等级基本界定在AA类上,意味着现有的发行企业债券的地方政府融资平台偿还债务的能力比较强。随着地方政府融资平台转型后相关数据逐步透明,以及政府隐性担保逐渐剥离,基于这些融资平台的财务指标来分析信用评级的影响因素,将有助于评价政府融资平台的信用度。
本文将地方政府融资平台分为三个级别进行分析:AA-、AA、AA+;进入数据库的处理是:AA+=A、AA=B、AA-=C。剔除三个评级只有1家的样本,得到最终进入检测的样本量为284家。
2. 发行企业债券的企业样本预处理。包含284家地方政府融资平台的总体样本数为1 917家,即不是地方政府融资平台的企业数为1 633家。这1 633家企业的信用评级的预处理和地方政府融资平台的预处理一样,进行三个级别的分析:AA-、AA、AA+;进入数据库的处理同样是:AA+=A、AA=B、AA-=C。其中A评级的企业245个,B评级的企业有1 355个,C评级的企业33个。为了减少对地方政府融资平台信用评级有效性的误判,本文仅就三个级别进行分析,以免出现“统计性歧视”。
3. 特征选择。目前已获取的地方政府融资平台信用评级数据主要有具体评级值和部分财务数据。尽管现在信用评级机构针对地方政府融资平台的信用评级体系中的指标很多,但鉴于目前地方政府融资平台相关数据获取较难,本文将选择如表1所示的15个财务指标,对信用评级的有效性进行评价。对于企业自身信用的衡量,财务指标是最为重要的信息,而其他关于“企业和领导素质”等主观评价较高的指标暂未列入特征选择中。

 

 

 

 

 

 

 

 


四、实证分析
进行有效性检测的第一步是对数据缺失值的弥补,本文共有数据30 672项,需要弥补的缺失值占比6.5%。本文通过对比284家地方政府融资平台评级、 1 633家企业债券评级、1 917家总体企业评级,逐步从小范围向大范围扩充,进而确认284家地方政府融资平台的信用评级有效性问题。
(一)284家地方政府融资平台的主体信用评级有效性检测
为了提高精度,本文所使用的树为500棵。对于284家融资平台的信用评级袋外估计误差率为33.45%。具体的混淆矩阵如表2所示:分类中对于A的分类错误率高达0.92,其中38个A类融资平台,只有3个被正确分类为A,其他均分类为B类;对于B类,分类错误率为0.031,错误率较小,185家分类准确;C类,分类错误率为100%,为最高,基本错误分类到B类。本次模拟的袋外估计误差率为33.45%。

 

 

 


显然,对于地方政府融资平台的分类,A级和C级的分类错误率较高。可见,信用评级机构对其进行评级的时候,对于A类评级可能存在高估部分融资平台的信用级别,对于C类融资平台则低估了其信用级别。但是实际经验对此的可能解释是,评级两端的融资平台财务指标与B类财务指标相差不大,那么使之产生评级差距的主要原因是每个融资平台所依赖的地方政府财政控制能力和地方经济能力。因此,仅就政府融资平台本身数据进行评级意义不大。可见,以地方政府融资平台本身作为信用主体的评级,几乎不具有效性。
(二)1 633家发行企业债券的主体信用评级有效性检测
为了区分284家地方政府融资平台的评级情况,本文进一步扩大范围来考察随机森林的分类精度,以保证分类的准确性受模型本身的影响较小,才能具有相应的说服力。本部分的模拟,同样设置500棵树。对于1 633家发行企业债券的信用评级袋外估计误差率为8.08%。具体的混淆矩阵如表3所示,本次模型模拟的误差率非常小。对于A类评级而言错误率下降至0.326 530 61,B类评级错误率下降至0.014 022 14,C类评级错误率仍然为100%。由此可知,对于C类的评级之所以会出现一致的错误率,可能和数据质量及模型计算有关。但是,从A类的评级结果可以看出,政府融资平台和非政府融资平台之间,财务信息表现出的评级判断能力显然不一样,非政府融资平台企业的财务指标提供的信息准确率较高。

 

 

 


由于用1 633家数据模拟出来的模型效果较好,因此将使用该模型重新对284家政府融资平台进行评级,评级结果为:284家中原来评级为A的企业共38家,保留原级别的为9家,降级为B的企业为29家,整体评级下调。
(三)1 917家总体样本的主体信用评级有效性检测
为了进一步说明情况,现在对1 917家企业进行总体测算模拟,不再区分政府融资平台企业和非政府融资平台企业。同样设置500棵树,C类的评级效果不太好。对于A类和B类评级的误差率的大小情况几乎一致,即对于A类的评级判定为B级的情况较多,B级评级的稳定性较高。如下表4所示,尽管样本量有所提升,但是其袋外估计误差率反而上升,显然排除了样本量多寡的问题。加入284家融资平台后,A类评级错误率进一步提高,从而强化了对A类地方政府融资平台评级可能高估的猜测。

 

 

 


(四)财务指标对主体信用评级的影响因素分析
从上面的袋外估计误差率来看,模型二的误差值为8.08%,模型三的误差值为10.09%,模型一的误差值为33.4%。尽管模型一的袋外估计误差率很大,但这个大数据是基于多次验证得到的,总体来说还是不错的。
 从图3可以看到,净利润(x11)、总资产周转率(x6)、存货周转率(x7)、流动比率(x1)、资产负债率(x3)是对信用评级A来说比较重要的5个财务指标,这几个指标影响着模型对主体信用评级为A 的判断。

 

 

 

 


从图4可知,净利润(x11)、净资产收益率(x9)、总资产周转率(x6)、总资产报酬率(x10)、流动比率(x1)是对信用评级B来说比较重要的几个财务指标。
净利润(x11)、总资产周转率(x6)、产权比率(x4)、资产负债率(x3)、主营业务利润率(x8)是对信用评级C来说比较重要的几个财务指标,但因模拟效果不好,本文不再做具体分析。

 

 

 

 


另外,随机森林算法也给出了财务指标中对模型总体来说比较重要的影响值。Mean Decrease Accuracy和Mean Decrease Gini都是随机森林中用以衡量整体模型的指标重要性的值,这两个指标的值越大,说明该指标越重要。对于Mean Decrease Accuracy的值而言,净利润(x11)、总资产周转率(x6)、存货周转率(x7)、主营业务利润率(x8)、净资产收益率(x9)比较重要;对于Mean Decrease Gini来说,净利润(x11)、总资产周转率(x6)、存货周转率(x7)、净资产周转率(x9)、资产负债率(x3)比较重要。
表5给出了全部指标重要的计算值。
五、结论
通过以上分析,可以发现主体信用评级为AA+的地方政府融资平台,其评级存在高估的现象,因此这类融资平台的信用评级有效性有待提高。在债券市场上,如果地方政府融资平台募集债券的主体信用评级过多受到地方政府的影响,则会对自身的主体评级有高估的现象。这样除了会降低评级的有效性,还会产生深层次的问题:一方面会对投资者的投资行为造成可能的伤害;另一方面会抢占“私人”企业通过债券手段募集资金,造成一定的“不公平”,从而影响市场的经济效率。
在对财务指标重要性因素的分析中,尽管每个因素的重要性影响指标都有所不同,但是总体来说,净利润(x11)、总资产周转率(x6)、存货周转率(x7)、净资产收益率(x9)、资产负债率(x3)、主营业务利润率(x8)、流动比率(x1)都是排名靠前的重要指标。也就是说,对于企业主体信用评级而言,企业的盈利能力、运营能力以及偿债能力是首先需要关注的指标。
随着地方政府融资平台转型的不断深入,无论是置换为政府债务,还是发行政府专项债券,尤其是大多数将转型为PPP项目的,首要的任务是将曾经作为融资平台增信背景的政府隐性担保显性化。
非必要纳入政府债务的,笔者认为可以通过资产重组等方式剥离政府信用,通过引入具有较强盈利能力的资产,以弥补融资平台主体信用评级中由政府承担的部分,通过不断优化财务指标来改善经营,为吸引社会资本提供有利条件。
主要参考文献
吴喜之.复杂数据统计方法:基于R的应用[M].北京:中国人民大学出版社,2012.
林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报(自然科学版),2007(2).
方匡南,吴见彬,谢邦昌.基于随机森林的保险客户利润贡献度研究[J].数理统计与管理,2014(6).
高旭东,刘勇.中国地方政府融资平台研究[M].北京:科学出版社,2013.