审计谈文:浅谈数据挖掘技术及其在审计风险管理中应用

当前位置: 大雅查重 - 范文 更新时间:2024-04-06 版权:用户投稿原创标记本站原创
>浅谈数据挖掘技术及其在审计风险管理中的应用
[关键词]数据挖掘 审计风险管理 分类规则 聚类规则
[摘要]一种新的抽样策略是把数据挖掘技术中的分类、聚类及离群点挖掘等应用到审计风险管理中去。新抽样策略的使用不仅减轻审计人员的负担,而且可以提高审计风险管理的质量。
数据挖掘(Data Mining)也称数据库中的知识发现(KDD: Knowledge Discovery in Database),是一种特定应用的数据浅析浅析过程,它可以从包含大量冗余信息的数据中提取尽可能多的隐藏知识,从而为作出正确的判断提供基础。审计风险(Audit Risk)是指审计组织或审计人员在审计过程中由于受到某些不确定因素的影响,而使审计结论与客观事实发生背离,从而受有关关系人指控并遭受某种损失的可能性。审计风险管理作为一种审计管理制度,一种策略,近几十年来,在西方一些国家审计组织中被广泛运用并在发展中不断完善,这也是现代西方审计管理的最新趋势。由于现代审计在国民经济活动中占有特殊的地位和作用,因此,在我国审计逐步走上法制化、制度化、规范化道路的今天,研究审计风险管理有着更加深远的现实意义。数据挖掘技术在一些行业已有成功的应用,但在审计风险管理中的应用尚不多见。随着革新开放的深化和法制建设的加强,国家审计的风险已成为审计机关和审计人员无法回避的现实不足。另外,中国经济活动日趋复杂,致使审计责任和审计风险也随之加大。因此,正确认识审计风险,加强风险意识,并积极有效地制约审计风险,已成为目前审计界广泛关注和亟待解决的一个不足。制约抽样风险是审计风险管理的一种形式,本文提出了一种有效的制约抽样风险的策略,该策略充分利用数据库技术的最新成果,将数据挖掘技术中的分类、聚类及离群点挖掘等应用到审计风险管理中去。运用这种策略不仅能减轻审计人员的负担,而且能提高审计风险管理的质量
一、数据挖掘技术的分类数据挖掘是数据库研究中的一个极富应用前景的新领域。对于数据挖掘,可作出不同的分类模式:
(一)依据所挖掘的数据库的种类进行分类。若挖掘系统从关系数据库中发现知识,则相应系统为关系数据挖掘系统。其它数据库系统如面向对象的数据库、演绎型数据库、空间数据库、时间数据库、多媒体数据库、异质数据库、主动数据库、遗留数据库和In-ternet信息库均可作为挖掘系统挖掘的对象。
(二)依据挖掘知识的种类进行分类。数据挖掘系统可以发现几种典型的知识,包括关联规则、特点规则、分类规则、聚类规则、离群数据挖掘、数据总结、偏差浅析浅析、序列模式浅析浅析、趋势浅析浅析、回归浅析浅析等。
(三)依据采用的技术进行分类。常用的数据挖掘技术主要有人工神经网络、遗传算法、决策树策略、邻近搜索、规则归纳、模糊逻辑技术、可视化技术、粗(Rough)集策略等。上述数据挖掘技术各有各的特点和适用范围,它们发现知识的种类不尽相同,其中规则归纳一般适用于关联规则、特点规则、序列模式和离群数据的挖掘;决策树策略、遗传算法和粗集策略一般用于分类模式的构造;而神经网络策略则可以用于实现分类、聚类、特点规则等多种数据挖掘;模糊逻辑技术通常被用来挖掘模糊关联、模糊分类和模糊聚类规则等。由于按挖掘知识的种类进行分类能够清晰地展现不同的数据挖掘需求和技术,所以下面主要介绍挖掘各种不同知识所采用的策略和技术手段。
二、关联规则的挖掘关联规则的挖掘是数据挖掘领域中一个非常重要的研究课题,它是由Agrawal等人首先提出的。关联规则的挖掘不足可形式化描述如下:设I= { I1,I2,…,Im}是由m个不同的项目组成的集合,给定一个事务数据库D,其中的每一个事务T是I中一组项目的集合,即T I, T有唯一的标识符TID。一条关联规则就是一个形如X Y的蕴含式,其中,X I,Y I,X∩Y=Φ。关联规则X Y成立的条件是:1、它具有支持度s,即事务数据库D中至少有s%的事务包含X∪Y; 2、它具有置信度c,即在事务数据库D所包含X的事务中,至少有c%的事务同时也包含Y,关联规则的挖掘不足就是在事务数据库D中找出具有用户给定的最小支持度Smin和最小置信度Cmin的关联规则。挖掘关联规则可以分解为以下两个子不足:1、找出事务数据库中的所有大项集。大项集是指支持度不小于用户给定的最小支持度的项集。2、利用大项集生成关联规则。对于每个大项集A,若a A,a≠Φ,且Support(A) / Support(a)≥Cmin,则a (A-a)。这里,Support(A)、Support(a)分别表示A和a的支持度。上述第2个子不足比较容易,因此,目前大多数研究均集中在第1个子不足上,因为这个不足的主要挑战性在于数据量巨大,所以算法的效率是关键。
三、特点规则的挖掘在数据库的原始概念层,数据和对象往往包含很详细的信息。人们希望能将大数据集中的数据进行总结概括,并将其在更高的概念层次上呈现出来。如:经销商们可能希望对一些销售活动中的交易集合进行概括、总结从而得到更一般性的描述。这就要求数据挖掘系统具有数据概括的功能。数据概括是将数据库中的大量相关数据从较低概念层次抽象为较高层次的过程。通常有两种策略可以有效地进行数据概括:

1、数据立方体法;2、面向属性的归纳策略。

四、分类规则的挖掘数据分类是指在数据库的各个对象中找出共同特性,并按照一定的分类模型对它们进行分类。为了构建这样的一个分类模型,需要一个样本数据库E作为训练集, E中的每一个元组与大型数据库W中的元组包含着同样的属性集,并且每一个元组有一个已知的类标识。分类的目标是首先浅析浅析训练集数据,利用数据的可用特点为每个类建立一个精确的描述或模型,然后把这些模型用作对数据库W中其它数据进行分类或建立一个更好的描述,即分类规则。常用的分类策略有基于决策树的分类策略、统计策略、粗集策略等。决策树策略是利用信息论中的信息增益寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分枝,在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树策略是Quiulan研究的ID-3策略。ID-3是一个典型的决策树学习系统,它采用自顶向下不可撤回的对策,只搜索全部空间的一部分,能够保证发现一棵简单(并非总是最简)的树。另外,线性回归和线性判别浅析浅析技术是用于分类的经典统计策略。
五、聚类规则的挖掘聚类是数理统计中研究“物以类聚”的一种策略,它的任务是把一组个体按照相似性归成若干类,其目的是使得属于同一个类别数据之间的相似性尽可能大,而不同类别的数据之间的相似性尽可能小。它与分类浅析浅析不同,聚类浅析浅析输入的是一组未分类的记录,并且这些记录应分成几类事先也不知道。聚类浅析浅析就是首先通过浅析浅析数据库中的数据,合理地划分记录,然后再确定每个记录所在类别。另外,从技术上看,聚类浅析浅析可以采用统计策略、机器学习策略、人工神经网络策略、模糊技术来加以实现。在统计策略中,聚类算法一般分为基于概率的聚类算法和基于距离的聚类算法两种,如欧氏距离等。基于概率的聚类算法在挖掘海量数据集合时效率非常低;而基于距离的聚类算法在数据挖掘领域应用则相当广泛,而且其基本思想是属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间距离尽可能大。
六、离群数据挖掘所谓离群数据,是指明显偏离其它数据,即不满足一般模式或行为的数据。离群数据挖掘是数据挖掘的重要内容,它包括离群数据的发现和离群数据的浅析浅析,其中离群数据的发现往往可以使人们发现一些真实的但又出乎意料的知识;而离群数据的浅析浅析则可能比一般数据所包含的信息更有价值。据研究,离群数据挖掘有着广阔的应用前景。例如,在数据浅析浅析时,错误数据的查找;金融、通信领域的欺诈浅析浅析与检测;网络安全管理中,网络入侵的检测;治疗过程中,异常反应的发现等。目前这一领域正逐步引起数据库、知识学习和统计学等方面学者的研究兴趣。离群数据挖掘的发现主要有下列几种策略:1、基于分布的离群数据挖掘策略; 2、基于距离的离群数据发现策略; 3、基于深度的离群数据发现策略;4、基于密度的离群数据发现策略; 5、离群数据发现的多对策策略等。上述五种策略的重点都放在离群点的识别方面。实际上,识别出离群点之后,还需要进一步揭示离群点的含义,即为什么这个点是离群的?它与其它点到底有什么不同?这才是用户所关心的不足,也是我们寻找离群的最终目的。七、数据挖掘技术在审计风险管理中的应用审计风险管理是人们对审计风险进行识别、估计、衡量、制约等一系列具有系统性、规范性的策略和手段的总称。审计风险管理是一个连续的过程,为了便于浅析浅析,我们可以将其分为三个阶段:即审计风险识别、审计风险评价与估计、审计风险处理。这三个阶段有着内在的逻辑联系,详见图1所示。
审计风险识别有两大任务:一是判明审计活动中存在什么风险;二是找出引起这些风险的理由。这两点实际上是结合在一起的。审计人员判明了审计活动中存在什么风险,也就意味着在一定程度上找出引起这些风险的理由。审计风险识别是审计风险管理的第一阶段,正确识别审计风险将为成功的风险管理奠定基础。审计风险评估是在风险识别的基础上,通过对收集到的大量信息加以浅析浅析,运用概率论和数理统计的策略来评估风险因素发生的概率和风险发生的程度。然后根据企业的可接受风险的标准去判断风险。审计风险管理是在识别和评估风险之后,针对不同类型、不同概率和规模的风险,采取相应的措施或策略,使审计风险减少到最小程度。可见,能否采取合理的策略处理风险,很大程度上取决于风险识别和评估的准确性。在审计风险管理的一般模式中,审计风险的识别具有十分重要的意义。如果对审计风险作出错误的识别、判断或者将一些重要的审计风险忽略掉,那么,无论审计风险管理后一阶段工作做得多么精细,都不可避开地导致风险管理的失败。(责任编辑:会计论文)>
所以在这一阶段,风险识别的手段,相关信息的收集、甄别,风险汇总、分类,风险走势的监测都是必要的。在审计实践过程中,审计的各种风险往往是交织在一起的,引起风险的理由更是错综复杂,这给正确识别风险带来了一定的困难。因此必须采取一些科学的策略,而不能只凭主观臆断进行猜测。审计风险是客观存在的,它存在于审计的每一个程序之中,这种客观存在是不可避开的。造成审计风险成为事实的根本理由很多,如:审计对象的复杂性和审计内容的广泛性;抽样审计策略的局限性;审计资源的有限性;以及审计人员素质与职业道德的局限性等。其中,抽样审计策略的局限性是造成审计风险的一个重要理由。任何一种审计工作,都不可能也不应该去检查总体中的所有样本。因为如果一个审计人员对他所选择的每一个程序都收集所有证据,或者即使只对其中的少量程序收集所有证据,并对可能的项目逐条进行检查,那他实际上就不可能在限定的时间内完成这项审计工作,更不要说这种做法所需的费用是否合理了。由于穷举审计的办法数量太大,以致于无法完成,促使我们在大量的可能数据中选取其中的一部分作为审计样本。其实,很多证据都是相似的,也就是说这些证据对审计风险将产生相同的结论。因此我们可以使用数据挖掘中的分类或聚类算法将漫无边际的随机审计证据变成有针对性的若干等价类审计数据,然后在每一个等价类中选择一个或多个审计样本进行重点浅析浅析,它的出发点是每一个审计样本都代表了一类与它等价的其它样本。这样,审计人员就有可能使用少量“有代表性”的审计样本,来代替大量相似的审计,从而大大减轻了审计人员的负担。另外,在许多情况下,由于某些未被完全知道的理由,离群数据比中间数据更加容易发生错误,因此如果把审计样本选在离群数据上,往往有更好的效果和意想不到的收获。综上所述,我们可以得到如下五条选择审计样本的对策:1、由分类或聚类规则算法将所有证据分成若干类,并且为每个等价类规定一个唯一的编号;2、在每一个等价类中,选择一个或多个样本进行重点浅析浅析;3、由聚类规则算法确定离群数据;4、对离群数据进行重点浅析浅析;5、采用其它策略进行补充。
[参考文献]
[1]王会金.风险导向审计[M].北京:中国审计出版社,2000.
[2] Agrawal R., Imielinski T., Swami A. Mining associationrules between sets of items in large databases. In: Proc. ACMSIGMOD Int. Conf. Management of Date,Washington D C,1993. http://www.328tibet.cn/sjlw/2012/0215/3137.html
[3]朱玉全,孙志挥,赵传申.快速更新频繁项集[J].计算机研究与发展,2003,(1).
[4]张楚堂.论审计风险的概念[J].审计研究,2001,(2).
(责任编辑:会计论文)