概率论是研究随机现象数量规律的数学分支,主要研究随机事件、随机变量以及随机过程,事件的概率是衡量该事件发生的可能性的量度。在公共投资大数据审计中,审计人员需要处理的数据量庞大且复杂,在抽样调查时也会面临数据可能存在缺失、错误等问题。审计人员可以运用概率论的原理,利用数据出现的概率构建离群点模型,检测整体或局部范围内偏离一般水平的观测对象,识别显著不同于其他数据点的异常数据,这些异常值可能反映了潜在的违规行为。本文以某重点建设工程项目为例,浅析概率论及离群点模型在公共投资项目成本审计中的应用
一、概率论及离群点模型的审计应用功能
审计人员通过对分包单位投资成本数据信息进行分析,统计分包单位购买原材料支出类别所占概率,以概率构建离群点模型,筛选出一批具备离群特征的问题疑点。这些离群点项目在成本支出、单位造价、合同签订等方面均偏离了正常值,审计人员进一步对这些离群点项目进行深入核查,最终发现问题线索。
二、概率论及离群点模型的审计数据准备
该建设工程项目分为北一至北三、南一至南七共10个标段,审计人员需对各个标段施工总承包单位提供的EXCEL版财务序时账、辅助账、余额表、凭证等财务资料,利用SQL
Server对原始数据进行清理、筛选、分类,保留“凭证日期、凭证号、科目编码、科目名称、摘要、借方金额、贷方金额”等具有唯一性的关键信息,再在Python中利用PyOD库构建离群点模型,筛选出偏离正常值的离群点作为审计疑点。
三、概率论及离群点审计模型的应用内容和步骤
获得离群点后,审计人员通过查看合同、翻阅财务凭证、与被审计单位和施工单位人员谈话、现场查勘等方式查证疑点,发现某个标段施工图水泥设计用量、沥青混凝土设计用量等与财务结算单上的采购量差异巨大,部分材料供应商收到货款后并未采购材料而是直接转入其他个人账户,存在虚构合同套取工程款的可能。基于此疑点,审计组对十个标段施工总承包单位财务成本进行核算,利用SQL
Server和PyOD技术构建离群点模型,重点分析苗木、混凝土、水泥、机械、钢筋、沥青、木模等材料的成本支出。
步骤一:利用SQL
Server导入10个标段施工总承包单位财务账,并根据苗木、混凝土、水泥、机械、钢筋、沥青、木模等关键字筛选出原材料采购支出明细,以南四标段财务数据举例,如下图:

语句为:select
* from dbo.南四where
(摘要like
'%苗木%')
or (摘要like
'%混凝土%')or
(摘要like
'%水泥%')
or (摘要like
'%钢筋%')
or (摘要like
'%机械%')
or (摘要like
'%沥青%')
or (摘要like
'%木模%')。
步骤二:利用EXCEL将数据分类汇总,得出每类材料支出比例,如下图:

步骤三:在Python中利用PyOD库构建离群点模型,语句为:
from
pyod.utils.data import generate_data
contamination
= 0.1
n_train =
200
n_test =
100
X_train,
X_test, y_train, y_test = generate_data(n_train=n_train,
n_test=n_test,
n_features=2,
contamination=contamination,
random_state=42)
from
pyod.models.ecod import ECOD
clf =
ECOD()
clf.fit(X_train)
y_train_scores
= clf.decision_scores_
y_test_scores
= clf.decision_function(X_test) data
y_train_pred
= clf.labels_
y_test_pred
= clf.predict(X_test)
from
pyod.utils.example import visualize
visualize('ECOD',
X_train, y_train, X_test, y_test, y_train_pred,
y_test_pred,
show_figure=True, save_figure=False)
步骤四:构建离群点模型后,将上述部分参数进行调整,输入比例概率,再利用离群点模型分析结果,部分标段分析结果如下图:
北二标段分析结果
从PyOD离群点模型分析结果看,北二标段有一个数据点远远偏离中心数据,为异常点,具体对应的是苗木成本支出异常。

南四标段分析结果
从PyOD离群点模型分析结果来看,南四标段有一个数据点远远偏离中心数据,为异常点,具体对应的是苗木成本支出异常。

南五标段分析结果
从PyOD离群点模型分析结果来看,南五标段有三个数据点远远偏离中心数据,为异常点,具体对应的是管材、苗木和水泥成本支出异常。
四、概率论及离群点审计模型的应用成效
从上面三个标段的分析结果来看,虽然该样本的数据量不大,未能充分发挥离群点模型的效果,但依然能从分析结果中找到具备离群特征的疑点,审计人员从疑点着手,全面系统地分析构成疑点的原因,再通过查询企业银行账户流水,查阅合同实际签订情况,最终核实了相关分包单位虚构苗木、水泥、沥青等原材料合同套取工程款的问题。(刘凯)