基于逻辑回归-聚类算法的采空区危险等级 评价模型-矿业114网 
首页 >> 文献频道 >> 矿业论文 >> 正文
基于逻辑回归-聚类算法的采空区危险等级 评价模型
2019-08-26
采空区危险性分级研究在矿山灾害防治和风险管理中具有重要意义。为克服传统采空区危险性评 价指标繁多、计算复杂等问题,提出了一种采空区危险等级快速评价模型。基于110个采空区样本,将随机森林算 法(Random Forest,RF)与递归特征消除理论(Recursive feature elimination,RFE)相结合,筛选出对采空区危险性分 级信息量贡献较大的指标,克服传统评价指标繁多且不易获取的缺陷,实现采空区评价指标体系精简降维。
Series No. 518 August 2019 金 属 METAL MINE 矿 山 总第 518 期 2019 年第 8 期 基于逻辑回归-聚类算法的采空区危险等级 评价模型 1 21 褚夫蛟 黄新典 1. 中共贵州省委党校应急管理培训部,贵州 贵阳 550028;2. 山东理工大学资源与环境工程学院,山东 淄博 255000) ( 摘 要 采空区危险性分级研究在矿山灾害防治和风险管理中具有重要意义。为克服传统采空区危险性评 价指标繁多、计算复杂等问题,提出了一种采空区危险等级快速评价模型。基于 110 个采空区样本,将随机森林算 法(Random Forest,RF)与递归特征消除理论(Recursive feature elimination,RFE)相结合,筛选出对采空区危险性分 级信息量贡献较大的指标,克服传统评价指标繁多且不易获取的缺陷,实现采空区评价指标体系精简降维。基于 逻辑回归理论得到采空区危险性概率模型,并应用 K-means 快速聚类算法求得采空区危险性概率的 4 个聚类中心 点,耦合 2 种算法构建了采空区危险等级快速分级模型,以克服传统采空区危险性评价方法计算复杂、普适性差的 缺陷。为验证该评价模型的有效性,基于混淆矩阵对评价模型的准确性进行了验证分析。研究表明:①RQD 值、矿 柱尺寸布置、岩体结构、采空区高度、地质构造、工程布置、地下可见水赋值为采空区分级评价中信息贡献量较大的 指标;②模型分级准确率达到 77.4%,第一类错误率降低至 6.25%,危险采空区的预测准确率达到 93.75%,评价结果 可为采空区后续治理提供可靠依据。 关键词 采空区 RF算法 RFE算法 逻辑回归理论 K-means聚类 中图分类号 TD853 文献标志码 A 文章编号 1001-1250(2019)-08-179-06 DOI 10.19614/j.cnki.jsks.201908030 Risk Grade Evaluation Model of Goaf Based on Logical Regression and Clustering Algorithm 1 Huang Xindian Chu Fujiao 22 (1. Department of Emergency Management,Party School of the Guizhou Provincial Committee of the Communist Party of China,Guiyang 550028,China;2.School of Resources and Environment Engineering,Shandong University of Technology, Zibo 255000,China) Abstract The study on risk classification of goaf has important significance in mine disaster prevention and risk man⁃ agement.In order to overcome the problems of numerous indexes and complex calculation in traditional methods,a rapid grade evaluation model of goaf is proposed.Based on 110 goaf samples,combines random forest(RF)with recursive feature elimina⁃ tion(RFE)algorithm to select indicators that contribute most information in classification,which overcomes the shortcomings in traditional methods whose indicators which are numerous and difficult to obtain,realizes the dimension reduction of the evaluation index system of goaf.Based on logistic regression theory,the probability model of goaf risk is obtained,and four clus⁃ tering centers of goaf risk probability are obtained by fast clustering algorithm,coupled with two algorithms,a fast grade evalu⁃ ation model of goaf is constructed to overcome the shortcomings of complex calculation and poor universality in traditional methods.In order to verify the validity of the evaluation model,its accuracy was verified and analyzed based on confusion ma⁃ trix.The study results show that:①RQD value,pillar size and layout,rock mass structure,goaf height,geological structure,en⁃ gineering layout,groundwater are these indicators that contribute most information in goaf risk classification;②the classifica⁃ tion accuracy rate of the fast classification model constructed in this paper reaches 77.4%,the error rate of the first category is as low as 6.25%,and the accuracy rate of predicting dangerous goaf reaches 93.75%,the model can provide effective informa⁃ tion for goaf management in actual production. Keywords Goaf,RF algorithm,RFE algorithm,Logistic regression theory,K-means clustering 收稿日期 2019-06-28 基金项目 山东省重点研发计划项目(编号:2017CXGC1604)。 作者简介 黄新典(1983—),男,讲师,硕士。通讯作者 褚夫蛟(1988—),男,讲师,博士。 · 179 · 总第518期 金 属 矿 山 2019年第8期 采空区是地下矿山的主要危险源之一,采空区 内部顶板和矿柱的变形与失稳破坏,会诱发坍塌、冒 落、空区积水,进而导致工作面透水及地表沉陷等灾 害。为高效治理地下采空区,需要对采空区的危险 性进行分级评价,针对不同危险等级采取针对性的 治理措施,确保矿山安全生产。 后一个指标被选择,不进行剪枝;④重复步骤①~③ p 次,生成含有p棵决策树的随机森林;⑤使用生成的p 棵决策树对袋外数据 Nn 进行分类,并计算袋外数据 样本的分类正确率 Rk ;⑥总体样本的每一个初始指 ( ) 标记为 λl l = 1,2,3,⋯,13 ,依次对袋外数据的 指标数据添加随机噪声,得到新的袋外数据 Nnl ,重 近年来,学者们对采空区危险性评价方法进行 了大量研究,常用的评价模式可以分为两类:基于等 级确定度的分级算法和基于机器学习的分类算法。 前者基于专家经验对评价指标赋权,通过不同的评 价方法进行等级分类,因此评价结果主观性较强。 此外,该模式中各评价方法也存在缺陷:如云模型实 现了定性指标的定量转化,但该方法假设评价指标 满足正态分布,并且在计算等级确定度时受到处于 区间均值处的指标影响过大,影响评价结果的准确 复步骤④,得到正确率 Rk' ;⑦根据式(1)计算指标 λl 的信息量: p Vl = 1p Rk - Rk' ) , (1) ( ∑ i = 1 式中,Vl 为指标 λl 的分类信息量;p为随机森林中决策 树的数量;Rk 为随机森林对初始指标数据的分类正确 率;Rk' 为随机森林对各指标依次增加噪声后的数据 进行分类的正确率。根据各指标噪声对随机森林分类 准确度的影响程度确定不同指标的分类信息量。 递归特征消除(RFE)算法是基于指标信息量排 序的指标筛选方法。本研究采用向后删除法选择指 标子集。该方法的主要思路是通过不断构建分类模 型,根据指标的信息量排序,依次删除信息量最小的 指标,反复迭代,直至满足要求为止。 [1-3] 性 ;物元可拓法忽视了指标的不确定性,处理离散 [4] 优化问题效果不理想 ;模糊综合评价法克服了传统 数学方法中“唯一解”的不足,但评价结果受指标间 [ 5-6] 的信息重叠度影响较大 ;综合指数法评价过程简 单,数据利用充分,但对指标标准依赖性过高,指标 [ 7] 异常值影响了评价结果的准确性 。第二类模式是 从评价结果出发,基于大量采空区样本对模型进行 训练,因而其评价结果较为客观,该类模式对样本数 量要求较高,并且准确性受初始边界选择影响较大, 如神经网络模型初始权值、阈值及隐藏层数的设置 如图1所示,RF-RFE算法基于初始训练集数据, 使用RF算法得到指标的信息量序列;每次删除信息 量最小的指标,并使用剩余指标重新构建新的随机森 林,并测试其分类正确率;通过逐次迭代,计算每次分 类的正确率,直到所有指标搜索完毕;最后得到对应 不同变量个数的分类正确率以及随机森林。 [ 8] 是研究难点 。随着人工智能与机器算法的发展,基 于机器学习的分类算法因其准确性、迅捷性等优势 受到越来越多研究人员的青睐。 本研究综合考虑以上两类模型的优缺点,基于 RF-RFE算法简化评价指标体系,筛选出对采空区危 险性分级信息量贡献较大的指标;为克服第一类评 价模式的复杂计算以及第二类模式中初始边界值选 取的困难,应用逻辑回归理论和K-means聚类理论构 建快速评价模型,实现采空区危险等级快速分级。 1 . 1 RF-RFE算法 随机森林(RF)算法是Breiman L 在2001年提出 理论基础 1 [9] 的一种多棵决策树集成学习算法,不仅能用于分类, 并且可以实现指标信息量排序,算法步骤为:①应用 Bootstrap抽样方法,从N个原始样本中随机有放回地 抽取 n 个样本,使用 n 个样本构建一颗决策树 hn ,没 有被选中的样本构成袋外数据 Nn ;②在决策树的每 一个节点检测指标集的 m 个变量,计算每一个指标 的信息贡献量,从 m 个指标中选择一个分类能力最 佳的指标进行节点分裂;③每颗决策树都分裂到最 1. 2 逻辑回归理论 逻辑回归理论揭示了一个因变量与多个互不相 [10] 关的自变量之间的多元回归关系 。采空区可以分 为稳定、危险两个状态,本研究将数据库中危险等级 为Ⅰ、Ⅱ的采空区定义为安全,将危险等级为Ⅲ、Ⅳ · 180 · 黄新典等:基于逻辑回归—聚类算法的采空区危险等级评价模型 2019年第8期 的采空区定义为危险,将采空区状态简化成一个二 分类变量,继而使用逻辑回归理论评估采空区状 态。采空区状态评价公式为 Y = lnæè1 -PP öø = C0 + C1X1 + C2 X2 + ⋯ + Cn Xn ,(2) [ ] 式中,P 为采空区处于危险状态的概率,P ∈ 0,1 ; 2 采空区危险等级快速评价模型 C0 为 截 距 ;C1,C2,⋯,Cn 为 逻 辑 回 归 系 数 ; X1,X2,⋯,Xn 为采空区危险性评价指标量值。 一般根据采空区处于危险状态的概率值来评估 采空区的真实状态,因此,式(2)可改写为 2. 1 采空区样本来源 [12] 通过查阅相关文献 与云锡老厂矿现场调查, 建立了包含110个采空区数据及评价结果的数据库, 如表1所示。 Y P = e Y ( 1 + e ) . (3) 在采空区状态分析中,逻辑回归理论的作用是 寻找最优的拟合函数来描述采空区危险性概率和 RQD、矿柱尺寸及布置、岩体结构、采空区高度等评 价指标之间的关系。 1 . 3 K-means快速聚类算法 K-means 快速聚类算法 的基本思路是将 n 个 [11] 样本划分为 k 个聚类,同一聚类中的对象具有较高的 2. 2 基于RF-RFE算法的指标筛选 相似度,具体算法步骤如下: 采用 RF-RFE 算法计算采空区初始评价指标的 信息量,并从中选择关键性指标,在一定程度上可以 避免由于变量过多造成模型过度拟合,从而提升模 型准确度、降低模型运行时间。根据文献[13-14], 决策树的数量设置为 1 000,在 R-Studio 软件中实现 指标筛选。得到评价指标的信息量大小排序为岩石 质量指标>矿柱尺寸布置>岩体结构>采空区高度>地 质构造>工程布置>地下可见水>跨度>周围开采影响 (1)随机选择k个聚类中心 x1z,x2z,x3z,⋯,xkz; (2)计算每一个样本与聚类中心的距离,并将样 本与最近的聚类中心归于一个蔟群: η 2 [ min d ( xi,xkz ) ] = ( xui - xuz ) , (4) ∑ u = 1 式中,xi 为样本;xuz 为聚类中心点;η 为样本指标属 性的个数;d 为各样本与初始聚类中心点之间的距 离。本研究是在逻辑回归模型所得的采空区危险性 概率基础上细化采空区危险性等级,因此,仅将采空 区危险性概率 P 作为样本指标属性,即 η = 1 。经过 式(4)进行初始分类后,将所得的分类结果记为 > 暴露面积>采空区规格>埋深。依次删除信息量最 低的指标,并重新计算分类正确率,得到分类正确率 随着指标数量的变化曲线,如图3所示。 i i 1 i 2 i 3 i k 。 C = { C ,C ,C ,⋯,C } ( 3)在步骤(2)的基础上,确定新的聚类中心点 m xkz ,计算公式为 m xkz = 1 nkz m - 1∑xt , (5) m m - 1 式中,xkz 为新凝聚中心点;nkz 为每次重新聚类后各 蔟群中包含的样本数量;m为计算次数;xt 为每次聚 m - 1 类后各簇群的各个样本点,t = 1,2,3,⋯,nkz 。 以新的聚类中心点代替上一个中心点。 由图3可知:当指标数量为12时,即为初始评价 指标体系,随着指标体系依次剔除信息量少的指标, 随机森林的分类正确率总体呈上升趋势,说明剔除 信息量少的指标能够降低冗余信息对分类模型的影 响;当指标删减至 7 个时,分类模型的正确率达到最 高,达到91%,此后,随着指标数量的减少,分类模型 ( 4)重复步骤(2)和步骤(3),直至聚类中心点不 再改变为止。 快速聚类分析的最大特点是消除了在采空区危 险性分级中人为因素的影响。本研究采空区危险等 级评价流程如图2所示。 · 181 · 总第518期 金 属 矿 山 2019年第8期 的正确率急剧下降,这说明剩余的7个指标均为关键 性指标。因此,本研究采用这7个指标构建了采空区 危险性评价指标体系,其中定量指标为岩石质量指 标RQD(X 危险性分级结果如表2所示。 1 )和采空区高度(X),其余5个定性指标的 2 为反映各指标对采空区危险等级划分的影响, 以7个指标的量值作为横坐标,以概率值为纵坐标绘 制了各指标的危险性分级概率分布曲线,如图 4 所 示。根据图 4 可以分析出各指标不同取值对应的采 空区危险等级。 · 182 · 黄新典等:基于逻辑回归—聚类算法的采空区危险等级评价模型 2019年第8期 2 . 3 模型构建 本研究将危险等级为Ⅰ、Ⅱ的采空区定义为安 Ⅳ 4个等级区域,图中每个点对应一个采空区样本,4 种不同形状的点代表每一个样本的真实危险等级; 横坐标为采空区样本编号,纵坐标为该样本经式(6) 计算所得的危险性 P 。 全采空区,将危险等级为Ⅲ、Ⅳ的采空区定义为危险 采空区,将采空区状态简化成一个二分类变量,继而 使用逻辑回归理论实现采空区状态的评估。将 110 个采空区样本随机划分为 79 个训练样本与 31 个测 试样本,通过训练样本拟合得到采空区危险性预测 模型: ìY = -0.227 3X + 0.004 5X + 1.293 2X + 1.007 3X 2 3 4 1 ï + 1.873 6X5 + 0.913 4X6 + 1.602 1X7 - 4.582 1 .(6) í ï Y Y ) P = e ( 1 + e î 为进一步细化采空区危险性等级划分,将模型 评价结果由“安全”和“危险”细化到Ⅰ、Ⅱ、Ⅲ、Ⅳ 4个 危险等级。首先应用K-means快速聚类算法对79个 训练样本的危险性(P)进行聚类分析,选择 4 个聚类 中心点,得到 4 个类群的中心点对应的危险性,每个 凝聚中心分别对应采空区Ⅰ、Ⅱ、Ⅲ、Ⅳ 4个危险等级 中的中心危险性;然后依据相邻凝聚中心的平均值 ( 0.264、0.633、0.868),将采空区危险性划分成稳固 由图 6 可知:6 个Ⅰ级采空区和 4 个Ⅳ级采空区 全部被准确分级;9个Ⅱ级采空区中,2个采空区危险 等级被低估为Ⅰ级,2个采空区危险等级被误判为Ⅲ 级;12 个Ⅲ级采空区中,1 个采空区危险等级被低估 为Ⅱ级,2个采空区危险等级被误判为Ⅳ级。31个测 试样本中,24 个采空区被正确分级,正确率达到 (Ⅰ级)、较稳(Ⅱ级)、不稳(Ⅲ级)和危险(Ⅳ级)4 个 等级,如表3所示。 77.4%。然而在矿山生产中,高估或低估采空区危险 性带来的后果严重性不对等,低估采空区危险性可 能造成严重的安全事故,高估采空区危险性仅可能 导致矿山安全成本浪费。 在评价采空区危险性等级时,通过危险性评价 模型(式6)计算该采空区的危险性取值,根据危险性 P值所处的阈值区间,确定该采空区的危险等级。某 考虑到误判成本(将稳定误判成危险或将危险 误判成稳定)不对等,本研究引入混淆矩阵(表 4)来 量化误判成本,混淆矩阵中,行为采空区真实状态, 列为模型预测状态。每一个单元格均对应一种分类 情况,共有4种分类情况,分别用 a,b,c,d 表示。对角 线元素a和d为正确分类的采空区数量,非对角线元 1 采空区样本危险等级评价流程如图 5 所示,其中 X = 3 6,X =4.5,X =3,X =3,X =3,X =2,X =2。 2 3 4 5 6 7 ( ) 素b和c为错误分类的采空区数量。 a a + b 为稳定 采空区预测准确率,d c + d 为危险采空区预测准 确率,c c + d 为第一类错误(危险采空区误判为稳 定采空区)率,b a + b 为第二类错误(稳定采空区误 ( ) ( ) ( ) 判为危险采空区)率。在矿山生产中,第一类错误造 成的后果远远严重于第二类错误,因此,预测模型的 第一类错误率应尽可能低。 3 模型检验 将 110 个采空区样本随机划分为 79 个训练样本 与31个测试样本,通过采空区危险性预测模型(式6) 计算所有测试样本的采空区危险性,结合K-means算 法聚类结果,按危险性取值将图 6 划分为Ⅰ、Ⅱ、Ⅲ、 表 5 为测试样本的混淆矩阵,经过计算可知,第 一类错误率仅为(6.25%),明显低于第二类错误率 (13.30%),危险采空区的预测准确率达到93.75%,略 · 183 · 总第518期 金 属 矿 山 2019年第8期 bility evaluation based on improved matter-element extension model [J].Journal of Safety and Environment,2015,15(1):21-25. [5] 黄 慎,周 平,黄茂钧.矿山地下采空区稳定性二级模糊综合 评价[J].有色金属:矿山部分,2018,70(3):9-11. Huang Shen,Zhou Ping,Huang Maojun.Two- level fuzzy compre⁃ hensive evaluation of stability of mine goaf[J].Nonferrous Metals: Mining Section,2018,70(3):9-11. 高于稳定采空区的预测准确率 86.70%,模型预测精 度总体上较好。 [6] 刘 浪,陈忠强.模糊集对分析在矿山采空区稳定性评价中的应 用[J].中南大学学报:自然科学版,2015,46(7):2665-2672. Liu Lang,Chen Zhongqiang.Application of fuzzy set pair in stabili⁃ ty evaluation of mining goa[f J].Journal of Central South University: Science and Technology,2015,46(7):2665-2672. [7] 康钦容,张卫中,倪小山,等.采空区稳定性评价的综合指数法 [J].金属矿山,2017(3):162-166. Kang Qinrong,Zhang Weizhong,Ni Xiaoshan,et al.Comprehensive index method in goaf stability evaluation[J].Metal Mine,2017(3): 162-166. 4 结 论 [ 8] 李孜军,林武清,陈 阳.基于 AGA-BP 神经网络的采空区危险 (1)构建了包含 110 个样本的采空区数据库,应 性评价[J].中国安全生产科学技术,2015,11(7):135-141. Li Zijun,Lin Wuqing,Chen Yang.Evaluation on risk of goaf based on AGA-BP neural network[J].Journal of Safety Science and Tech⁃ nology,2015,11(7):135-141. 用 RF-REF 算法对采空区危险性评价指标体系进行 降维,最终选择了RQD值、岩体结构等7个评价指标。 (2)结合逻辑回归理论与K-means快速聚类算法 提出了采空区危险等级快速评价模型,经验证,该模 型分级准确率达到 77.40%,第一类错误率降低至 [9] Breiman L.Random forests[J].Machine Learning,2001,45(1):5- 3 2. [10] 张 俊,殷坤龙,王佳佳,等.三峡库区万州区滑坡灾害易发性评 6.25%,危险采空区的预测准确率达到 93.75%,实现 价研究[J].岩石力学与工程学报,2016,35(2):284-296. 了采空区危险等级的快速精准评价。 Zhang Jun,Yin Kunlong,Wang Jiajia,et al.Evaluation of landslide susceptibility for Wanzhou District of Three Gorges Reservoir[J]. Chinese Journal of Rock Mechanics and Engineering,2016,35(2): 参 考 文 献 2 84-296. [1] 高 峰,高宇旭,周科平.基于RES-云模型的采空区稳定性评价 [ 11] Lin P,Wang Y H,Qi H S,et al.Distributed consensus- based K- 研究[J].灾害学,2019,34(1):17-21. means algorithm in switching multi-Agent networks[J].Journal of Systems Science & Complexity,2018,31(5):1128-1145. Gao Feng,Gao Yuxu,Zhou Keping.Goaf stability evaluation based on RES-cloud model and analysis[J].Journal of Catastrophology, [ 12] 侯 俊,程文文,闵忠鹏,等.基于未确知测度理论的采空区稳定 2 019,34(1):17-21. 2] 赵国彦,梁伟章,洪昌寿.采空区稳定性的改进云模型二维评判 J].中国安全科学学报,2015,25(10):102-108. Zhao Guoyan,Liang Weizhang,Hong Changshou.Improved cloud 性分级[J].黄金,2017,38(11):29-33. [ Hou Jun,Cheng Wenwen,Min Zhongpeng,et al.Classification of goaf stability based on uncertainty measurement theory[J].Gold, [ 2 017,38(11):29-33. model for two dimensional stability evaluation of goaf[J].China Safety Science Journal,2015,25(10):102-108. [ 13] 商 强,林赐云,杨兆升,等.基于变量选择和核极限学习机的交 通事件检测[J].浙江大学学报:工学版,2017,51(7):1339-1346. Shang Qiang,Lin Ciyun,Yang Zhaosheng,et al.Traffic incident de⁃ tection based on variable selection and kernel extreme learning ma⁃ chine[J].Journal of Zhejiang University:Engineering Science, [ 3] 王瑞鹏,高永涛,吴顺川.基于改进熵-云模型的隧道采空区稳定 性评价[J].现代矿业,2017(10):215-218. Wang Ruipeng,Gao Yongtao,Wu Shunchuan.Stability evaluation of tunnel goaf based on improved entropy-cloud model[J]. Modern Mining,2017(10):215-218. 2 017,51(7):1339-1346. 14] Guyon I,Weston J,Barnhill S,et al.Gene selection for cancer clas⁃ sification using support vector machines[J].Machine Learning, 002,46(1-3):389-422. [ [4] 汪 伟,罗周全,熊立新,等.基于改进物元可拓模型的采空区稳 定性评价[J].安全与环境学报,2015,15(1):21-25. 2 Wang Wei,Luo Zhouquan,Xiong Lixin,et al.Research of goaf sta⁃ (责任编辑 王小兵) · 184 ·
  • 中矿传媒与您共建矿业文档分享平台下载改文章所需积分:  5
  • 现在注册会员立即赠送 10 积分


皖公网安备 34050402000107号