预测模型的建立及应用

2024-05-18 21:37

1. 预测模型的建立及应用

本节课讲解空间预测模型理论及实践应用技巧解析

预测模型的建立及应用

2. 预测模型建立

松散含水层含水量预测模型的建立,主要是将预测松散含水层含水量问题转化为利用支持向量机求解的数学模型,主要包括如下4个步骤:
1)选取训练集T={(x1,y1),…,(xl,yl)}∈(χ×y)l。
2)选择适当的核函数K(x,x'),如线性核函数、径向基核函数、多项式核函数和Sigmoid核函数。
3)确定支持向量机中的参数,如C,ε,γ等。
4)建立模型。
(一)训练集的选取
1.预测基本输入特征量
选取合适的训练集,对于建立松散含水层含水量预测模型是非常重要的,本课题对预测模型输入特征量的选取遵循以下原则:
1)现有物探仪器设备可测、或可转换参数,具有实用性和可观测性。
2)要与所研究地下含水层结构的综合物探方法相配套,充分挖掘所获观测数据的信息资源。
3)优化组合,兼顾所利用的输入特征量间的互补性,避免或减少冗余性。
4)保障预测模型具有广泛的推广能力。
建模时要把所有的数据分为训练集和测试集,根据训练集,求出决策函数,而用测试集测试所得决策函数的准确率。那么选择一个合适的训练集,第一要满足训练集中的样本点数量不能过多,也不能太少;第二训练集中所含特征向量不能太少,如果太少则不能够反映实际情况,影响分类或者回归的准确性,但也不能太多,否则会增加计算难度,甚至影响训练速度和时间。除了样本点多少的选择以外,还要在数据中不能选择过多的属性。属性选择要达到以下3个目的:首先是确认哪些属性与预测输出特征量相关的特性;其次是尽量降低输入空间维数,缩小求解问题的规模;最后是提高准确率,得到更好的决策函数。
基于上述原则,将支持向量机预测模型的预测输入基本特征量选定为:反演电阻率值ρ、反演含水层厚度H,半衰时Th,衰减度D,视极化率ηs,纵波速度v等地面物探观测参数作为基本输入特征量讨论。
为了验证上述输入特征量选择原则的正确性,选择了石家庄市西马庄水源地现有电测深资料与单孔单位涌水量资料并进行了秩相关性分析,原始数据见表5-1所示。分析结果如表5-2所示。
表5-1 西马庄原始数据


表5-2 西马庄电性参数与涌水量相关分析


2.综合性参数的引入
鉴于第四纪含水层一般呈高阻性,在电测深反演解释过程中易产生Th等值现象的解释误差。依据含水层的富水性对应于一定的电阻率值,而单孔单位涌水量既与含水层富水性有关,又与其厚度有关。为了尽可能消除因等值现象导致解释所产生的误差,又能使输入特征量与预测量有更为密切的相关性,使预测模型具有良好的推广能力,对此,将电测深反演后的含水层电阻率与其层厚度相乘作为一个输入特征量T',该特征量T'与含水层单孔单位涌水量相关分析结果表明,二者有更为密切的相关性,见表5-3所示。
表5-3 综合参数与涌水量相关分析


考虑到不同的地区地下水所含矿化度的不同,因其孔隙水的导电性不同,将会导致同类富水层电阻率有较大差别。为了消除孔隙水的导电性对预测精度的影响,突出含水层有效孔隙度特征,基于ρ=αΦ-ms-nρw式,引入了相对综合因子参数T″,其表达式为

含水层含水量预测综合物探技术

式中:ρf为孔隙流体的电阻率;ρt为岩石的电阻率;H为含水层厚度。
从而将原基本输入特征量ρ和H组合为一个输入特征量T″。
3.激发比的引入
考虑到激发比可以放大激电异常,对第四系含水层有更为灵敏的反应。因此将激电模型里的极化率、衰减度参量用激发比参量代替,其表达式为J=ηsD。由表5-4和表5-5可知,激发比的引入,改善了模型预测精度。
表5-4 未引入激发比模型预测结果


表5-5 引入激发比模型预测结果


4.输入特征量的归一化
由于各输入特征量的量度差异较大,在用支持向量回归机进行建模训练和使用时,有必要对输入特征量进行归一化。归一化是指将属性数据按比例缩放,使之落入一个小的特定区域,如[-1,1]或[0,1]范围内。
归一化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比,权重差距过大。本次所建模型采用最小-最大规范化方法:将输入特征量归一化到[0,1]范围内。归一化公式为

含水层含水量预测综合物探技术

式中:x为某个输入参数对应的值;xmin和xmax分别为该项特征量的设置最小值和最大值;xs为该输入参数的归一化值。
5.预测输入特征量的优选
在基本预测输入特征量归一化处理的基础上,需要进一步研究特征量组合结构的优化性问题,即确定预测模型最佳输入特征量的数量和成分。
通过电测深找水实践证明:
第四纪地下含水层结构对应特定的电测深异常特征,所获取的地电参数与单孔涌水量均存在着一定的对应关系,但深入研究还表明:作为预测输入量而言,每一参量与单孔涌水量间存在着不同的相关性,输入量相互之间可能还存在着冗余成分,为提高预测模型的预测精度和模型运算速度,探讨上述地电参量与地下水单孔涌水量的相关性和输入特征量的最佳组合问题,揭示地电参数与地下含水层含水量的内在关联是十分必要的,也是确定预测模型输入特征向量的基础。
鉴于地电参数与地下含水层含水量间不存在明确的函数关系,在优化分析过程中,以石家庄市西马庄水源地的已知8眼井孔的资料为基础,将现有的已知特征量参数:T″,Th,D,ηs及激发比J作为分析对象,利用高斯径向基核函数,C=1024,ε=0.5,γ=1.0和ε-SVR模型进行7+1循环式训练-预测方式。其分析结果如表5-6所示。
由表5-6所列预测精度可得到以下结论:
表5-6 特征量的优化分析表 单位:%


第一,随着特征数量的增大,其预测精度得到提高,四个特征量预测精度最好;
第二,若采用三个特征量时,其中的T″,Th,D组合最佳,其次为T″,D,ηs。以上结论对建模时输入特征量的优化筛选提供了重要的参考依据。
6.预测模型输入特征量的确定
基于上述分析,针对研究对象的尺度及精度要求,建立了4种预测模式。对于不同的预测模型,分别确定了其输入特征量。
模型一:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求不高的区域水文地质调查。
模型二:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、含水层的半衰时Th、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于专门性水文地质调查。
模型三:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、半衰时Th、衰减度D、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求较高但探测深度要求不高的地下水源评价与开发工作。
模型四:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、纵波波速v、含水层厚度h、含水层层数n和井孔孔径。该模型主要用于对精度要求较高,探测深度较深的地下水源评价与开发工作。
(二)核函数的选择
在建立预测模型过程中,需要选择函数K(·,·),即选择一个映射Φ(·),把x所在的输入空间χ映射到另一个空间H。H是一个Hilbert空间,即可以是有限维空间也可以是无穷维空间。因此核函数方法的核心内容就是采用非线性变换Φ将n维矢量空间中的随机矢量x映射到高维特征空间,在高维特征空间中设相应的线性学习算法,由于其中各坐标分量间的相互作用只限于内积,因此不需要知道非线性变换Φ的具体形式,只要利用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
支持向量回归机中的核函数对于预测模型的推广能力产生直接的影响,在选取核函数时,通常采用的方法有:一是利用专家的先验知识预先给定核函数;二是采用Cross-Validation方法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。在本课题中我们采用了第二种方法进行核函数的选择。
为使确定的核函数具有最佳的预测效果,首先要对相应的核数的参数进行优化筛选。由(5-20),(5-22),(5-24)式可见,径向基核函数需要确定1个核参数,即系数γ;Sigmoid核函数需要确定2个参数,分别为:系数γ和常数r;多项式核函数需要确定3个参数,分别为:阶数d、系数γ和常数r。
在筛选过程中,将石家庄市西马庄水源地的井旁电测深成果和抽水试验数据作为研究基础,具体数据详见表5-1所示。
将其划分为两个子集,即一个训练集和一个预测验证集。由此对上述每一种核函数利用已确定的训练集进行建模参数优化筛选。具体方法为:对于径向基函数采取了交叉验证和网格搜索的方法,多项式核函数和Sigmoid核函数采用了试凑法。
试验一:径向基核函数交叉验证
对石家庄西马庄水源地8眼井作试验数据,选出7个作为训练样本,一个不参加训练的样本。再将选出的7个训练样本随机分为3组,选择其中两组进行训练,另外一组作为验证,这样一个接一个,进行3次。每次验证时,尝试所有的参数对,计算其交叉校验的平均性能MSE,最后以模型在3次验证数据上的性能平均值作为这一学习参数下的模型性能,然后循环8次,从而确定最佳参数值范围。确定的搜索范围分别为C(2-10,215),ε(2-10,23),γ(2-10,210)。为了增加搜索速度,我们步长选择的是2的指数倍。最终确定参数C=1024,ε=0.5,γ=1。
试验二:多项式核函数试凑法
借鉴试验一的分析结果,选择参数C=1024,ε=0.5。在选取核参数之前,我们需要对多项式核的阶数d做出限定,选择的阶数不易过大,如阶数太大,不仅增加了学习模型的复杂性,易出现“过拟合”现象,导致SVM的推广性能降低。因此,规定d的取值不超过4。另外对γ和r做了初步筛选,圈定了其范围分别为:γ∈[1,4];r∈[0.1,1]。然后采用阶梯式搜索分别找出最优的阶数d、系数γ和常数r;
首先进行阶数d的选择,设定参数γ=1,r=0.2;从8眼井中选出7个作为训练样本,d依次选择1、2、3、4进行训练,预测那个没有参加训练的样本,循环8次然后将预测结果进行对比。本文采用两个误差指标来衡量模型的预测效果:均方误差(MSE)和平均绝对百分比误差(MAPE),其表达式分别为

含水层含水量预测综合物探技术

式中: 为预测值;xi为实测值;N为试验次数,这里N取8。
由表5-7可以看出:当d=3或d=4时,预测精度相近,但考虑到阶数越大,学习模型的复杂性越大,因此选取d=3最佳参数。
表5-7 不同阶数多项式核函数对预测结果影响统计表


然后进行系数γ选择,设定参数d=3,r=0.2;γ依次选择1、2、3、4进行训练,然后将预测结果进行对比,可知γ=1为最佳参数(表5-8)。
表5-8 不同γ多项式核函数对预测结果影响统计表


最后进行常数r的选择,设定参数d=3,γ=1.0;r依次选择0.2、0.4、0.6、0.8和1进行训练,然后将预测结果进行对比,可知r=0.8为最佳参数(表5-9)。
表5-9 不同r多项式核函数对预测结果影响统计表


最终确定参数d=3,γ=1,r=0。
试验三:Sigmoid核函数试凑法
选取石家庄西马庄水源地8眼井作试验数据,仍借鉴试验一的分析结果,选择参数C=1024,ε=0.5。
对γ和r做了初步筛选后,确定γ为0.1;圈定r∈[0.01,1]。下边对参数r进行精细选择,设定r值分别为:0.01、0.1、0.2、0.4、0.8,从8眼井中选出7个作为训练样本,预测样本不参加训练集,经过8次循环,通过对预测结果的对比,从而确定r=0.01~0.1时预测效果最好。分析结果如表5-10所示。
表5-10 不同rSigmoid核函数对预测结果影响统计表


核函数的选择通常采用Cross-Validation法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。
我们将石家庄西马庄8眼井的资料与北京潮白河水源地7眼井的资料组合建立新的建模集,从中任意选出14个作为训练集样本,另外1个样本组成预测集,这样进行了8组试验,通过图5-3我们看到基于RBF核函数的预测模型预测精度最高。因此我们认为利用RBF核函数建立的含水层含水量预测模型预测效果最佳。

图5-3 三种核函数预测精度对比

(三)参数确定
采用径向基核函数所建立的模型需要确定的参数共有三个,分别为核函数参数γ,惩罚系数C和松弛变量ε。
惩罚因子C为正常数,惩罚因子C决定了对超出误差ε的样本惩罚程度。从结构风险的角度考虑,C值取得过大,问题倾向于经验最小,忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度,忽略了经验数据的作用。因此可以说,C是支持向量机回归和泛化能力的平衡参数。惩罚因子C取不同的常数值,对结果有不同的影响。
由表5-11可知当C值取1024和2048时预测精度相同,说明当C大于一定值时,其变化对分析结果产生的影响变小。
表5-11 不同C值对预测结果影响统计表


通过对比试验,最终取值C=1024,ε=0.5,γ=1.0。
(四)模型建立
构造并求解最优化问题

含水层含水量预测综合物探技术

得到最优解 每个支持值β=(a*i-ai)。
构造决策函数

含水层含水量预测综合物探技术

其中 
将所求得的核函数系数、β值及b值带入5-44式,即为ε-SVR预测模型。

3. 预测模型建立

(一)参数拟合原理
在得到单井涌水量与所测量的地球物理测井各种参数之间的关系方程之后,可以发现里面还有很多待定的常数,这些常数在各种不同的地方是不一样的,为了能够确定这些系数,就需要获得这个地区的单井涌水量和对应的测井参数,然后拟合得到对应于这个地区的待定参数,这个被称为参数拟合。本程序所采用的拟合方法是改进型阻尼最小二乘法进行多参数数据拟合[14]。下面介绍一下拟合方法的原理。
设按上述任一模型计算得到的第i个孔的单位涌水量为qi。抽水实测单位涌水量为qj,由前述诸个模型可见,qj是个非线性多元变量函数,因而采用下述两种函数作为目标函数。并用最优化方法求取选定模型的待定系数是适当的。
(A+λ2K)ΔP=B
(1)目标函数取各井单位涌水量相对误差的平方和

含水层含水量预测综合物探技术

式中:λ为阻尼系数。
(2)目标函数取各井单位涌水量绝对误差的平方和

含水层含水量预测综合物探技术

选用哪种目标函数,应根据预测区各井单井涌水量的差异大小以及预测要求而定。若涌水量差异较大,而对涌水量较小者的预测精度要求较高,则宜选择相对误差的平方和作为目标函数,此时,小水量钻孔的预测精度虽然提高了,但大水量钻孔的预测精度相对降低了。若涌水量变化较小,且对涌水量较小者并不要求与大水量钻孔有相同高的预测精度,则适宜采用绝对误差的平方和作为目标函数。拟合流程见图5-4。
(二)模型构建
使用最小二乘准则,待求的模型系数a、b、c、d、e、f、g、R的值,应使得目标函数取极小值。显然,这是个非线性多元变量函数求最小二乘极小的问题,可采用最优化方法中比较有效的马奎特法(或称阻尼最小二乘法)求解,通常经过几次迭代就可求得各个模型的待定系数。
马奎特法是最优化中求最小二乘极小解比较有效的算法,它比梯度法、共轭梯度法收敛快,又比高斯牛顿法稳定,因而早已在很多其他反演解释中得到广泛应用。
经典马奎特算法中,由模型系数组成的矢量及其修正量的各元素相互间差别很大时,阻尼系数必将取得较大,这将增加迭代次数,降低运算速度,同时他还要求模型系数初值应靠近极小点,否则不易收敛,也就是说稳定性不理想。因此,我们采用加权阻尼因子的方法,即将经典马奎特方程中的单位矩阵K修改为与模型系数的大小有关的对角阵K,效果是模型系数大,阻尼小;模型系数小,阻尼大。从而使各模型系数以同等速度向极小点收敛,提高了算法的运算速度与稳定性,这就是改进的阻尼最小二乘法,其方程为

含水层含水量预测综合物探技术


图5-4 多参数拟合流程图


含水层含水量预测综合物探技术

利用上述拟合方法所求取的预测模型的待定参量a、b、c、d、e、、fg、R代入(5-61)式,便得到利用地球物理测井电阻率参量预测含水层含水量模型。

预测模型建立

4. 预测模型建立

(一)参数拟合原理
在得到单井涌水量与所测量的地球物理测井各种参数之间的关系方程之后,可以发现里面还有很多待定的常数,这些常数在各种不同的地方是不一样的,为了能够确定这些系数,就需要获得这个地区的单井涌水量和对应的测井参数,然后拟合得到对应于这个地区的待定参数,这个被称为参数拟合。本程序所采用的拟合方法是改进型阻尼最小二乘法进行多参数数据拟合[14]。下面介绍一下拟合方法的原理。
设按上述任一模型计算得到的第i个孔的单位涌水量为qi。抽水实测单位涌水量为qj,由前述诸个模型可见,qj是个非线性多元变量函数,因而采用下述两种函数作为目标函数。并用最优化方法求取选定模型的待定系数是适当的。
(A+λ2K)ΔP=B
(1)目标函数取各井单位涌水量相对误差的平方和

含水层含水量预测综合物探技术

式中:λ为阻尼系数。
(2)目标函数取各井单位涌水量绝对误差的平方和

含水层含水量预测综合物探技术

选用哪种目标函数,应根据预测区各井单井涌水量的差异大小以及预测要求而定。若涌水量差异较大,而对涌水量较小者的预测精度要求较高,则宜选择相对误差的平方和作为目标函数,此时,小水量钻孔的预测精度虽然提高了,但大水量钻孔的预测精度相对降低了。若涌水量变化较小,且对涌水量较小者并不要求与大水量钻孔有相同高的预测精度,则适宜采用绝对误差的平方和作为目标函数。拟合流程见图5-4。
(二)模型构建
使用最小二乘准则,待求的模型系数a、b、c、d、e、f、g、R的值,应使得目标函数取极小值。显然,这是个非线性多元变量函数求最小二乘极小的问题,可采用最优化方法中比较有效的马奎特法(或称阻尼最小二乘法)求解,通常经过几次迭代就可求得各个模型的待定系数。
马奎特法是最优化中求最小二乘极小解比较有效的算法,它比梯度法、共轭梯度法收敛快,又比高斯牛顿法稳定,因而早已在很多其他反演解释中得到广泛应用。
经典马奎特算法中,由模型系数组成的矢量及其修正量的各元素相互间差别很大时,阻尼系数必将取得较大,这将增加迭代次数,降低运算速度,同时他还要求模型系数初值应靠近极小点,否则不易收敛,也就是说稳定性不理想。因此,我们采用加权阻尼因子的方法,即将经典马奎特方程中的单位矩阵K修改为与模型系数的大小有关的对角阵K,效果是模型系数大,阻尼小;模型系数小,阻尼大。从而使各模型系数以同等速度向极小点收敛,提高了算法的运算速度与稳定性,这就是改进的阻尼最小二乘法,其方程为

含水层含水量预测综合物探技术

式中:

含水层含水量预测综合物探技术


图5-4 多参数拟合流程图


含水层含水量预测综合物探技术

利用上述拟合方法所求取的预测模型的待定参量a、b、c、d、e、f、g、R代入(5-61)式,便得到利用地球物理测井电阻率参量预测含水层含水量模型。

5. 预测模型建立

松散含水层含水量预测模型的建立,主要是将预测松散含水层含水量问题转化为利用支持向量机求解的数学模型,主要包括如下4个步骤:
1)选取训练集T={(x1,y1),…,(xl,yl)}∈(x×y')。
2)选择适当的核函数K(x,x′),如线性核函数、径向基核函数、多项式核函数和Sigmoid核函数。
3)确定支持向量机中的参数,如C,ε,γ等。
4)建立模型。
(一)训练集的选取
1.预测基本输入特征量
选取合适的训练集,对于建立松散含水层含水量预测模型是非常重要的,本课题对预测模型输入特征量的选取遵循以下原则:
1)现有物探仪器设备可测、或可转换参数,具有实用性和可观测性。
2)要与所研究地下含水层结构的综合物探方法相配套,充分挖掘所获观测数据的信息资源。
3)优化组合,兼顾所利用的输入特征量间的互补性,避免或减少冗余性。
4)保障预测模型具有广泛的推广能力。
建模时要把所有的数据分为训练集和测试集,根据训练集,求出决策函数,而用测试集测试所得决策函数的准确率。那么选择一个合适的训练集,第一要满足训练集中的样本点数量不能过多,也不能太少;第二训练集中所含特征向量不能太少,如果太少则不能够反映实际情况,影响分类或者回归的准确性,但也不能太多,否则会增加计算难度,甚至影响训练速度和时间。除了样本点多少的选择以外,还要在数据中不能选择过多的属性。属性选择要达到以下3个目的:首先是确认哪些属性与预测输出特征量相关的特性;其次是尽量降低输入空间维数,缩小求解问题的规模;最后是提高准确率,得到更好的决策函数。
基于上述原则,将支持向量机预测模型的预测输入基本特征量选定为:反演电阻率值ρ、反演含水层厚度H,半衰时Th,衰减度D,视极化率ηs,纵波速度v等地面物探观测参数作为基本输入特征量讨论。
为了验证上述输入特征量选择原则的正确性,选择了石家庄市西马庄水源地现有电测深资料与单孔单位涌水量资料并进行了秩相关性分析,原始数据见表5-1所示。分析结果如表5-2所示。
表5-1 西马庄原始数据


表5-2 西马庄电性参数与涌水量相关分析


2.综合性参数的引入
鉴于第四纪含水层一般呈高阻性,在电测深反演解释过程中易产生hT等值现象的解释误差。依据含水层的富水性对应于一定的电阻率值,而单孔单位涌水量既与含水层富水性有关,又与其厚度有关。为了尽可能消除因等值现象导致解释所产生的误差,又能使输入特征量与预测量有更为密切的相关性,使预测模型具有良好的推广能力,对此,将电测深反演后的含水层电阻率与其层厚度相乘作为一个输入特征量T″,该特征量T″与含水层单孔单位涌水量相关分析结果表明,二者有更为密切的相关性,见表5-3所示。
表5-3 综合参数与涌水量相关分析


考虑到不同的地区地下水所含矿化度的不同,因其孔隙水的导电性不同,将会导致同类富水层电阻率有较大差别。为了消除孔隙水的导电性对预测精度的影响,突出含水层有效孔隙度特征,基于,ρ=αΦ-ms-nρw引入了相对综合因子参数T″,其表达式为

含水层含水量预测综合物探技术

式中:ρf为孔隙流体的电阻率;ρt为岩石的电阻率;H为含水层厚度。
从而将原基本输入特征量ρ和H组合为一个输入特征量T″。
3.激发比的引入
考虑到激发比可以放大激电异常,对第四系含水层有更为灵敏的反应。因此将激电模型里的极化率、衰减度参量用激发比参量代替,其表达式为J=ηsD。由表5-4和表5-5可知,激发比的引入,改善了模型预测精度。
表5-4 未引入激发比模型预测结果


表5-5 引入激发比模型预测结果


4.输入特征量的归一化
由于各输入特征量的量度差异较大,在用支持向量回归机进行建模训练和使用时,有必要对输入特征量进行归一化。归一化是指将属性数据按比例缩放,使之落入一个小的特定区域,如[-1,1]或[0,1]范围内。
归一化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比,权重差距过大。本次所建模型采用最小-最大规范化方法:将输入特征量归一化到[0,1]范围内。归一化公式为

含水层含水量预测综合物探技术

式中:x为某个输入参数对应的值;xmin和xmax分别为该项特征量的设置最小值和最大值;xs为该输入参数的归一化值。
5.预测输入特征量的优选
在基本预测输入特征量归一化处理的基础上,需要进一步研究特征量组合结构的优化性问题,即确定预测模型最佳输入特征量的数量和成分。
通过电测深找水实践证明:
第四纪地下含水层结构对应特定的电测深异常特征,所获取的地电参数与单孔涌水量均存在着一定的对应关系,但深入研究还表明:作为预测输入量而言,每一参量与单孔涌水量间存在着不同的相关性,输入量相互之间可能还存在着冗余成分,为提高预测模型的预测精度和模型运算速度,探讨上述地电参量与地下水单孔涌水量的相关性和输入特征量的最佳组合问题,揭示地电参数与地下含水层含水量的内在关联是十分必要的,也是确定预测模型输入特征向量的基础。
鉴于地电参数与地下含水层含水量间不存在明确的函数关系,在优化分析过程中,以石家庄市西马庄水源地的已知8眼井孔的资料为基础,将现有的已知特征量参数:T″,Th,D,ηs及激发比J作为分析对象,利用高斯径向基核函数,C=1024,ε=0.5,γ=1.0和ε-SVR模型进行7+1循环式训练-预测方式。其分析结果如表5-6所示。
由表5-6所列预测精度可得到以下结论:
表5-6 特征量的优化分析表 单位:%


第一,随着特征数量的增大,其预测精度得到提高,四个特征量预测精度最好;
第二,若采用三个特征量时,其中的T″,Th,D组合最佳,其次为T″,D,ηs。以上结论对建模时输入特征量的优化筛选提供了重要的参考依据。
6.预测模型输入特征量的确定
基于上述分析,针对研究对象的尺度及精度要求,建立了4种预测模式。对于不同的预测模型,分别确定了其输入特征量。
模型一:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求不高的区域水文地质调查。
模型二:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、含水层的半衰时Th、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于专门性水文地质调查。
模型三:输入特征量为含水层的反演电阻率ρ、隔水层的反演电阻率ρ隔、视极化率ηs、半衰时Th、衰减度D、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高但探测深度要求不高的地下水源评价与开发工作。
模型四:输入特征量为含水层的反演电阻率、ρ隔水层的反演电阻率ρ隔、视极化率ηs、纵波波速v、含水层厚度h、含水层层数n和井孔孔径φ。该模型主要用于对精度要求较高,探测深度较深的地下水源评价与开发工作。
(二)核函数的选择
在建立预测模型过程中,需要选择函数K(·,·),即选择一个映射φ(·),把x所在的输入空间x映射到另一个空间H。H是一个Hilbert空间,即可以是有限维空间也可以是无穷维空间。因此核函数方法的核心内容就是采用非线性变换φ将n维矢量空间中的随机矢量x映射到高维特征空间,在高维特征空间中设相应的线性学习算法,由于其中各坐标分量间的相互作用只限于内积,因此不需要知道非线性变换φ的具体形式,只要利用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法。
支持向量回归机中的核函数对于预测模型的推广能力产生直接的影响,在选取核函数时,通常采用的方法有:一是利用专家的先验知识预先给定核函数;二是采用Cross-Validation方法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。在本课题中我们采用了第二种方法进行核函数的选择。
为使确定的核函数具有最佳的预测效果,首先要对相应的核数的参数进行优化筛选。由(5-20),(5-22),(5-24)式可见,径向基核函数需要确定1个核参数,即系数γ;Sigmoid核函数需要确定2个参数,分别为:系数γ和常数r;多项式核函数需要确定3个参数,分别为:阶数d、系数γ和常数r。
在筛选过程中,将石家庄市西马庄水源地的井旁电测深成果和抽水试验数据作为研究基础,具体数据详见表5-1所示。
将其划分为两个子集,即一个训练集和一个预测验证集。由此对上述每一种核函数利用已确定的训练集进行建模参数优化筛选。具体方法为:对于径向基函数采取了交叉验证和网格搜索的方法,多项式核函数和Sigmoid核函数采用了试凑法。
试验一:径向基核函数交叉验证对石家庄西马庄水源地8眼井作试验数据,选出7个作为训练样本,一个不参加训练的样本。再将选出的7个训练样本随机分为3组,选择其中两组进行训练,另外一组作为验证,这样一个接一个,进行3次。每次验证时,尝试所有的参数对,计算其交叉校验的平均性能MSE,最后以模型在3次验证数据上的性能平均值作为这一学习参数下的模型性能,然后循环8次,从而确定最佳参数值范围。确定的搜索范围分别为C(2-10,215),ε(2-10,23),γ(2-10,210)。为了增加搜索速度,我们步长选择的是2的指数倍。最终确定参数C=1024,ε=0.5,γ=1。
试验二:多项式核函数试凑法
借鉴试验一的分析结果,选择参数C=1024,ε=0.5。在选取核参数之前,我们需要对多项式核的阶数d做出限定,选择的阶数不易过大,如阶数太大,不仅增加了学习模型的复杂性,易出现“过拟合”现象,导致SVM的推广性能降低。因此,规定d的取值不超过4。另外对γ和r做了初步筛选,圈定了其范围分别为:γ∈[1,4];r∈[0.1,1]。然后采用阶梯式搜索分别找出最优的阶数d、系数γ和常数r;
首先进行阶数d的选择,设定参数γ=1,r=0.2;从8眼井中选出7个作为训练样本,d依次选择1、2、3、4进行训练,预测那个没有参加训练的样本,循环8次然后将预测结果进行对比。本文采用两个误差指标来衡量模型的预测效果:均方误差(MSE)和平均绝对百分比误差(AMPE),其表达式分别为

含水层含水量预测综合物探技术

式中: 为预测值;xi为实测值;N为试验次数,这里N取8。
由表5-7可以看出:当d=3或d=4时,预测精度相近,但考虑到阶数越大,学习模型的复杂性越大,因此选取d=3最佳参数。
表5-7 不同阶数多项式核函数对预测结果影响统计表


然后进行系数γ选择,设定参数d=3,r=0.2;γ依次选择1、2、3、4进行训练,然后将预测结果进行对比,可知γ=1为最佳参数(表5-8)。
表5-8 不同γ多项式核函数对预测结果影响统计表


最后进行常数r的选择,设定参数d=3,γ=1.0;r依次选择0.2、0.4、0.6、0.8和1进行训练,然后将预测结果进行对比,可知r=0.8为最佳参数(表5-9)。
表5-9 不同r多项式核函数对预测结果影响统计表


最终确定参数d=3,γ=1,r=0。
试验三:Sigmoid核函数试凑法
选取石家庄西马庄水源地8眼井作试验数据,仍借鉴试验一的分析结果,选择参数C=1024,ε=0.5。
对γ和r做了初步筛选后,确定γ为0.1;圈定r∈[0.01,1]。下边对参数r进行精细选择,设定r值分别为:0.01、0.1、0.2、0.4、0.8,从8眼井中选出7个作为训练样本,预测样本不参加训练集,经过8次循环,通过对预测结果的对比,从而确定r=0.01~0.1时预测效果最好。分析结果如表5-10所示。
表5-10 不同rSigmoid核函数对预测结果影响统计表


核函数的选择通常采用Cross-Validation法,即在核函数选取时,分别试用不同的核函数,归纳预测误差最小的核函数就是最好的核函数。
我们将石家庄西马庄8眼井的资料与北京潮白河水源地7眼井的资料组合建立新的建模集,从中任意选出14个作为训练集样本,另外1个样本组成预测集,这样进行了8组试验,通过图5-3我们看到基于RBF核函数的预测模型预测精度最高。因此我们认为利用RBF核函数建立的含水层含水量预测模型预测效果最佳。

图5-3 三种核函数预测精度对比

(三)参数确定
采用径向基核函数所建立的模型需要确定的参数共有三个,分别为核函数参数γ,惩罚系数C和松弛变量ε。
惩罚因子C为正常数,惩罚因子C决定了对超出误差ε的样本惩罚程度。从结构风险的角度考虑,C值取得过大,问题倾向于经验最小,忽略对结构复杂程度的考虑;反之则更多地考虑了问题的复杂程度,忽略了经验数据的作用。因此可以说,C是支持向量机回归和泛化能力的平衡参数。惩罚因子C取不同的常数值,对结果有不同的影响。
由表5-11可知当C值取1024和2048时预测精度相同,说明当C大于一定值时,其变化对分析结果产生的影响变小。
表5-11 不同C值对预测结果影响统计表


通过对比试验,最终取值
(四)模型建立
构造并求解最优化问题

含水层含水量预测综合物探技术

得到最优解 每个支持值 。
构造决策函数

含水层含水量预测综合物探技术

将所求得的核函数系数、β值及b值带入5-44式,即为ε-SVR预测模型。

预测模型建立

6. 预测模型建立及应用

6.5.2.1 数据组织
利用已经建立的西南三江中段空间数据库作为研究区成矿预测的数据基础。该数据库包括重力数据库、航磁数据库、遥感构造解译数据库、化探数据库、地质图空间数据库、矿产地数据库、地理底图数据库。
对上述各个数据库的建立都转换为1:50万的比例尺存储在MAPGIS地图库中,并通过投影变换统一使用高斯坐标系。
6.5.2.2 证据层选择
根据对西南三江中段地区各控矿因素的分析认为:本区的Au,Ag,Cu,Pb,Zn矿的主要控矿因素取决于以下几个方面:①有利地层岩性组合发育;②中基-中酸性岩浆岩脉群发育;③线性构造带发育;④有利地球化学异常;⑤有利地球物理异常。
根据该区主要控矿因素分析,提取了三叠纪地层证据层(有矿点分布和断层切过)、中基-中酸性岩浆岩证据层、北西向控矿构造证据层、Au元素异常证据层、Ag元素异常、Cu元素异常证据层、Pb元素异常证据层、Zn元素异常证据层、K2O异常证据层、Na2O异常证据层、Th元素异常证据层、重力异常证据层、航磁异常证据层、成矿势能证据层、断裂密度证据层、汇水盆地证据层等17种异常作为成矿有利信息(图6-12~图6-31)。分别从数据库中提取相应的证据层。用设置缓冲区的方法,将线状控矿标志转化为面状标志,北西向控矿构造的缓冲半径为1km。
(1)赋矿地层
(2)岩浆岩
中酸性岩体(印支期、燕山期花岗岩、二长花岗岩、花岗斑岩、花岗闪长岩等)在本区广泛出露,中生代岩体规模较大,新生代岩体规模较小,二者与热液矿床成矿关系密切,岩体周围有热液矿床产出。德格-乡城、类乌齐-左贡两个城矿带的岩浆岩与成矿关系最为密切。
与岩浆矿床有关的岩体:三叠纪未分超基性岩,沿板块结合带和断裂带侵入,与部分铜钼镍矿成矿关系密切;海西期以来的中酸性复式岩带(三叠纪花岗闪长岩、侏罗纪二长花岗岩、侏罗纪二长花岗岩),与岩浆矿床成矿关系最密切的是燕山-喜马拉雅期花岗岩(图6-14)。
火山矿床和三叠纪中酸性岩浆岩有关,产出在这些岩体的周围。
从上总结可知研究区内矿床产出和中基-中酸性岩浆岩有关。
(3)构造控矿作用
北西-南东向区域大断裂旁侧的北西向、北东向断裂与近南北向次级断裂控制着热液矿床的产出(图6-15)。岩浆矿床、火山矿床受北西-南东向区域大断裂旁侧的北西向次级断裂控制。
(4)化探异常
从图6-12~图6-23可以看出,元素异常和矿床基本上是吻合的,有矿床产出的地方地球化学异常相应较高。
(5)重力异常
由图6-24可见,重力异常沿着构造线分布,而岩体亦是沿着构造侵位,重力异常和岩体相符。热液矿床、岩浆矿床、火山矿床大部分在重力异常圈内或者其附近。热液矿床主要分布在德格-乡城、类乌齐-左贡两个带内,德格-乡城成矿带重力异常突出。岩浆矿床、火山矿床主要产出在德格-乡城成矿带内。

图6-12 分布有矿点的上三叠统地层


图6-13 有北西向断裂切过的上三叠统赋矿地层图


图6-14 岩浆岩图


图6-15 北西向构造控矿作用图


图6-16 Ag异常图与矿点分布


图6-17 Au异常图与矿点分布


图6-18 Cu异常图与矿点分布


图6-19 Pb异常与矿点分布


图6-20 Zn异常与矿点分布


图6-21 K2O地球化学异常


图6-22 Na2O地球化学异常


图6-23 Th地球化学异常


图6-24 重力异常

(6)航磁异常
由图6-25可见,航磁异常沿着构造线分布,而岩体亦是沿着构造侵位,航磁异常和岩体分布基本相符。航磁异常主要分布在江达成矿带内。热液矿床、岩浆矿床、火山矿床部分在航磁异常圈内或者其附近。
(7)成矿势能
在以前的研究工作积累的基础上,我们认为:成矿势能可以是一个重要的控矿因素(图6-26)。所谓的成矿势能,是指研究区某点势能场的数量特征。国外有学者提出的“成矿块体异常成层”的一种表现,就是在矿体、矿床、矿田、矿结、矿区、成矿区和成矿省范围内,随深度发生物质组织构造面的变化,即所谓“螺旋构造”。建议其可以作为一种找矿标志(В.А.Арсеньеъ,В.А.Дубоь,1999)。
表现在西南三江中段地区,研究区内的矿点具有在一定高程范围内集中分布的特征。因此,我们从DEM数据中提取出研究区内405个矿点的高程值,并进行了统计分析,结果如图6-27。

图6-25 航磁异常


图6-26 成矿势能与矿点分布图


图6-27 矿点在高程(m)上的分布

从图6-27中可以看出,矿点基本上集中于4100~5100m的海拔高度范围内。这一点解释如下:研究区本身海拔就很高,为 3000~5500m,对于海拔过高的地区(>5100m),矿体抬升后容易受到风化剥蚀,不易保留;而对于海拔过低的地区(<4000m),在成矿作用过程中,一是(成矿)异常可能发生再次迁移,二是成矿就位机制决定其矿体赋存的深度。
同时我们还发现矿点与高程的分布关系具有双峰规律:一个峰值位于4400~4510m,一个峰值位于4950~5060m。具体是什么原因造成的,还需要进一步分析。
(8)断裂密度
断裂密度即断裂频数,指的是单元网格中断裂构造的条数(不论方向)。这里单元网格取8km×8km大小,断裂密度结果等值线如图6-28所示。
从图6-28中可以看出,在类乌齐东北、妥坝以北、江达、甘孜以西、巴塘以西、德荣以西等六个地区(深色部分)断裂发育程度较高,而在这些地区附近往往有比较密集的矿床(化),甚至是超大型矿床出现。同时,将单元网格加密为2km×2km大小,对全区内矿点所在处的断裂密度进行分析(图6-29),发现矿点一般集中分布于断裂密度范围为1.006~1.038和1.049~1.070的地区,位于中间段。这是因为适当的断裂发育程度是有利成矿的重要条件:断裂密度大的地方,断裂过于发育,往往是岩浆晚期或期后气液组分等成矿物质运移的通道,而断裂密度小的地方,断裂不发育,往往又不利于成矿物质的富集,同时也不能提供有利的赋矿空间。
(9)汇水盆地
汇水盆地控制着化学元素的迁移,是成矿异常分析的重要因素。从图6-30中可以看出,各类地球化学综合异常总体分布于四—五级的汇水盆地中,表明区域元素异常没有经过较大范围的地表迁移,元素漂移并不严重。
6.5.2.3 模型应用
证据权法的预测评价结果是一个成矿后验概率图,其值在0~1之间,后验概率值的大小对应着成矿概率的大小。在确定整个预测评价范围内的临界值之后,图中后验概率大于临界值的地区即为预测的找矿远景区。证据权法应用的一个前提就是具备一定量的基础图件,并能够在成熟的成矿地质模型的指导下,从这些基础图件中优选编制可应用于预测的各种辅助性图件。如前所述,西南三江中段地区各种地质、矿产、物探、化探及遥感数据库的建立为证据权法的应用提供了必备的数据基础,对西南三江中段地区各种有利证据层的分析为证据权法的应用提供了各种辅助性的数据。在此基础上,根据前面所建立的有利证据层的专题图件,分别计算各证据层与成矿的相关程度和预测评价证据权值(表63),并以此对研究区内各个单元进行成矿概率有利度的计算。

图6-28 断裂密度异常与矿点分布


图6-29 矿点-断裂密度统计


图6-30 汇水盆地与化探异常分布


表6-3 西南三江中段地区各证据层权值参数表


续表

表6-3分析结果显示,本区各致矿证据层变量对矿化指示作用的大小依次为:L12,L1,L11,L9,L10,L8,L3,L2,L6,L5,L16,L4,L13,L7,L15,L17,L14。进一步对计算结果进行分析可以得出以下几个基本认识:①本区三叠纪地层与成矿关系密切;②中酸性岩浆岩在本区虽然所占面积大,其与成矿的关系一般,但岩体接触带与成矿关系密切;③各时代构造中新生代构造相对与成矿关系密切;④Au,Ag,Cu,Pb,Zn五个地球化学异常证据层中,Zn异常,Pb异常和Ag异常与成矿的关系比较密切,其相关值分别为1.37011,1.0542和1.008349,其次是Cu异常,Au异常最小;⑤航磁异常、成矿势能、汇水盆地与成矿关系不密切;⑥区域断裂、重力异常与成矿呈负相关。
对于17个证据层进行条件独立性检验,在显著性水平为0.05下,χ2检验结果列于表6-4中,可以看出,上述17个因素基本上满足条件独立性。

表6-4 证据因子相对于矿点分布的条件独立性检验


续表

6.5.2.4 预测结果及评价
以所建立的西南三江中段地区证据权模型,计算各个预测单元的成矿有利度(以成矿的后验概率值来代表),图6-31为西南三江中段地区成矿的后验概率图。由图6-31可知,已知矿床(化)点大部分落入成矿的后验概率高值区,并且可以看出,其成矿后验概率的高值区域主体的走向基本和构造线的方向一致。

图6-31 西南三江北段成矿后验概率图

结合本区矿产地质综合研究成果,图6-32标明西南三江中段重点成矿区(带)远景区,即:①石渠-甘孜铜银锡多金属及金矿成矿带;②玉河坡-昌台银多金属矿成矿带;③巴塘义敦银多金属矿成矿区;④甘孜-理塘中南段铜金成矿带;⑤金沙江中段铜金成矿带;⑥江达火山-岩浆岛弧北段银多金属成矿带;⑦昌都-芒康斑岩铜钼金成矿带;⑧类乌齐-左贡构造带北段锡铅锌多金属成矿带。

图6-32 西南三江北段重点成矿区(带)成矿预测图

7. 模型建立及预测

根据对影响各煤层甲烷含量地质因素的分析研究,我们从中选出了三至四个因素指标作为影响甲烷含量大小的主要控制因素,作为建模预测的指标(表8.2),根据GM(0,N)建模原理,利用已知瓦斯钻孔获得的各煤层吨煤甲烷含量值与相应的主控因素指标统计值(表8.3至表8.8),便可建立起GM(0,N)预测模型:

表8.2 韩城矿区各煤层甲烷含量主要影响因素一览表

北区:
2#煤层为:
Qd=1.238998+1.849812×10-2MCMS-0.4038353DBYX-0.3008947T20M
3#煤层为:
Qd=5.284516+0.9561405GZ-3.103036×10-2SYZH+
3.650546×10-3MCMS-1.065613XPXS
11#煤层为:
Qd=12.35199-1.592682GZ-0.5038853T10M+3.1008224×10-2DCZH
南区:
3#煤层为:
Qd=8.57431+1.159906×10-3MCMS-0.1627932D10M-0.5087085T10M
5#煤层为:
Qd=16.54584-1.378349GZ-0.151046SYZH+4.48066×10-3MCMS-05600767D5M
11#煤层为:
Qd=8.730469+7.424534×10-3MCMS-1.633005DBYX-0.5197687D10M

表8.3 北区2号煤层甲烷含量与主控因素指标统计表


表8.4 北区3号煤层甲烷含量与主控因素指标统计表


续表


表8.5 北区11号煤层甲烷含量与主控因素指标统计表


续表


表8.6 南区3号煤层甲烷含量与主控因素指标统计表


表8.7 南区5号煤层甲烷含量与主控因素指标统计表


续表


表8.8 南区11号煤层甲烷含量与主控因素指标统计表

利用所建立的预测模型,分别对各煤层已知钻孔甲烷含量值进行了预测,并以此计算了各孔煤层气含量实际值与预测值之间残差及平均相对误差值(表8.9至表8.14)。从表中看出,尽管各煤层钻孔相对误差值较高,但总体相对误差平均值均<25%,其中北区2#煤层相对误差平均值为13.65%,精度良好(二级);3#煤层相对误差平均值18.35%,精度较好(三级);11#煤层相对误差平均值19.18%,精度较好(三级)。南区3#煤层相对误差平均值23.03%,精度合格(四级);5#煤层相对误差平均值22.01%,精度合格(四级);11#煤层相对误差平均值15.0%,精度较好(三级)。
因此,所建立的甲烷含量预测模型,可以用于南北区对各煤层甲烷含量值进行预测。

表8.9 北区2号煤层预测甲烷含量值误差检验表


表8.10 北区3号煤层预测甲烷含量值误差检验表


续表


表8.11 北区11号煤层预测甲烷含量值误差检验表


表8.12 南区3号煤层预测甲烷含量值误差检验表


表8.13 南区5号煤层预测甲烷含量值误差检验表


表8.14 南区11号煤层预测甲烷含量值误差检验表

模型建立及预测

8. 预测模型的建模方法

预测模型的建模方法回归分析法,时间序列分析法,灰色预测法。
回归分析法
基本思想:根据历史数据的变化规律,寻找自变量与因变量之间的回归方程式,确定模型参数,据此预测。回归问题分为一元和多元回归、线性和非线性回归。

特点:技术比较成熟,预测过程简单;将预测对象的影响因素分解,考察各因素的变化情况,从而估计预测对象未来的数量状态;回归模型误差较大,外推特性差。
适用范围:回归分析法一般适用于中期预测。回归分析法要求样本量大且要求样本有较好的分布规律,当预测的长度大于占有的原始数据长度时,采用该方法进行预测在理论上不能保证预测结果的精度。另外,可能出现量化结果与定性分析结果不符的现象,有时难以找到合适的回归方程类型。
时间序列分析法
基本思想:把预测对象的历史数据按—定的时间间隔进行排列,构成一个随时间变化的统计序列,建立相应的数据随时间变化的变化模型,并将该模型外推到未来进行预测。
适用范围:此方法有效的前提是过去的发展模式会延续到未来,因而这种方法对短期预测效果比较好,而不适合作中长期预测。
灰色预测法
基本思想:将一切随机变量看作是在一定范围内变化的灰色变量,不是从统计规律角度出发进行大样本分析研究,而是利用数据处理方法(数据生成与还原),将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究,即灰色系统理论建立的不是原始数据模型,而是生成数据模型。

适用范围:预测模型是一个指数函数,如果待测量是以某一指数规律发展的,则可望得到较高精度的预测结果。影响模型预测精度及其适应性的关键因素,是模型中背景值的构造及预测公式中初值的选取。