Logging Curve Recovery Based on LSTM Multi-scale Symbiotic Relationship Mining
-
摘要: 利用测井数据进行储层地质描述的应用中,经常出现部分测井曲线失真或缺失的问题,为此,测井曲线复原一直以来都是相关研究领域的研究热点和难点。传统信号复原方法和基于神经网络等机器学习的复原方法,对同井不同测井曲线间关联信息的表示和利用不充分,跨井模型适应能力差。针对这些问题,该文提出一种基于长短时记忆(LSTM)网络多尺度共生关系挖掘的测井曲线复原方法:在基于神经网络测井曲线复原方法的基础上,通过引入多尺度灰度共生短阵(GLCM)关系完成对不同测井曲线间横向关联信息的表征以实现测井曲线集纵横向语义信息的全面利用,进而实现缺失测井曲线的复原。实验结果表明,与BP神经网络、随机森林(RF)、GBDT、深度森林(DF)和LSTM网络方法相比,该文所提方法具有更好的信号复原精度,且所构建模型具有一定的井间适应能力。Abstract: In the application of reservoir geological description using logging data, some of the logging curves are often distorted or missing, and for this reason, the recovery of logging curves is a research hotspot and difficulty in related research fields. Traditional signal recovery methods and recovery methods based on machine learning such as neural networks do not adequately represent and utilize correlation information between different logging curves of the same well, and have poor adaptability to cross-well models. In response to these problems, a log curve restoration method is proposed in this paper based on Long Short-Term Memory (LSTM) neural network multi-scale symbiosis mining: on the basis of neural network log curve restoration method, by introducing the multi-scale Gray Level Co-occurrence Matrix (GLCM) completes the characterization of the lateral correlation information between different logging curves so as to realize the full utilization of the vertical and horizontal semantic information of the logging curve set, thereby realizing the restoration of missing logging curves. The experimental results show that, compared with the BP neural network, Random Forest (RF), Gradient Boosting Decision Tree (GBDT), Deep Forest (DF) and LSTM network methods, the method proposed in this paper has better signal restoration accuracy, and the constructed model has a certain cross-well adaptability.
-
1. 引 言
测井数据是进行油气资源勘探与开发过程中最主要的油藏描述基础数据。然而,在实际应用中,由于井筒扩径、泥浆或泥饼干扰等问题,经常会出现部分井段测井数据失真或缺失的情况,甚至出于经济可行性考虑而放弃获取某些测井曲线(如密度测井曲线)的情况[1]。因此失真或缺失测井曲线复原对目标油藏描述及油藏区域相态变化及连通性分析等应用都具有重要意义。近年来,许多研究者通过多元回归分析、支持向量机、人工神经网络等方法对缺失测井曲线进行预测[2-4]。Wang等人[3]以多元线性回归模型为基础,推导了非线性回归模型进行测井曲线的预测和校正。Salehi等人[4]应用多层神经网络建立了一套测井曲线预测的智能模型,得到了较好的预测结果。Rolon等人[5]利用广义回归神经网络生成人工测井曲线并与多元回归结果进行比较,实验结果表明神经网络预测结果具有更高的准确性。然而,现有方法大多只是通过测井曲线间直接(全局或局部)非线性映射关系分析的角度出发来设计缺失测井曲线复原方法,没有充分考虑储层非均质地质变化造成的测井曲线本质关联关系的变化情况,进而造成局部过拟合及全局欠拟合的问题,极大地限制了测井曲线复原的精度[6]。显然,解决这一问题的关键在于如何实现不同测井曲线间关联关系的鲁棒表征[7,8]。
基于以上分析,为了实现测井曲线复原性能的提升,图像处理领域常用的灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)具有良好的信号共生关系表示能力[9]。通过多尺度灰度共生关系描述实现了测井曲线间横向关联关系的有效表征,进而结合LSTM[10,11]网络的纵向(即深度向)语义信息挖掘能力,实现了一种新的测井曲线复原方法。
2. 基于LSTM多尺度灰度共生关系挖掘的测井曲线复原
对于测井曲线复原问题,与因变量(目标曲线)相关的自变量(母曲线)往往不止一个[2]。具体地,对于大庆油田陆相坳陷盆地内齐家凹陷工区,根据测井曲线的实际情况,选用了井径(CALiper, CAL)、自然伽马(natural Gamma Ray, GR)、深侧向电阻率(LateroLog Deep, LLD)、声波时差(ACoustic, AC)、自然电位(Spontaneous Potential, SP)作为母曲线,密度(DENsity, DEN)作为目标曲线,用实际测试数据进行测井曲线复原,复原模型图如图1所示。
2.1 数据预处理
实验数据集来自目标工区的44口井,数据集中包括3个地质层,其中A地质层14口井,B地质层2口井,C地质层28口井。测井数据包括全部的CAL, GR, LLD, AC, SP和DEN。为了更好地提取井间特征,将各口井的测井数据进行多尺度灰度化,进而减小井间差异获得测井数据多尺度特征。具体地,如进行256级灰度化处理,即使测井曲线的幅度规定化到1~256,令原始测井曲线数据集为
{\boldsymbol{P}} = \left\{ {{{\boldsymbol{p}}_i} \in {R^{M \times 1}},i = 1,2, \cdots ,N} \right\} (其中,N表示测井曲线条数,M表示每条曲线的样本个数),则该测井曲线集的灰度化计算公式如式(1)所示{{\boldsymbol{q}}_i} = \min \left( {\left\lfloor {\frac{{{{\boldsymbol{p}}_i} - \max \left( {{{\boldsymbol{p}}_i}} \right)}}{{{{(\max \left( {{{\boldsymbol{p}}_i}} \right) - \min \left( {{{\boldsymbol{p}}_i}} \right))} \mathord{\left/ {\vphantom {{(\max \left( {{{\boldsymbol{p}}_i}} \right) - \min \left( {{{\boldsymbol{p}}_i}} \right))} g}} \right. } g}}}} \right\rfloor + 1,g} \right) (1) 其中,
{{\boldsymbol{p}}_i} 代表第i 条测井曲线,\max \left( {{{\boldsymbol{p}}_i}} \right) ,\min \left( {{{\boldsymbol{p}}_i}} \right) 分别代表第i 条测井曲线的最大值和最小值;g \in [32, 64,128,256] 为本文选择的4个灰度尺度;{{\boldsymbol{q}}_i} 代表当灰度尺度为g 时,灰度化后的第i 条测井曲线。2.2 多尺度灰度共生关系构建
灰度共生矩阵是1973年由Haralick等人[12]提出一种特征提取方法,它通过研究灰度的空间相关特性来描述图像的纹理特性。具体地,灰度共生矩阵被定义为从灰度为
i 的像素点出发,离开某个固定位置(相隔距离为d ,方位为\theta )的点上灰度值为j 的概率,即所有估计的值可以表示成一个矩阵的形式,以此称为灰度共生矩阵。它能够反映图像灰度关于方向、相邻间隔、变化幅度等综合信息,从而分析出图像的局部模式和它们排列规则的基础。因此,借助灰度共生矩阵的像素关联关系表征能力,可对母曲线与目标曲线分别进行多尺度灰度共生矩阵的计算,实现每条母曲线与目标曲线间横向关联关系表征。同样地,原始母曲线数据集为
{{\boldsymbol{P}}_r} = \left\{ {{{\boldsymbol{p}}_i} \in {R^{M \times 1}},i = 1,2, \cdots ,N - 1} \right\} ,目标曲线数据集为{{\boldsymbol{p}}_N} \in {R^{M \times 1}} ,({{\boldsymbol{p}}_i},{{\boldsymbol{p}}_N}) 经灰度尺度为g 的灰度化后可得({{\boldsymbol{q}}_i},{{\boldsymbol{q}}_N}) 。那么,统计从第m个样本点{{\boldsymbol{q}}_i}\left( m \right) 出发,离开固定位置(相隔距离为1,方位为0^\circ )的点上灰度值为{{\boldsymbol{q}}_N}(m) 的概率,可形成一个g \times g 的灰度共生矩阵,即测井曲线对({{\boldsymbol{q}}_i},{{\boldsymbol{q}}_N}) 的灰度共生矩阵为{{\bf{GLCM}}_i}\left( {a,b} \right) = \frac{{C\left( {{{\boldsymbol{q}}_i}(m) = a,{{\boldsymbol{q}}_N}(m) = b} \right)}}{M} (2) 其中,
C\left( {{{\boldsymbol{q}}_i}(m) = a,{{\boldsymbol{q}}_N}(m) = b} \right) 表示{{\boldsymbol{q}}_i}(m) = a, {{\boldsymbol{q}}_N}(m) = b 的个数;另外,矩阵的行列分别代表母曲线和目标曲线的灰度值。由于灰度共生矩阵代表测井曲线间对应灰度值共生的概率,因此,可利用灰度共生矩阵建立对应测井曲线间的高维映射关系。为了利用灰度共生矩阵得到不同曲线间可靠的高维映射关系,分别提取了如下两种共生关系:
直接共生关系:对于所获取的目标曲线灰度共生矩阵
{{\bf{GLCM}}_i} ,直接找到目标曲线候选灰度值b对应列中的最大值所在行数{\bar a_{i,b}} ,即{\bar a_{i,b}} = \max ({{\bf{GLCM}}_i}(:,b)) (3) 其中,
{{\bf{GLCM}}_i}(:,b) 表示对应灰度共生矩阵中的第b列所有行构成的向量。进而,可提取每条母曲线的最大概率灰度构成的最大共生灰度向量{{\boldsymbol{\bar a}}_b} = {\left\{ {{{\bar a}_{i,b}}} \right\}_{i = 1,2, \cdots ,N - 1}} 。那么,所有候选灰度中,对应的最大共生灰度向量中与实际母曲线灰度向量{{\boldsymbol{a}}^*} = {\left\{ {a_i^*} \right\}_{i = 1,2, \cdots ,N - 1}} 相似性最大的灰度值即为位置目标曲线灰度之的复原,即{{\boldsymbol{\bar a}}^*} = \mathop {\max }\limits_b \left( {{\text{corr}}\left( {{{{\boldsymbol{\bar a}}}_b},{{\boldsymbol{a}}^*}} \right)} \right) (4) 其中,
{\rm{corr}}\left( {{{{\boldsymbol{\bar a}}}_b},{{\boldsymbol{a}}^*}} \right) 表示计算{{\boldsymbol{\bar a}}_b} 与{{\boldsymbol{a}}^*} 的相关系数。鲁棒共生关系:由于测井曲线具有典型的时序性,因此,考虑到先验概率的影响,提出了一种概率迭代的方法以提取更加鲁棒的共生关系。具体地,对于目标井的已知测井曲线
{\boldsymbol{P}}_r^{{\text{target}}} 经多尺度灰度化作为该模型的测试数据用于复原未知曲线{\boldsymbol{p}}_N^{{\text{target}}} ,过程如下:(1)当样本点序号
m = 1 时,按照直接共生关系构建得到对应的目标曲线灰度值;(2)当样本点序号
m = m + 1 时,更新已有灰度共生矩阵:将灰度共生矩阵目标曲线每列的最大值减掉一次测井曲线对出现的概率(\dfrac{1}{M} ),得到新的灰度共生矩阵;(3)按照直接共生关系预测序号为
m + 1 时目标曲线灰度值。当样本点序号依次增加时,依然按照步骤(2)进行迭代更新灰度共生矩阵,进而复原出目标曲线。
为了得到更精确的复原结果,将直接共生关系和鲁棒共生关系所预测的目标曲线经多元线性回归方法进行线性拟合:令
{{\boldsymbol{X}}_1} ,{{\boldsymbol{X}}_2} 分别代表直接共生关系和鲁棒共生关系复原的目标曲线,{\beta _1} ,{\beta _2} 为偏回归系数,{\boldsymbol{Y}} 代表拟合后的目标曲线,则有{\boldsymbol{Y}} = {\beta _1}{{\boldsymbol{X}}_1} + {\beta _2}{{\boldsymbol{X}}_2} (5) 2.3 多尺度信息融合
除了通过引入多尺度灰度共生关系完成对不同测井曲线间横向关联信息的表征以外,考虑到测井数据是序列数据,其变化趋势中含有显著的语义信息,所以结合LSTM网络的纵向(即深度向)语义信息挖掘能力,以实现测井曲线集纵横向语义信息的全面利用。其中,LSTM网络[13]是特殊的循环神经网络,能够解决序列长期依赖性的深度学习模型,它不仅能够像标准循环神经网络那样从序列数据中提取信息,还能够保留来自先前较远步骤的具有长期相关性的信息。利用LSTM的纵向语义信息挖掘能力,最终实现了如表1所示的基于LSTM多尺度共生关系挖掘的测井曲线复原方法。
表 1 基于LSTM多尺度共生关系挖掘的测井曲线复原算法输入:训练数据集{\boldsymbol{P} } = \left\{ { { {\boldsymbol{p} }_i} \in {R^{M \times 1} },i = 1,2, \cdots ,N} \right\},目标井
数据集
{\boldsymbol{P} }_r^{ {{\rm{target}}} } = \left\{ { {\boldsymbol{p} }_i^{ {\text{target} } } \in {R^{ {M_t} \times 1} },i = 1,2, \cdots ,N - 1} \right\}输出:复原目标曲线 {\boldsymbol{p}}_N^{{\text{target}}} \in {R^{{M_t} \times 1}} 相关模型训练: (1) 将训练数据集进行多尺度灰度化; (2) 生成灰度共生矩阵集{\bf{GLCM} } = {\left\{ { { {\bf{GLCM} }_i} } \right\}_{i = 1,2, \cdots ,N - 1} }; (3) 训练生成式(5)中的 {\beta _1} 和 {\beta _2} ; (4) 训练多尺度灰度共生关系测井曲线复原LSTM网络; 测试井未知曲线复原: (5) 测试井已知母曲线多尺度灰度化; (6) 令 {g_j} \in [32,64,128,256] 为4个多尺度灰度级,进行多尺度
曲线复原:For j=1:4 (a) 直接共生关系复原目标曲线 {\boldsymbol{p}}_{N,{\text{dir}}}^{{\text{target}}} ; (b) 鲁棒共生关系复原目标曲线 {\boldsymbol{p}}_{N,{\text{rob}}}^{{\text{target}}} : For m=1:Mt ① If m==1,复制步骤(6a)得到目标曲线样本
序号为1的值;② If m==m+1,更新灰度共生矩阵后获取直
接共生关系复原值;③ m=m+1,依次进行迭代; End (c) 利用式(5)完成目标曲线融合:
{\boldsymbol{p}}_{N,{\text{glcm}}}^{{\text{target}}} = {\beta _1}{\boldsymbol{p}}_{N,{\text{dir}}}^{{\text{target}}} + {\beta _2}{\boldsymbol{p}}_{N,{\text{rob}}}^{{\text{target}}}End (7) 得到的多尺度复原结果结合LSTM网络最终复原出目标曲线。 3. 复原效果评价方式
为更好地评价复原数据与实测数据间的关系,本文引入常规的误差函数以及相关系数,另外,为了能够更客观地评价复原结果,更清晰地分析出测井曲线的频率分量,同时引入谱分析作为评判复原效果的标准。其定义如下。
3.1 相关系数及误差函数
皮尔逊相关系数(Pearson Correlation Coefficient,PCC)用于表示预测数据与真实数据之间的相关程度;均方误差(RMSE)[14]表示预测误差平方的平均值,能够反映一个数据集的离散程度;平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)表示绝对百分比误差的平均值,常用于衡量预测的准确性;平均绝对误差(Mean Absolute Error,MAE)表示绝对误差预测的平均值,能够准确反映实际预测误差的大小。引入这4个评价方式能更好地反映预测数据与真实数据的实际情况。其中,均方误差表达式为
{\rm{RMSE}} = \frac{{\sqrt {\displaystyle\sum\nolimits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} } }}{n} (6) 其中,
{y_i} 为真实数据,{\hat y_i} 为预测数据,n 为样本点个数。3.2 时频谱
短时傅里叶变换(Short-Time Fourier Transform,STFT)[15]:研究非平稳频域信号的一种分析方法,它的主要目的就是将这些信号进行变换之后能够得到更好的频域性分析。表达式为
{G_f}\left( {\omega ,\tau } \right) = \int\limits_R {f(t)g(t - \tau )} {{\rm{e}}^{ - {\text{j}}\omega t}}{\text{d}}t = < f(t),{g_{\omega ,t}}(t) > (7) 其中,
\tau 是时间延迟,f(t) 为时域信号,g(t) 为窗口函数。小波变换(Wavelet Transform, WT)[16]是应用于多领域的时频域变换方式,它提供了一个随频率变换的时间频率窗口。应用于测井数据上,进而可以明确地分析出测井曲线的高频、低频特征,其表达式为
{W_f}\left( {a,b} \right) = < f,{\psi _{a,b}} > = \frac{1}{{\sqrt a }}\int\limits_{ - \infty }^\infty {f(t){\psi ^*}\left(\frac{{t - b}}{a}\right){\text{d}}t} (8) 其中,
< f,{\psi _{a,b}} > 表示内积,a>0为尺度因子,b 为位移因子,^* 表示复数共轭,f(t) 为时域信号,{\psi _{a,b}} 称为小波基函数。4. 实验结果与分析
本文以目标工区44口井数据为基础,每口井均包含CAL, GR, LLD, AC, SP, DEN。选取A1、A2井测井数据作为测试集,A1井测深为1230~2278 m,A2井测深为1200~2206 m,采样间隔为0.125 m,在剩余42口井中选取井口数据作为训练集,其中选取A地质层中的井作为局部近邻井,B, C地质层中的井作为非局部近邻井。为了评估本文所提测井曲线复原方法的有效性,设计了如下两组实验:
(1)利用局部近邻井数据进行多尺度灰度共生关系构建,以实现目标井缺失DEN曲线复原;
(2)利用非局部近邻井数据进行多尺度灰度共生关系构建,以实现目标井缺失DEN曲线复原;
具体地,每组实验中,灰度尺度分别设置为32, 64, 128, 256,局部近邻井和非局部近邻井数目分别设为1, 3和5,进行24组实验。然后,将多尺度信息输入到LSTM网络中,最终得到6组实验结果,选取最好的一组实验结果,采用BP神经网络法、随机森林法、GBDT、深度森林、LSTM法和本文方法进行对比分析。实验中,各方法的超参数设置如表2。
表 2 各个方法超参数设置表方法 参数设置 BP神经网络 隐藏层为9,学习率为0.01,最大迭代次数为200,训练精度阈值为10–3 随机森林 树的个数为50,最大叶子数为10 GBDT 学习率为0.1,最大深度为3,最小叶子树为1 深度森林 最大层数为20,树的个数为100,最小叶子树为1,每个级联层的森林个数为2 LSTM网络 隐藏层单元个数为100,学习率为0.005,迭代次数为15,梯度下降算法设置为Adam 4.1 本文模型预测结果分析
假设A1井、A2井整个井段测井数据DEN全部缺失,利用该井的未缺失的其他测井数据以及训练井的全部测井资料重构缺失测井曲线DEN,即对A探区A1、A2井缺失的DEN进行4个尺度下的复原得到多尺度下DEN复原结果,并将多尺度的信息进行融合得到一组近邻点的复原结果。由于篇幅有限,文中仅对A探区A1井、A2井的部分实验结果进行展示分析。A1井多尺度下局部近邻井为1时的DEN曲线复原结果如图2所示。由图2可知,在4个尺度下的复原数据与实测数据虽然存在一定的偏差,但是,能够较好地复原出测井曲线的整体趋势。而且,在不同尺度下,复原的效果也存在一定的差异。表3代表A1、A2井在不同尺度下局部近邻井为1时复原数据与实测数据的评价结果,可以看出相关系数均在0.72以上,且A1井比A2井的复原结果要好。因此,在测井曲线复原过程中应充分考虑不同井在多尺度下对复原结果造成的影响。
表 3 A1、A2井多尺度下DEN测井曲线复原定量结果PCC RMSE MAPE(%) MAE A1井:32级 0.7817 0.0449 21.33 3.3376 A1井:64级 0.7702 0.0870 15.16 6.1063 A1井:128级 0.7802 0.1836 26.67 13.4370 A1井:256级 0.7702 0.3840 28.64 28.1911 A2井:32级 0.7592 0.0513 20.65 3.4353 A2井:64级 0.7297 0.1035 23.35 7.0856 A2井:128级 0.7285 0.2119 26.06 14.6945 A2井:256级 0.7258 0.4490 34.12 30.6630 另外,为比较不同近邻井对测井曲线的复原情况,利用LSTM网络将多尺度的复原结果进行融合,得出6组近邻井的复原结果。图3表示6组近邻井复原出A1井缺失曲线DEN的结果,从左至右依次表示局部近邻井为1, 3, 5时和非局部近邻井为1, 3, 5时的DEN复原结果,可以看出利用LSTM网络将多尺度的复原结果进行融合得到的复原结果,要比4个尺度下的复原结果更精确,更贴合真实的测井曲线。6组近邻井对A1井DEN复原定量结果见表4。由表4可以看出经过多尺度信息融合得到的结果与实测数据的相关系数均在0.83以上,且MAPE均下降到3.6%以下。当局部近邻井为5时复原效果最好,相关系数高达0.8475,而且整体上局部近邻井要比非局部近邻井的复原效果好。因此,在测井曲线复原过程中应考虑多尺度信息融合以及局部和非局部近邻井不同数目对复原结果的影响。
表 4 A1井6组近邻点DEN复原定量结果PCC RMSE MAPE(%) MAE 邻1 0.8382 0.0011 3.47 0.0806 邻3 0.8348 0.0011 3.54 0.0819 邻5 0.8475 0.0011 3.45 0.0785 未邻1 0.8282 0.0012 3.59 0.0830 未邻3 0.8385 0.0011 3.51 0.0812 未邻5 0.8400 0.0011 3.46 0.0797 4.2 本文模型与其他模型预测对比
为了进一步分析多尺度灰度关系构建复原测井曲线的效果,将A1, A2井6组近邻井预测结果最好的一组与BP神经网络、随机森林、GBDT、深度森林、LSTM网络预测结果分别绘制如图4所示。从图中可以看出通过本文方法复原的DEN与实测的DEN虽然存在一定的误差,但测井曲线整体趋势对应较好,能够预测出测井曲线的实际变化趋势,尤其是在测井数据没有发生突变的情况下,复原结果更好地对应实际测量值。而且,在A1井1900~2060 m以及A2井1750~2000 m测井数据发生突变的情况下,本文方法预测结果明显优于其他对比方法,更好地预测了这1阶跃变化的趋势。表5代表不同模型复原测井曲线的定量结果,从表5可以分析出本文方法及其对比方法的复原结果与实测数据均有较高的相关性和较小的误差,但本文方法明显优于其他5种方法。其中,A1井缺失的测井曲线DEN复原结果与实测数据相关系数高达0.8475,与对比方法相比,PCC分别提高了8.42%, 3.67%, 2.86%, 1.47%, 3.34%,RMSE分别下降了21.43%, 21.43%, 8.33%, 15.38%, 8.33%,MAPE分别下降了22.47%, 21.23%, 14.81%, 16.88%, 10.85%,MAE分别下降了23.64%, 20.47%, 16.13%, 18.74%, 10.69%。A2井缺失测井曲线DEN预测结果与真实数据相关系数为0.7860,与对比方法相比,PCC分别提高了32.15%, 4.09%, 13.22%, 0.70%, 0.65%,RMSE分别减小了26.67%, 35.29%, 56.00%, 31.25%, 8.33%,MAPE分别减小了32.70%, 40.07%, 64.62%, 38.36%, 9.27%,MAE分别减小了34.49%, 42.53%, 62.25%, 36.52%, 8.78%。
表 5 不同模型复原A1、A2井DEN的定量结果PCC RMSE MAPE(%) MAE A1井 A2井 A1井 A2井 A1井 A2井 A1井 A2井 BP神经网络 0.7817 0.5948 0.0014 0.0015 4.45 4.80 0.1028 0.1157 随机森林 0.8175 0.7551 0.0014 0.0017 4.38 5.39 0.0987 0.1319 GBDT 0.8239 0.6942 0.0012 0.0025 4.05 9.13 0.0936 0.2008 深度森林 0.8352 0.7805 0.0013 0.0016 4.15 5.24 0.0966 0.1194 LSTM网络 0.8201 0.7809 0.0012 0.0012 3.87 3.56 0.0879 0.0831 本文方法 0.8475 0.7860 0.0011 0.0011 3.45 3.23 0.0785 0.0758 除了常见的相关函数及误差函数的评价方式之外,本文还将不同模型复原的结果和实测值分别进行短时傅里叶变换和小波变换,进行进一步分析评价。由于篇幅原因,仅针对A2井部分频谱进行绘制,本文方法复原值与实测值经变换后的频谱如图5所示。从图中可以看出,本文方法复原值经变换后的频谱与实测值的频谱具有相似的特性。不同模型的复原DEN经变换得到的频谱与真实值频谱的定量结果见表6。从表6可以分析出本文方法预测的结果经STFT、WT变换后的频谱与实测值频谱PCC相对更高,MAE相对较小。这些数据表明本文方法相比于对比方法精度更高,稳定性更强。
表 6 不同模型DEN谱分析定量结果STFT WT PCC (A1, A2) MAE (A1, A2) PCC (A1, A2) MAE (A1, A2) BP神经网络 0.9098 0.9034 0.2609 0.2688 0.8649 0.8319 0.0090 0.0095 随机森林 0.9007 0.8778 0.2829 0.3482 0.8073 0.8632 0.0109 0.0102 GBDT 0.8999 0.8639 0.2934 0.3542 0.8306 0.8505 0.0109 0.0106 深度森林 0.9141 0.8421 0.2612 0.4461 0.8114 0.8505 0.0106 0.0124 LSTM网络 0.9218 0.9241 0.2570 0.2592 0.8703 0.8201 0.0099 0.0103 本文方法 0.9193 0.9249 0.2580 0.2382 0.8743 0.8784 0.0093 0.0079 因为BP神经网络、随机森林和GBDT是构建同一深度输入与输出之间的非线性映射关系,来实现缺失测井曲线段的复原,它们未考虑测井数据之间的共生关系以及随深度变化的前后联系。深度森林、LSTM网络虽然能够有效提取在空间上具有长期相关性的测井曲线的模式,并基于这些模式对测井曲线进行预测。但是,它们仅考虑了随着深度变化测井数据间的时序性特征。本文所建立的模型是在基于神经网络测井曲线复原方法的基础上,通过引入多尺度灰度共生关系的测井曲线复原方法,该方法不但能利用测井曲线间的横向表征,还能学习到测井曲线随深度变化的特性,能有效将横纵向语义信息全面利用。因此,利用本文方法进行测井曲线的预测比BP神经网络、随机森林、GBDT、深度森林、LSTM网络具有更高的准确度和稳定性。
5. 结束语
本文介绍了一种基于LSTM多尺度共生关系挖掘的缺失测井曲线复原方法。该方法从测井曲线数据出发利用生成的多尺度灰度共生矩阵提取测井曲线间共生关系,再结合LSTM网络挖掘测井曲线的纵向信息最终复原出目标曲线。该方法避免了经验公式和统计分析预测测井曲线的局限性,有助于提高预测的精确度,更准确地建立地质分布模型。经对比不同模型的预测结果,本文方法经多指标评价结果均优于BP神经网络、随机森林、GBDT、深度森林和LSTM网络方法,可有效提高对缺失测井曲线复原的准确性。
-
表 1 基于LSTM多尺度共生关系挖掘的测井曲线复原算法
输入:训练数据集{\boldsymbol{P} } = \left\{ { { {\boldsymbol{p} }_i} \in {R^{M \times 1} },i = 1,2, \cdots ,N} \right\},目标井
数据集
{\boldsymbol{P} }_r^{ {{\rm{target}}} } = \left\{ { {\boldsymbol{p} }_i^{ {\text{target} } } \in {R^{ {M_t} \times 1} },i = 1,2, \cdots ,N - 1} \right\}输出:复原目标曲线 {\boldsymbol{p}}_N^{{\text{target}}} \in {R^{{M_t} \times 1}} 相关模型训练: (1) 将训练数据集进行多尺度灰度化; (2) 生成灰度共生矩阵集{\bf{GLCM} } = {\left\{ { { {\bf{GLCM} }_i} } \right\}_{i = 1,2, \cdots ,N - 1} }; (3) 训练生成式(5)中的 {\beta _1} 和 {\beta _2} ; (4) 训练多尺度灰度共生关系测井曲线复原LSTM网络; 测试井未知曲线复原: (5) 测试井已知母曲线多尺度灰度化; (6) 令 {g_j} \in [32,64,128,256] 为4个多尺度灰度级,进行多尺度
曲线复原:For j=1:4 (a) 直接共生关系复原目标曲线 {\boldsymbol{p}}_{N,{\text{dir}}}^{{\text{target}}} ; (b) 鲁棒共生关系复原目标曲线 {\boldsymbol{p}}_{N,{\text{rob}}}^{{\text{target}}} : For m=1:Mt ① If m==1,复制步骤(6a)得到目标曲线样本
序号为1的值;② If m==m+1,更新灰度共生矩阵后获取直
接共生关系复原值;③ m=m+1,依次进行迭代; End (c) 利用式(5)完成目标曲线融合:
{\boldsymbol{p}}_{N,{\text{glcm}}}^{{\text{target}}} = {\beta _1}{\boldsymbol{p}}_{N,{\text{dir}}}^{{\text{target}}} + {\beta _2}{\boldsymbol{p}}_{N,{\text{rob}}}^{{\text{target}}}End (7) 得到的多尺度复原结果结合LSTM网络最终复原出目标曲线。 表 2 各个方法超参数设置表
方法 参数设置 BP神经网络 隐藏层为9,学习率为0.01,最大迭代次数为200,训练精度阈值为10–3 随机森林 树的个数为50,最大叶子数为10 GBDT 学习率为0.1,最大深度为3,最小叶子树为1 深度森林 最大层数为20,树的个数为100,最小叶子树为1,每个级联层的森林个数为2 LSTM网络 隐藏层单元个数为100,学习率为0.005,迭代次数为15,梯度下降算法设置为Adam 表 3 A1、A2井多尺度下DEN测井曲线复原定量结果
PCC RMSE MAPE(%) MAE A1井:32级 0.7817 0.0449 21.33 3.3376 A1井:64级 0.7702 0.0870 15.16 6.1063 A1井:128级 0.7802 0.1836 26.67 13.4370 A1井:256级 0.7702 0.3840 28.64 28.1911 A2井:32级 0.7592 0.0513 20.65 3.4353 A2井:64级 0.7297 0.1035 23.35 7.0856 A2井:128级 0.7285 0.2119 26.06 14.6945 A2井:256级 0.7258 0.4490 34.12 30.6630 表 4 A1井6组近邻点DEN复原定量结果
PCC RMSE MAPE(%) MAE 邻1 0.8382 0.0011 3.47 0.0806 邻3 0.8348 0.0011 3.54 0.0819 邻5 0.8475 0.0011 3.45 0.0785 未邻1 0.8282 0.0012 3.59 0.0830 未邻3 0.8385 0.0011 3.51 0.0812 未邻5 0.8400 0.0011 3.46 0.0797 表 5 不同模型复原A1、A2井DEN的定量结果
PCC RMSE MAPE(%) MAE A1井 A2井 A1井 A2井 A1井 A2井 A1井 A2井 BP神经网络 0.7817 0.5948 0.0014 0.0015 4.45 4.80 0.1028 0.1157 随机森林 0.8175 0.7551 0.0014 0.0017 4.38 5.39 0.0987 0.1319 GBDT 0.8239 0.6942 0.0012 0.0025 4.05 9.13 0.0936 0.2008 深度森林 0.8352 0.7805 0.0013 0.0016 4.15 5.24 0.0966 0.1194 LSTM网络 0.8201 0.7809 0.0012 0.0012 3.87 3.56 0.0879 0.0831 本文方法 0.8475 0.7860 0.0011 0.0011 3.45 3.23 0.0785 0.0758 表 6 不同模型DEN谱分析定量结果
STFT WT PCC (A1, A2) MAE (A1, A2) PCC (A1, A2) MAE (A1, A2) BP神经网络 0.9098 0.9034 0.2609 0.2688 0.8649 0.8319 0.0090 0.0095 随机森林 0.9007 0.8778 0.2829 0.3482 0.8073 0.8632 0.0109 0.0102 GBDT 0.8999 0.8639 0.2934 0.3542 0.8306 0.8505 0.0109 0.0106 深度森林 0.9141 0.8421 0.2612 0.4461 0.8114 0.8505 0.0106 0.0124 LSTM网络 0.9218 0.9241 0.2570 0.2592 0.8703 0.8201 0.0099 0.0103 本文方法 0.9193 0.9249 0.2580 0.2382 0.8743 0.8784 0.0093 0.0079 -
[1] 张东晓, 陈云天, 孟晋. 基于循环神经网络的测井曲线生成方法[J]. 石油勘探与开发, 2018, 45(4): 598–607. doi: 10.11698/PED.2018.04.06ZHANG Dongxiao, CHEN Yuntian, and MENG Jin. Synthetic well logs generation via recurrent neural networks[J]. Petroleum Exploration and Development, 2018, 45(4): 598–607. doi: 10.11698/PED.2018.04.06 [2] 王俊瑞, 梁力文, 邓强, 等. 基于多元回归模型重构测井曲线的方法研究及应用[J]. 岩性油气藏, 2016, 28(3): 113–120. doi: 10.3969/j.issn.1673-8926.2016.03.015WANG Junrui, LIANG Liwen, DENG Qiang, et al. Research and application of log reconstruction based on multiple regression model[J]. Lithologic Reservoirs, 2016, 28(3): 113–120. doi: 10.3969/j.issn.1673-8926.2016.03.015 [3] WANG Guochang, CARR T R, JU Yiwen, et al. Identifying organic-rich Marcellus Shale lithofacies by support vector machine classifier in the Appalachian basin[J]. Computers & Geosciences, 2014, 64: 52–60. doi: 10.1016/j.cageo.2013.12.002 [4] SALEHI M M, RAHMATI M, KARIMNEZHAD M, et al. Estimation of the Non records logs from existing logs using artificial neural networks[J]. Egyptian Journal of Petroleum, 2017, 26(4): 957–968. doi: 10.1016/j.ejpe.2016.11.002 [5] ROLON L, MOHAGHEGH S D, AMERI S, et al. Using artificial neural networks to generate synthetic well logs[J]. Journal of Natural Gas Science and Engineering, 2009, 1(4/5): 118–133. doi: 10.1016/j.jngse.2009.08.003 [6] 陈云天. 基于机器学习的测井曲线补全与生成研究[D]. [博士论文], 北京大学, 2020.CHEN Yuntian. Research on well log completion and generation based on machine learning[D]. [Ph. D. dissertation], Peking University, 2020. [7] BAI Jing, DING Bixiu, XIAO Zhu, et al. Hyperspectral image classification based on deep attention graph convolutional network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5504316. doi: 10.1109/TGRS.2021.3066485 [8] ZHANG Yiling, WANG Hao, YANG Yan, et al. Deep matrix factorization with knowledge transfer for lifelong clustering and semi-supervised clustering[J]. Information Sciences, 2021, 570: 795–814. doi: 10.1016/j.ins.2021.04.067 [9] 金广智, 石林锁, 崔智高, 等. 结合GLCM与三阶张量建模的在线目标跟踪[J]. 电子与信息学报, 2016, 38(7): 1609–1615. doi: 10.11999/JEIT151108JIN Guangzhi, SHI Linsuo, CUI Zhigao, et al. Online object tracking based on gray-level co-occurrence matrix and third-order tensor[J]. Journal of Electronics &Information Technology, 2016, 38(7): 1609–1615. doi: 10.11999/JEIT151108 [10] 张斌, 廖仁杰. 基于CNN与LSTM相结合的恶意域名检测模型[J]. 电子与信息学报, 2021, 43(10): 2944–2951. doi: 10.11999/JEIT200679ZHANG Bin and LIAO Renjie. Malicious domain name detection model based on CNN and LSTM[J]. Journal of Electronics &Information Technology, 2021, 43(10): 2944–2951. doi: 10.11999/JEIT200679 [11] ZHANG Jianfeng, ZHU Yan, ZHANG Xiaoping, et al. Developing a long short-term memory (LSTM) based model for predicting water table depth in agricultural areas[J]. Journal of Hydrology, 2018, 561: 918–929. doi: 10.1016/j.jhydrol.2018.04.065 [12] 陈宁, 林霞, 桂卫华, 等. 基于CCHS的浮选泡沫图像纹理特征提取[J]. 中南大学学报:自然科学版, 2013, 44(11): 4506–4512.CHEN Ning, LIN Xia, GUI Weihua, et al. Flotation froth image texture extraction based on CCHS[J]. Journal of Central South University:Science and Technology, 2013, 44(11): 4506–4512. [13] 王俊, 曹俊兴, 刘哲哿, 等. 基于长短期记忆网络的钻前测井曲线预测方法[J]. 成都理工大学学报:自然科学版, 2020, 47(2): 227–236. doi: 10.3969/j.issn.1671-9727.2020.02.11WANG Jun, CAO Junxing, LIU Zhege, et al. Method of well logging prediction prior to well drilling based on long short-term memory recurrent neural network[J]. Journal of Chengdu University of Technology:Science &Technology Edition, 2020, 47(2): 227–236. doi: 10.3969/j.issn.1671-9727.2020.02.11 [14] HAN Jian, LU Chenghui, CAO Zhimin, et al. Integration of deep neural networks and ensemble learning machines for missing well logs estimation[J]. Flow Measurement and Instrumentation, 2020, 73: 101748. doi: 10.1016/j.flowmeasinst.2020.101748 [15] ALAIFARI R and WELLERSHOFF M. Uniqueness of STFT phase retrieval for bandlimited functions[J]. Applied and Computational Harmonic Analysis, 2021, 50: 34–48. doi: 10.1016/j.acha.2020.08.003 [16] JALAYER M, ORSENIGO C, and VERCELLIS C. Fault detection and diagnosis for rotating machinery: A model based on convolutional LSTM, fast Fourier and continuous wavelet transforms[J]. Computers in Industry, 2021, 125: 103378. doi: 10.1016/j.compind.2020.103378 期刊类型引用(3)
1. 裴晨阳,张廷龙,高焕霖,张青峰. 基于空间异质运算的结构信息提取辅助遥感影像分类研究. 西北林学院学报. 2024(03): 171-178 . 百度学术
2. 张亮,党海龙,刘庆海,曾俊,蔺建武,王涛,丁磊. 考虑地质分层约束的长短期记忆循环神经网络测井曲线重构. 科学技术与工程. 2024(19): 8045-8051 . 百度学术
3. 牛聪,王建花,邬蒙蒙,刘俊平,凌云,陶柏丞,张玉华. 基于改进的随机森林算法的井曲线填补研究及应用. 中国海上油气. 2023(06): 43-50 . 百度学术
其他类型引用(0)
-