郭衍昊 窦杰 向子林 马豪 董傲男 罗万祺

郭衍昊, 窦杰, 向子林, 马豪, 董傲男, 罗万祺. 基于优化负样本采样策略的梯度提升决策树与随机森林的汶川同震滑坡易发性评价[J]. 地质科技通报, 2024, 43(3): 251-265. doi: 10.19509/j.cnki.dzkq.tb20230037
GUO Yanhao, DOU Jie, XIANG Zilin, MA Hao, DONG Aonan, LUO Wanqi. Susceptibility evaluation of Wenchuan coseismic landslides by gradient boosting decision tree and random forest based on optimal negative sample sampling strategies[J]. Bulletin of Geological Science and Technology, 2024, 43(3): 251-265. doi: 10.19509/j.cnki.dzkq.tb20230037
doi: 10.19509/j.cnki.dzkq.tb20230037

国家自然科学基金重大项目课题 42090054

湖北省创新群体项目 2022CFA002


    郭衍昊, E-mail: 605431412@cug.edu.cn


    窦杰, E-mail: doujie@cug.edu.cn

  • 中图分类号: P642.22

Susceptibility evaluation of Wenchuan coseismic landslides by gradient boosting decision tree and random forest based on optimal negative sample sampling strategies

More Information
  • 摘要:

    强震诱发的滑坡具有数量多、分布广、规模大等特点, 严重威胁人民生命财产安全。滑坡易发性评价能够快速预测灾害空间分布, 对于减轻震后灾害的危险性具有重要意义。在同震滑坡易发性评价研究中, 如何选取滑坡负样本并通过耦合机器学习模型提高评价精度的对比研究仍需进一步研究。以山区汶川地震诱发的滑坡为研究区, 首先选取地形地貌、地质环境、地震参数等10个滑坡评价因子, 分析滑坡空间分布规律; 其次因子共线性分析检验数据冗余, 接下来采用频率比法(FR)选取极低、低易发区滑坡负样本点的采样策略; 最后采用基于决策树演化改进的梯度提升决策树(GBDT)、随机森林(RF)和耦合模型(FR-GBD与FR-RF), 开展了基于机器学习的同震滑坡易发性区划并进行精度评价。研究结果表明: ①滑坡空间分布受到多层级因子控制; ②模型预测精度为: FR-RF(AUC=0.943) >FR-GBDT(AUC=0.926)>RF(AUC=0.901)>GBDT(AUC=0.856);③在低易发区选择滑坡负样本可以明显提高易发性精度。研究成果可为滑坡易发性中负样本的选择和评价模型构建提供参考同时也为震后滑坡的防灾减灾提供理论支持。


  • 图 1  研究区概况及滑坡分布(图b、c为局部放大图)

    Figure 1.  General situation of the study area and spatial distribution of landslids

    图 2  滑坡致灾评价分级图


    Figure 2.  Classification of landslide evaluation factors

    图 3  技术路线

    Figure 3.  Technological flow chart

    图 4  基于决策树的机器学习模型

    Figure 4.  Machine learning models based on decision tree

    图 5  汶川地震滑坡发生频率与评价因子的相关性

    Figure 5.  Correlation between Wenchuan earthquake-induced landslide frequency and evaluation factors

    图 6  频率比模型易发性

    Figure 6.  Landslide susceptibility map of frequency ratio model

    图 7  优化机器学习模型易发性图

    Figure 7.  Landslide susceptibility map of optimized machine learning models

    图 8  机器学习模型易发性分级

    Figure 8.  Classification of landslide susceptibility for machine learning models

    图 9  ROC曲线和AUC

    Figure 9.  Receiver operating characteristic curves and area under curve values

    图 10  基于最优模型的评价指标特征重要性

    Figure 10.  Feature importance of evaluation indicators based on optimal model

    表  1  评价因子数据来源

    Table  1.   Evaluation factors data source

    因子类别 数据来源 分辨率
    高程(DEM) https://search.asf.alaska.edu 30 m
    曲率 DEM
    坡向 DEM
    坡度 DEM
    距水系距离 DEM
    地层岩性 地质图 1∶200 000
    距道路距离 91卫图-全国矢量路网
    PGA https://www.usgs.gov/programs/earthquake-hazards
    表  2  研究区滑坡地质灾害评价因子指标分级

    Table  2.   Index classification of evaluation factors of landslides in study area

    评价因子 指标分级 类别面积/km2 滑坡面积/km2 频率比
    高程/km [0, 1.0) 49.768 2 2.398 5 0.352 2
    [1.0, 1.5) 178.037 1 34.538 4 1.417 5
    [1.5, 2.0) 213.471 0 44.883 9 1.536 4
    [2.0, 2.5) 238.621 5 35.127 9 1.075 7
    [2.5, 3.0) 191.203 2 16.661 7 0.636 7
    [3.0, 3.5] 107.064 9 4.770 0 0.325 5
    >3.5 37.253 7 0.584 1 0.114 6
    坡度/(°) [0, 10) 49.443 3 3.577 5 0.528 7
    [10, 20) 121.149 9 9.950 4 0.600 1
    [20, 30) 248.157 0 23.891 4 0.703 5
    [30, 40) 353.141 1 45.912 6 0.950 0
    [40, 50] 227.951 1 41.776 2 1.339 1
    >50 64.165 5 16.715 7 1.903 6
    坡向 平地 0.025 2 0.000 0 0.000 0
    107.894 7 12.094 2 0.819 1
    东北 112.387 5 13.443 3 0.874 0
    135.488 7 18.674 1 1.007 1
    东南 158.031 9 25.788 6 1.192 4
    124.151 4 22.896 0 1.347 6
    西南 113.337 9 18.488 7 1.192 0
    西 126.403 2 14.545 8 0.840 9
    西北 137.699 1 13.180 5 0.699 4
    曲率 [0, 0.48) 186.871 5 22.210 2 0.868 5
    [0.48, 1.24) 492.058 8 62.758 8 0.932 0
    [1.24, 2.23) 311.374 8 45.416 7 1.065 8
    [2.23, 3.57) 81.992 7 15.079 5 1.343 9
    [3.57, 8.75] 14.014 8 3.131 1 1.632 5
    地层岩性 千枚岩 112.330 8 27.315 9 1.776 9
    变质碳酸盐岩 35.205 3 3.835 8 0.796 1
    含砾细砂岩 1.596 6 0.000 0 0.000 0
    斜长角闪岩 211.251 6 45.921 6 1.588 4
    早元古代火成岩 7.509 6 1.903 5 1.852 2
    泥沙质岩 1.701 0 0.000 0 0.000 0
    火山岩 114.417 9 3.163 5 0.202 0
    灰岩 31.532 4 4.103 1 0.950 8
    砂质黏土 2.323 8 0.000 0 0.000 0
    砾岩 4.502 7 0.000 0 0.000 0
    碳酸盐岩 1.798 2 0.000 0 0.000 0
    花岗岩 391.212 9 43.580 7 0.814 0
    辉长岩 10.849 5 4.170 6 2.808 9
    酸性凝灰岩 19.157 4 2.597 4 0.990 7
    长石砂岩 103.202 1 2.618 1 0.185 4
    距断层距离/km [0, 4) 300.789 0 72.466 2 1.760 4
    [4, 8) 137.484 9 19.540 8 1.038 6
    [8, 12) 95.306 4 6.501 6 0.498 5
    [12, 17) 93.276 9 6.497 1 0.509 0
    [17, 22] 92.567 7 6.011 1 0.474 5
    >22 129.155 4 4.027 5 0.227 9
    距水系距离/km [0, 2) 258.900 3 49.788 9 1.405 2
    [2, 4) 235.117 8 37.761 3 1.173 6
    [4, 6) 174.542 4 21.051 9 0.881 3
    [6, 8) 105.759 0 5.688 0 0.393 0
    [8, 10] 57.138 3 0.754 2 0.096 4
    >10 47.133 9 0.000 0 0.000 0
    距道路距离/km [0, 1) 187.023 6 28.274 4 1.104 7
    [1, 2) 160.769 7 24.274 8 1.103 3
    [2, 4) 243.599 4 34.794 9 1.043 7
    [4, 6) 151.361 1 20.677 5 0.998 2
    [6, 8) 76.136 4 6.399 0 0.614 1
    [8, 10] 27.782 1 0.623 7 0.164 0
    >10 1.908 0 0.000 0 0.000 0
    地面峰值速度PGV/(cm·s-1) [0, 20) 87.277 5 2.106 0 0.176 3
    [20, 26) 67.586 4 3.358 8 0.363 1
    [26, 32) 151.925 4 2.471 4 0.118 9
    [32, 38) 239.892 3 21.619 8 0.658 5
    [38, 44] 313.504 2 57.429 9 1.338 6
    >44 228.259 8 37.093 5 1.187 4
    地面峰值加速度PGA/g [0, 0.46) 87.277 5 5.594 4 0.468 4
    [0.46, 0.56) 67.586 4 21.789 9 2.355 8
    [0.56, 0.66) 151.925 4 47.278 8 2.273 9
    [0.66, 0.74) 239.892 3 29.977 2 0.913 1
    [0.74, 0.84] 313.504 2 16.940 7 0.394 8
    >0.84 228.259 8 2.498 4 0.080 0
    表  3  汶川地震滑坡评价因子间方差膨胀因子及容差

    Table  3.   Variance inflation factors and tolerances among evaluation factors of Wenchuan earthquake-induced landslide

    评价因子 共线性统计量
    容差(TOL) 方差膨胀因子(VIF)
    高程 0.351 2.845
    坡度 0.966 1.035
    坡向 0.988 1.012
    曲率 0.991 1.009
    地层岩性 0.902 1.109
    距断层距离 0.348 2.872
    距水系距离 0.477 2.095
    距道路距离 0.301 3.320
    PGV 0.202 4.945
    PGA 0.160 6.239
    表  4  评价模型参数

    Table  4.   Parameters setting of evaluation models

    模型类别 参数设置
    决策树数目 分类最少样本数 分支最少样本数 最大深度 学习率 分类标准
    FR-GBDT 131 96 31 7 0.2 /
    FR-RF 248 2 1 18 / Gini
    GBDT 131 96 31 7 0.2 /
    RF 248 2 1 18 / Gini
    表  5  机器学习模型的易发性评价等级的统计结果

    Table  5.   Statistical results of susceptibility rating for machine learning models

    模型 易发性等级 发生滑坡栅格数 分级栅格数 占总滑坡比例/% 占总栅格比例/% 滑坡比率
    GBDT 极低 7 329 473 643 5.733 5 50.234 3 0.114 1
    14 842 120 674 11.611 0 12.798 6 0.907 2
    26 398 116 494 20.651 3 12.355 3 1.671 5
    37 528 118 579 29.358 4 12.576 4 2.334 4
    极高 41 730 113 477 32.645 7 12.035 3 2.712 5
    RF 极低 2 701 392 808 2.113 0 41.661 0 0.050 7
    10 782 137 679 8.434 8 14.602 2 0.577 6
    25 973 137 478 20.318 9 14.580 8 1.393 5
    40 295 137 484 31.523 1 14.581 5 2.161 9
    极高 48 076 137 418 37.610 2 14.574 5 2.580 6
    FR-GBDT 极低 6 419 507 743 5.021 6 53.851 0 0.093 3
    11 281 97 685 8.825 2 10.360 4 0.851 8
    15 522 77 212 12.143 0 8.189 1 1.482 8
    24 940 90 245 19.510 7 9.571 3 2.038 5
    极高 69 665 169 982 54.499 4 18.028 2 3.023 0
    FR-RF 极低 134 433 468 0.104 8 45.973 4 0.002 3
    4 494 128 788 3.515 7 13.659 2 0.257 4
    19 605 125 002 15.337 1 13.257 6 1.156 9
    36 206 117 068 28.324 2 12.416 2 2.281 2
    极高 67 388 138 541 52.718 1 14.693 6 3.587 8
    表  6  机器学习模型评价指标

    Table  6.   Evaluation indicators of machine learning models

    模型类别 评价指标
    训练时间/min 预测准确度/% 受试者曲线下面积(AUC)
    RF 81 82.43 0.901
    GBDT 281 77.90 0.856
    FR-RF 71 85.82 0.943
    FR-GBDT 287 83.66 0.926
  • 加载中
图(10) / 表(6)
  • 文章访问数:  459
  • PDF下载量:  54
  • 被引次数: 0
  • 收稿日期:  2023-01-28
  • 录用日期:  2023-05-04
  • 修回日期:  2023-04-29


