简介:“可解释机器学习”是时下研究城市热环境的热门方法,本文以三篇论文为例,看懂其“结果”部分的框架、制图与写作技巧。
每篇论文按同一套路拆解:
题目:Quantifying the cooling effects of multi-scale urban blue-green spaces on surrounding local climate zones in hot and humid climatic areas(量化多尺度城市蓝绿空间对炎热潮湿气候区周围 LCZ 的冷却效应)
原文可见论文分享 | SCS |量化多尺度城市蓝绿空间对炎热潮湿气候区周围局部气候区的冷却效应
用 随机森林回归(RFR) 预测 UBGS 的冷却效应指标(CI/CD/CG),再用 SHAP 做可解释性分析,最后用 NSGA-II 做多目标协同优化,给出 UBGS 的“最优参数组合”。
图怎么画:多张专题图:广州 1294 个 UBGS 的形态指标与生态参数空间分布。
文字怎么写(模板):(首先一句话解释整体的空间格局“北绿南蓝”)如上图所示,广州呈现出“北绿南蓝”的空间格局。(然后分区域介绍其特征变量的特征值范围,并解释差距的原因。)在北部山区,大型以绿色为主的UBGs较为常见。它们的平均NDVI(0.6∼0.8)、FVC(0.6∼0.8)和ET(0.8∼1.2)均高,同时低HR(0.1∼0.2)。这些保存良好的植被资源通过蒸散有效地降低了环境温度。相反,高度城市化的中心地区植被指标显著较低......
图怎么画:CI/CD/CG 在不同 LCZ 类型下的 半小提琴图(或箱线 + 密度)。
文字怎么写(模板):(分三段文字,分别介绍CI\CD\CG三个目标变量的分布特征。以CI为例,首先分析,CI的分布特征的主要影响参数是什么。)CI的分布特征主要受三维形态参数决定,SVF和AR占主导地位。(然后挑选两个重要类型分析,结合其LCZ类型的自身特点介绍分析其峰值、影响因素等)尽管LCZ 9由低层建筑组成,但其较高的SVF导致遮阳效率不足,较低的AR阻碍了气流汇聚。结合高密度不透水表面和植被覆盖率低,这些因素导致高热容量和集中热排放,将CI峰值抑制在约2°C左右。 相比之下,LCZ 5采用适中的SVF......
这一段通常由两类图组成:特征重要性图 + 解释图。该论文还增加了模型性能对比图。

(1)模型性能对比图对比纯 RF、优化 RF、BKA 优化 RF 的 MAE(或 R²、RMSE)。写法模板:“与基线模型相比,优化策略显著降低误差/提升拟合,说明……具有更强的预测能力。”
(2)SHAP 解释图
写法模板:(首先交代只展示前五个参数)上图展示了冷却指标前五个参数的SHAP分析,并将其与城市气候的物理机制联系起来。(依然是按照CI\CD\CG三个目标变量来分别分析)对于CI,(以CI为例,分析某某某是其主要的正向因素,原因是什么;某某某是其主要负向因素,原因是什么)WAR和ET是主要的正向驱动因素(SHAP值分别为0.20∼0.35和0.15∼0.30)。它们的促进效应源于水体的高比热容和植被蒸腾作用,这些热能有效将太阳辐射转化为潜热。相反,HR通过改变表面反照率和增加感热通量表现出负相关(-0.10至-0.20)。
图怎么画:以数轴的形式绘制出每个关键变量的阈值区间、中位数、最优值;并给出“最佳样本”的输入组合与综合得分。
分析模板:
(一句话介绍图形)如图显示了UBGS特征参数的阈值区间、中位数和最优值。(分析不同特征参数的中位数、阈值区间的特点)GAR保持较高的中位数(0.81),强调绿色覆盖的降温作用,而适度的FVC最佳区间(0.30)有效增强了降温效果。较低的HR中位数(0.10)证实了减少铺装路面的必要性,较高的PA中位数(331.88)表明复杂形状促进热交换……
(介绍最佳样本的配置信息以及综合得分,分析最佳配置的优点)
此外,综合百分位评分确定了一个最佳样本,有效平衡置信区间(7.76°C)、CD值(298.59米)和CG(0.064°C/m)。该配置获得了最高的综合得分(0.66)……该配置体现了通过多尺度UBGS-LCZ优化框架实现的多维参数协同优化。该框架的优势在于能够将LCZ的城市形态特征与UBGS的生态和形态特征整合,从而实现对冷却效应的跨尺度分析......
题目:Analyzing the impact of urban morphology on urban land surface temperature from the perspective of spatial configuration and explainable machine learning: A case study of seven cities(空间配置 + 可解释机器学习视角下的城市形态影响:7 城市案例)
原文可见论文分享 | SCS| 从空间配置和可解释机器学习的角度分析城市形态对城市地表温度的影响:七个城市的案例研究
先用 多元线性回归(MLR) 做“可解释的基线”,再用 RF / XGBoost / LightGBM 建模非线性关系,并用 SHAP 解释贡献与阈值;同时引入 空间分层交叉验证(SSCV) 检验泛化能力。
常见写法组合:


(1)相对重要性(Feature importance)按城市分面(北京/杭州/南京…) + 汇总图(7 城统一)。
写作模板:(首先交代重要性排名的作用:比较不同因素的重要性)为了比较不同模型中影响因素的重要性,我们提取了从每个模型训练结果中得出的特征重要性排名(如图所示)。值得注意的是,尽管这三个模型基于不同的算法,但它们揭示了一组高度一致的关键影响因素。(分析不同因素的重要程度)在所有机器学习模型中,MMD——一种空间配置指标——始终位列最重要特征之一,表明街道网络深度对地表温度有稳定且显著的影响。同样,蓝绿空间指标如TCR和DIST在所有模型中也表现出高度重要性。反映城市发展强度的指标,包括POP、NTL和BD,也多次出现在排名前列的因素中。相比之下,NDVI和MDUL等指标的重要性相对较低……
(2)边际效应(SHAP 依赖图)按城市分类 + 汇总图。该文绘制了若干关键影响因素的SHAP依赖散点图。散点图相比于PDP曲线图更容易看清样本分布
写作模板:
(文章分析部分从“空间配置指标效应、树冠覆盖的边际效应、距离水域的阈值效应、社会经济和建成环境强度因子的非线性影响”几个方面入手,分别介绍了其对LST影响在不同城市间的差异,及其原因。)对于MMD等空间配置指标,SHAP分析显示它们对LST的影响在不同城市间存在差异。当MMD值较高(表示网络深度更大且连接性较弱)时,一些城市显示正的SHAP值(变暖效应),而另一些则显示负值(降温效应)。这表明空间配置对热环境的影响取决于每个城市的空间结构和规模……
(介绍指标的阈值情况,先写在低水平/高水平时,XX增加,可带来显著的降温效益。然而,一旦XX超过某个阈值,冷却效益开始减弱并趋于平坦)树冠覆盖的边际效应:TCR与LST之间的关系显然是非线性的。SHAP图显示,在低TCR水平(表明城市绿化不足)时,即使TCR有小幅增加,LST也显著降低——SHAP值为负,且其绝对值随TCR增加,表明树木增加带来显著的降温效益。然而,一旦TCR超过某个阈值,冷却效益开始减弱并趋于平坦。各城市的门槛略有差异:北京约为14%,南京约20%,上海约12%,郑州约11%,综合样本约为15%。超过此点,额外的绿化仅带来LST(绝对SHAP值不再显著增加)的进一步降低。这一发现与植被蒸散冷却机制相符,表明冷却效应会超过一定覆盖水平。
❝用“重要性 → 方向 → 非线性阈值”三步,把机器学习解释写成一套连贯故事线。
题目:Driving factors of summer diurnal land surface temperature in built-up blocks and planning support tool: A case from four Bohai Rim cities(渤海四城街区尺度:昼夜 LST 驱动因素与规划支持工具)
原文可见论文分享 | SCS | 夏季昼夜地表温度的驱动因素及规划支持工具:以渤海边缘四个城市为例
用 XGBoost 在多个候选模型中获得最优预测;用 SHAP 分析重要性、边际效应与交互;再将 XGBoost 与自适应 NSGA-III 结合,开发面向规划的多目标优化工具(同时优化 LSTDay、LSTNight 与 DTA)。
图怎么画:绘制昼夜地表温度的空间模式
模板:(首先举例分析整体的白天和夜间的平均LST的差异,分析时间上带来的差异)城市街区间的平均LST存在显著的时空差异。与白天数值相比,夜间LST表现出更低的标准差(SD),表明白天空间异质性较大。天津号展示了最高的LSTdaySD(标准差=3.82),而秦皇岛则在夜间SD达到峰值(标准差=2.44)。(其次,从空间角度分析,建筑区、郊区、城市核心区分别有啥特点)从空间角度看,建成区持续显示较高的LST,高密度城市核心保持热量持续到夜间。日落后高温区略有扩大,显示出沿海聚集趋势。DTA的空间分布与LSTday极为相似,显示出明显的“核心-外围”梯度,城市核心区块(建筑密度>0.1)的DTA明显高于周边地区。例如,天津核心区的平均DTA约为20°C,而郊区为17.8°C。
在本篇论文的“结果”部分中,均只客观分析了现象,并未解释原因(原因解释放在了“讨论”小节)
(1)特征贡献和Summary图小节标题:建筑环境指标对LST的贡献

写作模板:
(首先分析关键指标的贡献指数,以及其排序)在白天(如图)中,三维城市形态、土地覆盖、社会人口活动和地形因素的总贡献指数分别为0.388、0.416、0.366和0.152。其中,NDVI对白天LST的影响最为显著,而POI密度对夜间LST的影响最为显著……
(分析其关键指标是正效应还是负效应)地表温度的影响并非均匀分布。例如,NDVI在大多数样本中主要显示负的SHAP值(冷却效应),但少数样本显示为正值。NDVI和AR对DTA的主要影响为负面,而NDBI和POP则呈相反趋势……
(2)非线性关系(依赖图/回归曲线)
小节标题:城市形态因素与LST之间的非线性关系
绘图细节:正影响的点是红色,负效应的点是蓝色,视觉上更容易区分正负影响。

分组展示:形态因素与白天LST和夜间LST的非线性关系写作模板:
(首先分析整体趋势,有些参数遵循对数或指数或倒U形关系)在特定阈值内,BD与白天LST呈显著正相关。这些关系通常遵循对数或指数形式,参数值越大,SHAP值越高。相反,SVF与白天LST呈负相关。AH与白天LST呈倒U形关系。(举例说明不同参数的阈值效应)多个参数表现出阈值效应。AH在10-40米范围内有积极效应,而极端值(<10米或>40米)则放大负面影响(例如,在天津,AH最严重的不良影响出现在接近0米和300米的距离)……
(3)交互分析(Interaction)交互热图 + 关键变量交互值解释。
写作模板:
(一两句话解释交互分析的作用)为了考虑其他因素对单个参数的潜在调制,应用了SHAP相互作用分析来量化特征相互依赖关系如何影响LST预测。利用特征交互图揭示基于四个城市标准化数据的变量间潜在关系。
(分析某某与某某间是有强相互作用)对于白天LST,BD和FAR展示了与AR的强烈相互作用。同样,SVF、NDBI、AH、URL、POI、POP和DFC与NDVI表现出显著相互作用……(分析某两类参数间强相互作用,说明了什么)对于DTA,关键城市形态参数(包括NDBI–NDVI、AR–BD、AR–FAR)之间存在强烈相互作用,表明温度振幅由水平和垂直城市结构特征共同调控。
如果你的研究也用到了 RF/XGBoost/LightGBM + SHAP(甚至加优化),结果部分可以按这条主线写: