利用机器学习诊断地表臭氧模拟日际变化的偏差

十二月 28, 2022

北京大学物理学院大气与海洋科学系2020级博士研究生叶兴沛,在张霖老师的指导下,利用机器学习诊断并改进了大气化学传输模型GEOS-Chem模拟的地表臭氧偏差。研究发现,模型模拟的2018年暖季地表臭氧相比观测在中国多个地区存在显著的高估,该高估与云和湿度等相关变量高度相关。优化模型中臭氧在湿天气的干沉降参数化以及对云光学厚度的低估,可以有效降低模拟的臭氧偏差,并提高与观测比对的时间相关性。相关成果以“Diagnosing the Model Bias in Simulating Daily Surface Ozone Variability Using a Machine Learning Method: The Effects of Dry Deposition and Cloud Optical Depth ”为题,于2022年11月27日在线发表在杂志《Environmental Science & Technology》上。

地表臭氧作为一种大气污染物,对人体健康和生态环境都有显著的危害。研究者们广泛开发并应用大气化学传输模型(Chemical transport models, CTMs)来探讨区域臭氧空气污染问题并为减排政策的制定提供建议。然而,模型结果与观测臭氧浓度往往存在较大的偏差,降低了相关分析和结论的可信度。CTM的偏差来源复杂且多样,物理化学过程的简化和不完善、输入的排放清单和气象场数据的偏差等均是模拟误差的可能来源。传统的偏差诊断方法往往依赖于模型研发经验和先验假设,需要逐一“试错”。

近年来,机器学习方法在环境领域变得愈发流行,被广泛地运用于对大气污染物浓度的预测中。以数据驱动的机器学习可以高效地学习输入变量和目标变量之间复杂的非线性关系,一些机器学习方法,例如随机森林,还可以给出输入变量对目标变量的相对重要性结果。然而当前机器学习方法尚未与大气模型进行很好的结合。本研究不同于以往对臭氧浓度进行直接预测的研究,而是将CTM臭氧模拟与观测的差作为机器学习的目标变量,将各种可能的CTM偏差来源,例如气象场、排放等变量作为机器学习的输入变量。这种处理的想法在于,如果机器学习能够较好地拟合(预测)CTM臭氧的模拟偏差,那么其给出的输入变量的重要性结果可以对我们改进模型相关变量和参数化方案有一定的指导意义。

1:2018年观测与GEOS-Chem模拟的地表MDA8臭氧浓度。(a)区域平均的臭氧时间序列(黑点为观测,红线为模拟),(b)6-7月平均的臭氧空间分布(圆圈为观测,填色为模拟),(c)区域划分。

本研究聚焦GEOS-Chem CTM在2018年暖季中国的臭氧模拟情况。如图1所示,模型模拟的地表日最大八小时平均(MDA8)臭氧浓度相比地面站点观测存在明显的高估。模型尤其高估了夏季6-7月的MDA8臭氧浓度,相对误差在不同地区(华北、长三角、珠三角、中三角和四川盆地地区)达到2.2%-33.8%。

本研究将GEOS-Chem CTM模拟的MDA8臭氧与观测值的偏差,作为机器学习的目标变量。输入变量则包括时空信息,多种气象变量,人为排放以及原CTM模拟结果等。如图2a所示,随机森林算法可以较好地拟合(预测)CTM的臭氧偏差,表明机器学习算法可以较好地学习到输入变量和目标变量,即CTM臭氧偏差之间的关系。随机森林特征重要性的结果表明(图2b),云、湿度等相关变量是解释CTM模拟臭氧偏差的最主要因子。基于此,研究进一步发现,GEOS-Chem模拟的臭氧的确在湿天/多云天偏差更多,模型高估约40%。而在干燥天/晴天,臭氧模拟较好,平均偏差<5%。

2:(a)GEOS-Chem CTM臭氧模拟偏差与随机森林预测的臭氧模拟偏差散点图,(b)随机森林特征重要性结果。

以机器学习特征重要性结果为出发点,研究进一步考虑了臭氧偏差在湿天和多云天较大的可能原因。调研发现,臭氧干沉降速率在湿植被表皮增加的现象目前尚未在GEOS-Chem的干沉降参数化方案中体现。本研究因此在模型中通过降雨量、相对湿度以及是否产生露水区分了干湿冠层,以更好地考虑臭氧在湿天时的清除过程。改进后的全国平均臭氧干沉降速率从0.29 cm/s提升到0.37 cm/s,MDA8臭氧平均下降2.3 ppbv(图3)。

研究进一步对比了卫星观测与GEOS-Chem中的云光学厚度,发现GEOS-Chem使用的MERRA-2的云光学厚度有显著低估(图4ab)。云的低估导致NO2光解速率过高,从而加速了模型中臭氧的生成。使用卫星约束后的云光学厚度,GEOS-Chem模拟的6-7月全国平均MDA8臭氧进一步下降0.6 ppbv(图4c),且在个别多云天效果更大。同时考虑臭氧干沉降和云光学厚度的低估,可以有效降低GEOS-Chem的臭氧偏差。尤其在湿天和多云天,相对偏差可以下降近50%。此外,模拟与观测的MDA8臭氧时间相关也得到显著提高,相关系数在全国站点平均提高12%,在四川重庆地区站点提高77%。

3(左):(a)2018年6-7月平均GEOS-Chem原始臭氧干沉降速率,(b)改进后的臭氧干沉降速率,(c)改进干沉降前后GEOS-Chem 模拟的MDA8臭氧差。

4(右):(a)MODIS与MERRA-2云光学厚度直方图,(b)2018年6-7月MODIS与MERRA-2云光学厚度比值,(c)改进云光学厚度前后GEOS-Chem 模拟的MDA8臭氧差。

不同于以往单纯利用机器学习构建高时空分辨率大气污染物浓度数据集的研究,本研究的创新点在于利用机器学习特征重要性的功能,诊断基于过程的大气化学传输模型的臭氧模拟结果,并尝试对模型相关参数化方案和变量进行改进。本文的研究方法和思路可以拓展到其他大气模型和不同化学物种,对未来机器学习更广泛的运用和空气质量更准确的预测具有一定的启发意义。我系2020级博士研究生叶兴沛为论文第一作者,2018级博士生王晓琳为第二作者,张霖老师为论文通讯作者。本研究工作得到国家自然科学基金委面上项目的资助。

论文原文链接:https://doi.org/10.1021/acs.est.2c05712