"揭秘Sentinel-2卫星数据在机器学习中的应用:光学覆盖率评估的新技术"
摘要
本文由Cristhian Sanchez等人撰写,探讨了基于Sentinel-2卫星图像的时间序列数据(SITS)中的场景分类层(SCL)在评估区域光学清洁覆盖率中的应用。文章提出了一种新技术,通过SCL数据计算特定区域的空间和时间覆盖率,并评估这些覆盖率对机器学习(ML)模型预测结果的影响。研究结果表明,高覆盖率的区域在ML模型的分类结果中表现更优。此外,该技术已在全球数据集LandCoverNet中得到应用,显示出其在不同大陆上的覆盖率分布差异。
原理
文章提出的技术利用Sentinel-2卫星数据中的场景分类层(SCL)来评估特定区域的光学清洁覆盖率。SCL为每个像素提供了一个估计的场景类别,这些类别包括云、雪、水等。通过定义空间覆盖率(SC)和时间覆盖率(TC),文章计算了每个样本区域在时间序列中的覆盖率百分比。空间覆盖率SC(i)是基于特定标签集K在时间序列中的平均像素百分比,而时间覆盖率TC(i)则是基于SC(i)在时间序列中的平均值。通过设定阈值,技术进一步将覆盖率评估为“高”或“低”。
流程
文章的工作流程包括以下步骤:
- 从Sentinel-2数据中提取SCL信息。
 - 对每个样本区域,计算其在时间序列中的空间和时间覆盖率。
 - 根据设定的阈值,评估每个区域的覆盖率等级(高/低)。
 - 在AI4EO Enhanced Agriculture数据集和LandCoverNet全球数据集中应用该技术,评估覆盖率与ML模型预测性能的关系。 例如,在AI4EO Enhanced Agriculture数据集中,文章使用了两种过滤器(L-all-but-cloud和L-veg-non-veg)来计算覆盖率,并展示了覆盖率与随机森林(RF)模型分类结果的关联。
 
应用
该技术不仅适用于农业领域的ML模型训练,还可广泛应用于环境监测、灾害评估等多个领域。通过提供区域光学清洁覆盖率的快速评估,该技术有助于提高卫星图像数据的质量控制,进而提升基于这些数据的ML模型的预测准确性。
