|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
За последние десятилетия в гидрометеорологической практике интенсивно внедряются методы машинного обучения, которые могут эффективно использоваться вместе с традиционными методами статистического анализа и численных методов прогноза погоды и изменений климата [7-18]. Необходимо отметить, что применение методов машинного обучения обусловлено также постоянно увеличивающимся объемом баз данных гидрометеорологических наблюдений станционных сетей, реанализов, а также дистанционных измерений. Несмотря на большое количество опубликованных работ и многолетний опыт использования методов машинного обучения в гидрометеорологической практике, не существует строго определенных моделей искусственного интеллекта для прогноза погоды. Цель работы – произвести сравнительный анализ методов машинного обучения для прогноза суточного хода температуры и изучить его пространственно-временною специфику на примере степной зоны Северной Евразии. В работе были использованы архивные данные суточного хода приземной температуры воздуха (Climatic Research Unit–CRU), находящиеся в свободном доступе (https://archive.ceda.ac.uk), за период с 1960 по 2023 гг. На аналогичном временном интервале был произведен корреляционный анализ данных архива CRU с фактическими данными наблюдательной сети Росгидромет (http://meteo.ru/). Для суточного, декадного и месячного прогноза были использованы методы k-ближайших соседей (k-nearest neighbors) и случайного леса (random forests), подробное описание которых изложено в работах. Установлено, что суточный ход температуры воздуха по сезонам в отдельные десятилетия отличается, наблюдается тенденция к небольшому снижению в летние месяцы и увеличению в зимние, что приводит к уменьшению амплитуды сезонных колебаний в последние два десятилетия по сравнению с предыдущими годами. Прогноз методом случайного леса по сравнению с методом k-ближайших соседей более адекватные результаты. При этом, анализ гистограмм ошибок показал, что распределение ошибок в обоих методах центрировано и близкую к нормальному (распределение Гаусса), что является хорошим признаком качества моделей. В целом, обе модели показывают сопоставимую производительность, но random forests, как правило, имеет более высокие метрики R² (коэффициент детерминации), RMSE (среднеквадратическая ошибка) и MAE (средняя абсолютная ошибка), что делает его предпочтительной моделью для данной выборки данных.