|
ИСТИНА |
Войти в систему Регистрация |
ИСТИНА ПсковГУ |
||
Одним из эффективных подходов к прогнозированию значений геомагнитного индекса Dst является использование методов машинного обучения (МО) для построения моделей, аппроксимирующих зависимость значения прогнозируемого индекса от входных признаков (ВП) задачи, в качестве которых обычно выступают значение самого прогнозируемого индекса, а также значения модуля и компонент межпланетного магнитного поля и параметров солнечного ветра (скорость, плотность, иногда температура), измеренные на космических аппаратах в точке Лагранжа L1 между Солнцем и Землёй. Для повышения качества прогнозирования на вход моделей, не содержащих обратных связей, обычно подают также предысторию ВП на определённую глубину (от часов до нескольких суток). При этом построение (обучение) и тестирование моделей МО осуществляется на исторических данных. В этой ситуации качество получаемых моделей напрямую зависит от представительности данных, в частности, от их распределения. К сожалению, распределение значений индекса Dst далеко как от равномерного, так и от нормального, причём наиболее интересные с научной и практической точек зрения значения, соответствующие возмущённой магнитосфере, попадают на «хвост» гистограммы распределения и оказываются представлены явно недостаточно. Это приводит к тому, что именно для этих значений большинство моделей МО выдают максимальную погрешность прогноза. Данная работа посвящена проверке гипотезы о том, что выравнивание распределения значений индекса Dst может позволить повысить качество его прогнозирования методами МО. При этом рассматриваются три альтернативных подхода. Два из них связаны с нелинейным преобразованием значений индекса, третий – с генерацией дополнительных примеров, соответствующих областям с низкой представительностью данных. В рамках первого подхода нелинейное преобразование значений индекса Dst (условное логарифмирование) производится по формуле Dst_lg = lg (100-Dst). При этом форма распределения логарифмированного индекса оказывается более близкой к нормальному с максимумом в районе 2 и диапазоном изменения от 1.5 до 2.7. В рамках второго подхода используется метод нормализации гистограммы распределения, основанный на нелинейном преобразовании значений индекса, предусматривающем выравнивание интегрального распределения индекса с интегральным нормальным распределением. Новое распределение оказывается близким к нормальному. Третий подход использует генерацию дополнительных данных с помощью так называемых вариационных автоэнкодеров (ВАЭ) – специальной архитектуры нейронных сетей, переводящей каждый пример данных (точку в пространстве ВП задачи прогнозирования) в так называемое латентное пространство более низкой размерности, с наложением дополнительного требования о нормализации распределения данных в этом латентном пространстве. После построения ВАЭ на тренировочном наборе данных его можно использовать для расширения этого набора путём выборки новых примеров из распределения в латентном пространстве и их перекодирования обратно в пространство ВП. В работе сравниваются результаты прогнозирования индекса Dst с использованием его значений: исходных; преобразованных в рамках первого и второго подходов; а также при расширении обучающей выборки в рамках третьего подхода.