2. Постановка задачи
3.
Методика исследования
4.
Исходная информация
5.
Анализ данных
6.
Результаты и выводы
2. Постановка задачи
Условия
задачи
продиктованы действующим регламентом работы Новосибирского ЦМС, который
предусматривает прогноз повышенныхуровнейзагрязнения атмосферы(выше ПДК) любого из контролируемых компонентов на одном или более
постах наблюдений. Известно, что концентрация атмосферных
примесей
зависит от условий погоды. Самым наглядным примером служат зимние
морозные туманы при мощных инверсиях и штиле. Однако, детальные связи
концентраций примесей различной природы с погодой не столь очевидны,
поскольку, во-первых, условия погоды сами по себе не генерируют примеси
, а только способствуют или препятствуют их рассеянию, во-вторых,
пространственные масштабы загрязнений мегаполиса и синоптических
процессов отличаются на 1-2 порядка.
Таким
образом,
задача прогноза уровней занрязнения
должна сводиться к анализу и прогнозу сложного комплексного показателя,
который заведомо не определяется полностью условиями погоды и их
динамикой, а прогноз более, чем на сутки, еще и ограничивается
пространственно-временным разрешением гидродинамических сеток продукции
доступных оперативных вычислительных схем. В частности, нет возможности
напрямую использовать характеристики термодинамической устойчивости
отвечающего за рассеяние примесей нижнего слоя атмосферы.
3. Методика исследования
Исходя из
постановки
задачи методика должна предусматривать разделение, по-возможности,
факторов метеорологических и всех прочих, не являющихся объектом
исследования. Априорные сценарии
формирования уровней загрязнения могут
включать следующие варианты:
-
источники(выбросы): точечные/площадные,
разовые/серийные/постоянные;
- рассеяние:
окисление/вымывание/оседание/подъем/перенос.
Очевидно, относительно адекватную
статистическую модель можно построить
лишь для множества мелких и постоянных источников примесей, например,
автотранспорта, а нерегулярные залповые выбросы будут вносить шум и
препятствовать статистическому обучению. Собственно, классические
условия для применимости обычных статистических
методов(стационарность, эргодичность, непрерывность) заведомо не
выполняются, что и будет подтверждено ниже. Поэтому первым этапом
методики будет
разведочный анализ данных, включающий графическое представление
многомерных временных рядов для предварительной оценки стационарности,
эргодичности, непрерывности и полноты данных и численные оценки
условных вероятностных оценок из теории дисперсионной идентификации
[Дисперсионная идентификация/Под ред. Н.С.Райбмана.- М.:
Наука,1981-336с.]
Основой рассматриваемых условных статистических оценок служит
разложение
дисперсии:
(3.1)
DY = DM(Y|x) + MD(Y|x),
где: DM(Y|x) - доля
дисперсии Y за счет влияния X,
MD(Y|x) -
неопределеная(остаточная) дисперсия Y,
D(Y|x) = M[Y - M(Y|x)]^2 -
дисперсия условного среднего(мат. ожидания).
А безразмерной величиной связи будет:
(3.2)
DM(Y|X)/DY -
дисперсионное(корреляционное) отношение, мера(нелинейной) связи.
Приведенные выражения будем
использовать для оценки
нестационарности
многолетних рядов концентраций примесей, сезонности и
эргодичности(различия по территории, постам наблюдений).
Учитывая
априорные
соображения по поводу
неметеорологических факторов, участвующих в формировании уровней
концентрации примесей, не будем, по-возможности, пропускать на обучение
точечные данные превышений уровней ПДК. Условие подтверждения
превышения еще хотя бы на одном посту должно ослабить влияние точечных
выбросов, и уменьшить статистический шум. Кроме того, дополнительно для
испытаний будут построены решающие правила для распознавания
термодинамической (не)устойчивости, где в качестве предиктантов
рассчитаны параметры пограничного слоя по данным радиозондов с особыми
точками за 5 лет. В списке параметров - толщина и мощность слоя
инверсии, градиенты и число Ri в нижнем 500-метровом слое.
Следующая
методическая часть работы предполагает
построение подходящей статистической модели для прогноза
(не)благоприятных условий погоды и связанных с ними случаев превышения
пороговых значений концентрации примесей. Это задача дискриминации или
распознавания образов. Учитывая многомерность данных как предиктора,
так и предиктанта, будем использовать вариант алгоритма построения
логического дерева решений[ссылка на оригинал] с уточненным критерием
разделения ветвей[ссылка Здерева,Токарев]. Предикторами будут
прогностические значения параметров выходной продукции мировых центров
обработки данных и их физически обоснованные комбинации. Статистическое
обучение с нулевой заблаговременностью.
Технология
прогноза предусматривает разработку ПО выборки в
автоматическом режиме данных ГРИБ, расчет прогноза и выдачу результата
в канал связи для доставки пользователям.
4. Исходная информация
Исходной
информацией для анализа и построения
статистических моделей прогноза послужили архивные данные
наблюдений
ЦМС Новосибирск за 2005-2008гг и синхронные данные ГРИБ.
Данные
мониторинга среды:
- 10 постов наблюдений:
- ПНЗ №1 - ул. Советская,30 (Центральный,
Железнодорожный
районы)
- ПНЗ №18 - пр. Дзержинского,79 (Дзержинский район)
- ПНЗ №19 - Восточный поселок, 11 (Ленинский район)
- ПНЗ №21 - ул. Ельцовская, 5 (Заельцовский район)
- ПНЗ №24 - ул. Объединения, 27 (Калининский район)
- ПНЗ №25 - ул. Горбаня, 12 (Кировский район)
- ПНЗ №26 - ул. Линейная, 33 (Заельцовский район)
- ПНЗ №47 - ул. Софийская, 2а (Советский район)
- ПНЗ №49 - ул. Академика Лаврентьева, 17 (Советский район)
- ПНЗ №54 - ул. Первомайская , 190 (Первомайский район)
- 11 контролируемых примесей:
ПДК
- Пыль
0,5
- Двуокись
серы
0,50
- Окись
углерода
5
- Двуокись
азота
0,2
- Окись
азота
0,4
- Сероводород
0,008
- Фенол
0,010
- Сажа
0,15
- Фтористый водород 0,020
- Аммиак
0,20
- Формальдегид
0,035
Предикторы сеток ГРИБ(градиенты,
лапласианы):
- H500 гпдкм
- P0 гПа
- r(%)
- lapH500 гпдкм/1000км
- gradH500 гпдкм/1000км
- H500(t)-H500(t-24) гпдкм
- lapP0 гПа/1000км
- gradP0 гПа/1000км
- P0(t)-P0(t-24) гПа
- lapT850 град/1000км
- gradT850 град/1000км
- T850(t)-T850(t-24) град
- Tz-T850 град
- VV
Предиктанты по радиозондам:
- dHinv - толщина(м) слоя
инверсии
- dTinv - мощность(град)
слоя
инверсии
- dTinv/dz - средний градиент(град/м) слоя инверсии
- RiHinv - число Ri в слое
инверсии
- dT500/dz - средний градиент(град/м) в
500-метровом
слое
- Ri500m - число Ri) в 500-метровом
слое
Ri =
(g/Tсред)*(dT/dZ+gamma_a)/(dU/dZ)^2 =~ (g/Tсред)*(dT/dZ)/(dU/dZ)^2
d - заменить на частную
производную(дельта малая)
5. Анализ данных
Данные
наблюдений ЦМС имеют особенности, осложняющие применение классического
статистического анализа. Многомерная по своей сути матрица
наблюдений (годы,дни,сроки,посты,примеси)
очень неоднородна. Все временные ряды прерываются
в
выходные дни, а список примесей по постам колеблется от 1 до 11 компонентов.
Имеются
и нерегулярные пропуски.
Графическое представление данных
позволяет в первом приближении оценить возможности
статистического
анализа и выбора наиболее подходящей методологии и
алгоритмов
числовой обработки. Синхронные по
постам графики многолетних
наблюдений
отдельных примесей(Приложение 1) показывают:
- трендовая составляющая выражена у части примесей(окись
углерода, окись и двуокись азота, пыль,
сажа, формальдегид), но ее нелинейность и даже отсутствие
монотонности не позволяют уверенно строить
модель прогноза-экстраполяции даже на 1 год
вперед; можно лишь констатировать уменьшение концентраций
сажи,
связанное с переводом котельных с угля на газ и объяснимый
рост концентраций примесей, связанных с увеличением парка
автотранспорта;
- синхронность концентраций в пределах территории
мегаполиса(посты) слабая и
неустойчивая(кроме окислов азота);
- сезонность выражена слабее, чем можно было бы ожидать;
- мощность кратковременных нерегулярных всплесков
концентраций многократно превышает
регулярную динамику типа тренда или сезонности.
Графики
выборочной оценки плотности
распределения примесей(Приложение 2) подтверждают
последний
вывод "тяжелыми" хвостами гистограмм, которые явно указывают
на
статистическую неоднородность выборки. Высокочастотные отрезки
гистограмм ожидаемо напоминают фунции распределения,
характерные для ограниченных с одной
стороны(положительных) случайных величин. Это могут быть
распределения,
связанные, например, с экспонентой или функцией Вейбулла.
Синхронные
годовые графики
концентраций(Приложение 3) со сглаживанием acs-сплайнами(фильтрация
высоких
частот) подтверждают приведенные выводы, наглядно
показывая
неустойчивость потенциальных аппроксимаций трендов
и сезонности, а также существенные различия динамики
концентраций как по площади мегаполиса, так
и по видам примесей.
Выборочные
сезонные графики(Приложение 4)
показывают, что несмотря на некоторую
схожесть сглаженных временных рядов концентраций примесей со
спектром
синоптического масштаба(3-10 дней) синхронность по территории
города почти отсутствует, а высокочастотная
составляющая(1-2дня) колебаний преобладает.
Это означает, что метеорологические факторы не являются определяющими
для
колебаний концентрации примесей в рассматриваемой выборке и выявление статистических связей
с
выходом на прогноз является чрезвычайно сложной задачей. В терминах
цифровой обработки сигналов это задача выделения слабого
сигнала на фоне сильного шума. А по условиям
нашей задачи это еще и многокомпонентный сигнал (набор
примесей различной природы).
Теперь можно перейти к численным оценкам
возможных пространственных и временных
закономерностей в матрице данных. Пока только очевидно, что такие
закономерности(если
они значимы) неустойчивы и трудно уловимы.
6. Результаты и
выводы
Рассмотрим
сводные
данные вычислений компонентов дисперсии(3.1,3.2) концентраций
примесей по пространственно-временным координатам (посты, годы,
сезоны), приведенные в таблице 5.1.
Трендовый и
сезонный факторы
вычислялись отдельно для максимумов("выброс") и минимумов("фон") по
городу.
Таблица 5.1
Компоненты
дисперсионной
идентификации превышений ПДК примесей
по
пространственно-временным осям матрицы данных
(Новосибирск, 2005-2008гг)
|
по городу |
посты |
тренд |
сезонность |
|
макс |
мин |
сред |
дисп |
|
|
|
|
|
|
MYi
|
MYj
|
MYij
|
DYij
|
N
|
DM(Y/X)
|
DM(Y/X)/DY
|
DM(Y/X)/DY |
DM(Y/X)/DY |
|
|
|
|
|
|
|
%
|
выброс,%
|
"фон",%
|
выброс,%
|
"фон",% |
Пыль
|
0.55405
|
0.12934
|
0.30519
|
0.04998
|
10
|
0.00293
|
5.86
|
2.71
|
2.24
|
6.95
|
13.96
|
SO2
|
0.01860
|
0.00136
|
0.00782
|
0.00026
|
6
|
0.00001
|
6.18
|
8.42
|
5.07
|
22.53
|
13.32
|
CO
|
4.78524
|
1.28747
|
2.58200
|
4.07565
|
10
|
0.27580
|
6.76
|
11.38
|
0.25
|
2.46
|
19.45
|
NO2
|
0.16659
|
0.03972
|
0.09193
|
0.00533
|
10
|
0.00030
|
5.66
|
12.62
|
53.07
|
2.62
|
0.61
|
NO
|
0.08238
|
0.02959
|
0.05714
|
0.00274
|
7
|
0.00066
|
24.32
|
37.35
|
51.67
|
1.80
|
0.85
|
H2S
|
0.00046
|
0.00046
|
0.00046
|
0.00000
|
1
|
0.00000
|
0.00
|
5.05
|
5.05
|
0.46
|
0.46
|
Фенол
|
0.00740
|
0.00124
|
0.00415
|
0.00004
|
3
|
0.00000
|
0.47
|
11.80
|
10.21
|
0.42
|
0.37
|
Сажа
|
0.09714
|
0.00164
|
0.03330
|
0.00527
|
10
|
0.00038
|
7.38
|
0.67
|
4.26
|
7.49
|
9.87
|
HF
|
0.00763
|
0.00763
|
0.00760
|
0.00008
|
1
|
0.00000
|
0.00
|
1.49
|
1.49
|
3.21
|
3.21
|
Аммиак
|
0.13945
|
0.02303
|
0.07739
|
0.01305
|
3
|
0.00067
|
5.17
|
5.27
|
1.27
|
2.20
|
1.90
|
Форм
|
0.02357
|
0.00734
|
0.01525
|
0.00018
|
6
|
0.00001
|
10.65
|
21.87
|
52.55
|
0.47
|
0.86
|
Доля дисперсии за счет пространственных
различий(посты) максимальна для окиси азота и объясняет четверть
мощности колебаний. У фенола пространственные различия
несущественны(менее 1%), остальные примеси укладываются в интервал
5-10%(по фтористому водороду и сероводороду данные только по одному
посту).
Трендовая компонента(межгодовые различия) является
доминирующей(более 50%) для колебаний "фоновых" концентраций окислов азота и
формальдегида и весьма значительной(20-40%) для максимумов по городу
окиси азота и формальдегида. Несущественный тренд отмечен для пыли и
фтористого водорода, а для остальных примесей составляет 5-10%.
Сезонность четко выражена у окиси углерода, двуокиси
серы, а также пыли("фон") и в меньшей степени сажи. Остальные примеси
почти не подвержены сезонности, а значит, не связаны с ТЭК.
Очевидно, что повышенная завимость концентраций от
места(поста) и года наблюдений(тренд) негативно отразится на
статистическом обучении, представляя собой "шум", не имееющий отношения
к погоде.
Наконец, построенные прогностические логические деревья
распознавания ситуаций превышения ПДК атмосферных примесей в
г.Новосибирске все-таки позволили выделить в рассматриваемой выборке
слабые связи с параметрами атмосферы.