формы представления временного ряда
Формы представления временного ряда
Вводный материал о временных рядах. Понятие, классификация, общие принципы исследования. Суть применения временных рядов для изучения биржевых трендов финансовых инструментов.
Содержание:
Понятие временного ряда и цели его анализа
Введение временной шкалы в явление ВР существенно отличает его от простой (случайной) выборки статистических данных. Ключевая особенность временного ряда – привязка значений (измерений) к соответствующим моментам времени. В изучении случайной выборки обычно не важна, а подчас, и вовсе не интересна подобная хронологическая взаимосвязь.
Анализ временного ряда преследует две главные цели:
Обе тесно взаимосвязаны. Решение первой задачи необходимо для построения математической модели ВР, ее корректной идентификации и формализации. Матмодель станет, своего рода, лабораторией для исследования временного ряда и фундаментом для относительно точных (с допустимой нормой погрешности) предсказаний по ряду.
Структура любого ВР включает два сегмента: общий временной период с разбивкой на интервалы внутри него в которых (на концах) которых проводятся измерения (например, устанавливается котировка акции), и собственно, сами значения ряда (котировки ценной бумаги).
Классификация временных рядов
ВР различают по следующим признакам.
1. По временным параметрам.
1.1. Равноотстоящие и неравноотстоящие ряды.
1.2. Моментные и интервальные ряды.
Значения моментного ВР устанавливаются в отдельные, точечные моменты времени. В интервальных рядах работают уровни за определенные периоды. Это может достигаться, допустим, усреднением отсчетов по взятым интервалам.
2. По размерности показателей (значений).
Одномерные и многомерные (двух-, трехмерные и т.д.) временные ряды.
3. По форме отображения (вида) отсчетов.
ВР могут содержать абсолютные, относительные и средние значения исследуемых показателей.
Полные и неполные ряды. В полных нет пропущенных значений, соответственно, в неполных ВР пропуски возможны.
5. По случайности отображаемого рядом процесса.
6. По наличию выделенной тенденции.
Стационарные и нестационарные ВР. Стационарные ряды характеризуются постоянством средних значений и дисперсий его величин. В нестационарных рядах прослеживается основная тенденция их эволюции.
Базовые принципы прогноза
В целом, при изучении поведения временного ряда и построения его прогнозных оценок применяется следующая последовательность действий.
1. Обнаружение закономерностей по ВР на прошлых (исторических) данных.
2. Конструирование функции (соотношений), способных максимально точно отразить выявленные на первом этапе трендовые тенденции. Отработка такой функции предоставит возможность оценить степень достоверности результатов начального этапа.
4. Сравнение прогнозных данных с текущими измерениями временного ряда. Отладка трендовой функции.
Далее, этапы 3 и 4 повторяются до достижении требуемой точности (удовлетворительности) прогноза.
Для построения заслуживающего доверия прогноза, временные параметры ряда должны отвечать нижеприведенным требованиям:
Легко видеть, что согласно приведенной выше классификации ВР, для полноценного изучения максимально подходят равноотстающие полные ряды. В случае, когда отсутствуют данные за сравнительно небольшие отрезки времени, их можно заменить путем усреднения находящихся рядом известных уровней ВР.
Компоненты временного ряда
Неплохая наглядная аналогия подобной визуализации ВР просматривается в зависимости доходности отдельной акции от общей среднерыночной доходности (доходности фондового индекса) через β-коэффициент:
Сглаживание. Скользящая средняя и медиана
Скользящая средняя
MA можно строить разными способами.
n именуется сглаживающим интервалом или шириной “окна”.
Графическая интерпретация простого скользящего среднего приведена на рисунке [6] :
Вместе с тем, для временного ряда типична ситуация, когда одни его отсчеты более значимы, другие менее. Для корректного сглаживания такого ВР используют взвешенную скользящую среднюю (Weighted Moving Average, WMA).
WMA в момент t (WMAt):
Нормированные веса удовлетворяют традиционному условию:
То есть, их сумма по данному интервалу (окну) равна 1.
Медиана
Когда динамика временного ряда сопровождается большим количеством значительных выбросов (флуктуаций) внутри каждого (почти каждого) окна, более эффективным методом сглаживания будет медиана. Появление выбросов может быть связано, в том числе, и с большой относительной погрешностью измерений.
С четными выборками ситуация несколько сложнее. Допустим, для выборки (1,3,5,11) медианой допустимо считать любое число из интервала от 3 до 5 (средние “по росту” члены массива). Традиционно медиану здесь считают, как среднее арифметическое, то есть (3+5)/2=4. Таким образом, медиана (число) может и не входить в состав выборки.
Применение медианного сглаживания для неустойчивых рядов приведет к вычерчиванию более гладких, и, что важно, более надежных кривых, чем дало бы скользящее среднее. В силе медианного подхода заложена и его слабость. В тех рядах, где выбросы сравнительно малы и/или редки медианное сглаживание строит неудобные зубчатые графики. Кроме того оно не позволяет задействовать веса.
Медианой и скользящим средним приемы сглаживания не исчерпываются. Существуют метод наименьших квадратов, взвешенных относительно расстояния, процедура отрицательного экспоненциально взвешенного сглаживания и целый ряд других более сложных методик.
Подбор функции
Грубо это можно сделать применив линейную зависимость. Более тонкие, нелинейные подходы, используют экспоненциальную, логарифмическую функции, а также степенной полином (многочлен).
Ряд Тейлора и ряд Маклорена
Исаак Ньютон, портрет Г. Кнеллера (1689) [12]
Разложение функции f(z) в бесконечный ряд Тейлора имеет вид:
В случае конечного (n) числа членов ряда Тейлора работает формула Тейлора:
n-ая частичная сумма ряда Тейлора для f(x).
На практике применяют частный случай ряда (формулы) Тейлора для а=0. Такой ряд именуется рядом Маклорена:
Приведем два распространенных варианта ряда Маклорена.
и натурального логарифма (ряд Меркатора):
Метод наименьших квадратов
Запишем временной ряд в виде:
Суть метода наименьших квадратов заключается в минимизации суммы квадратов разницы между yt и f(xt,b) через подгон параметра b:
Интегрированный временной ряд и лаговый оператор
Особый интерес для алготрейдера представляют нестационарные ВР. Биржевые тренды ценных бумаг и прочих финансовых активов имеют именно такой характер. Среди нестационарных рядов принято выделять класс интегрированных временных рядов.
Лаговый оператор k-го порядка вводится так:
Разность нулевого порядка не сдвигает члены ряда: L 0 Xt=Xt.
Модели временных рядов. От простого к сложному
В заключительном разделе перечислим в самом общем виде несколько актуальных моделей временных рядов, используемых в современных торговых алгоритмах и стратегиях.
Авторегрессионная модель (AR-модель)
Авторегрессионная модель, Autoregressive Model, кратко AR-модель, предполагает линейную зависимость члена временного ряда в заданный момент времени от предыдущих его значений [18] (с латинского regressus — возвращение, обратное движение):
Процесс первого порядка, AR(1)-процесс представляет знаменитое случайное блуждание:
Модель скользящего среднего (MA-модель)
Модели скользящего среднего, Moving Average Model, кратко MA-модели q-го порядка, MA(q) отвечает следующее соотношение [19] :
MA-модель нулевого порядка, MA(0) представляет собой просто белый шум: Xt=εt.
На практике обычно применяют MA-модель первого порядка, MA(1):
Модель авторегрессии — скользящего среднего (AutoRegressive Moving-Average Model, ARMA) объединяет обе модели (AR+MA=ARMA) в одно целое [20] :
Комбинация AR- и MA-модели в единую ARMA позволяет более тонко смоделировать временной ряд, используя сильные стороны обеих методик. ARMA может трактоваться, как “линейная модель множественной регрессии”. Линейная часть заложена AR-компонентой, а влияние белого шума отражено MA-составляющей.
ARIMA
Математика ARIMA (p,d,q) выглядит так:
ARCH и GARCH
Относительно недавно исследователи финансовых нестационарных временных рядов взяли на вооружение модели линии ARCH и GARCH. Что стоит за этими англоязычными аббревиатурами?
Согласно гипотезе Р. Энгла, условная дисперсия в рамках модели ARCH q-го порядка, ARCH(q) описывается следующим образом:
ARCH показала свою эффективность при интерпретации кластеризации волатильности на фондовом, валютном и прочих финансовых рынках, когда периоды высокой волатильности сменяются периодами низкой, при том, что среднюю долгосрочную волатильность можно оценивать, как относительно неизменный фактор.
Т. Боллерслев сделал вполне разумное и логичное предположение, о том, что для корректного прогноза отдельных неустойчивых временных рядов в формулу 19 для ARCH-модели полезным будет введение компоненты, отвечающей за предыдущие условные дисперсии.
где: α0, αi и ut уже введены в формуле 19 для ARCH;
Необходимое условие стационарности ряда, согласно GARCH записывается так:
Линейка актуальных моделей исследования временных рядов в алготрейдинге отнюдь не ограничивается приведенными выше примерами. Алгоритмы используют их комбинации и усовершенствованные варианты.
В частности, на слуху симбиоз ARIMA+GARCH и целое семейство, собственно “GARCH-ей” адаптированных для тех или иных целей: GARCH-M, асимметричные GARCH, в том числе, EGARCH, AGARCH, TGARCH, GJR-GARCH и многие другие.
В изложении использован материал «Анализ временных рядов» портала StatSoft
Примечания и ссылки (источник – Википедия/Wikipedia если не оговорено иное)
Анализ временных рядов
Временные ряды — это актуальный инструмент, применимый во множестве решений, от предсказания цен на акции, прогнозов погоды, планирования бизнеса, до распределения ресурсов. Несмотря на то, что прогнозирование может быть сведено к построению контролируемой регрессии, существуют особенности, связанные с временным характером наблюдений, которые необходимо учитывать, используя специальные инструменты.
Содержание
Временной ряд [ править ]
| Определение: |
| Временно́й ряд (или ряд динамики) — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. Каждая единица статистического материала называется измерением или отсчётом. Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку. |
Как и большинство других видов анализа, анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.
Валидирование и тестирование модели временного ряда [ править ]
Данные упорядочены относительно неслучайных моментов времени, и, значит, в отличие от случайных выборок, могут содержать в себе дополнительную информацию, поэтому нельзя пользоваться обычными способами валидации. Чтобы избежать смещения оценки необходимо удостовериться, что обучающие наборы данных содержат только наблюдения, которые произошли до событий из валидирующиx наборов.
Возможным способом преодоления данной проблемы будет использование скользящего окна, как описано здесь. Эта процедура называется кросс-валидацией временного ряда и может быть вкратце описана следующей картинкой (рис. 1), в которой синие точки обозначают тренировочный набор данных, а красные соответствующие валидационные наборы данных.
Краткое исследование данных [ править ]
В данной части используется несколько разных моделей для предсказания изменений в промышленном производстве,
которые для примера будем оценивать численно, как количество электрооборудования, произведённого в зоне Евро (рис. 2, 3).
Набор данных описывает ежемесячное производство электрооборудования (компьютеры электрические и оптические приборы) в зоне евро (17 стран) в период с января 1996 по март 2012 года (см. график ниже). Последние два года будем использовать при тестировании.
Модели прогнозирования временных рядов [ править ]
Наивное предсказание [ править ]
Такие предскания предполагают, что стохастическая [2] модель генерирует случайное блуждание.
Разделение по сезонам + любая модель [ править ]
Если данные показывают, что они восприимчивы к периодическим (сезонным) изменениям (ежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.
Классическое разложение можно расширить несколькими способами.
Расширение позволяет использовать данный метод при:
Обзор методов разложений ряда можно увидеть по ссылке. Используется реализация из стандартной библиотеки (рис. 6).
На следующем графике показаны сезонные индексы ряда с учётом сезонности (рис. 7).
Следующий график показывает расчёты для 2007 года с использованием декомпозиции и наивной модели (рис. 8) для сезонно-изменяемого временного ряда.
Экспоненциальное сглаживание [ править ]
Также как и экспоненциальное сглаживание, интегрированная модель авторегрессии скользящего среднего (англ. autoregressive integrated moving average, ARIMA) также часто используются для прогноза временных рядов.





















