формы представления временного ряда

19.08.202319.08.2023 admin 0 Comments

Формы представления временного ряда

Вводный материал о временных рядах. Понятие, классификация, общие принципы исследования. Суть применения временных рядов для изучения биржевых трендов финансовых инструментов.

Содержание:

Понятие временного ряда и цели его анализа

Введение временной шкалы в явление ВР существенно отличает его от простой (случайной) выборки статистических данных. Ключевая особенность временного ряда – привязка значений (измерений) к соответствующим моментам времени. В изучении случайной выборки обычно не важна, а подчас, и вовсе не интересна подобная хронологическая взаимосвязь.

Анализ временного ряда преследует две главные цели:

Обе тесно взаимосвязаны. Решение первой задачи необходимо для построения математической модели ВР, ее корректной идентификации и формализации. Матмодель станет, своего рода, лабораторией для исследования временного ряда и фундаментом для относительно точных (с допустимой нормой погрешности) предсказаний по ряду.

Структура любого ВР включает два сегмента: общий временной период с разбивкой на интервалы внутри него в которых (на концах) которых проводятся измерения (например, устанавливается котировка акции), и собственно, сами значения ряда (котировки ценной бумаги).

Классификация временных рядов

ВР различают по следующим признакам.

1. По временным параметрам.

1.1. Равноотстоящие и неравноотстоящие ряды.

1.2. Моментные и интервальные ряды.

Значения моментного ВР устанавливаются в отдельные, точечные моменты времени. В интервальных рядах работают уровни за определенные периоды. Это может достигаться, допустим, усреднением отсчетов по взятым интервалам.

2. По размерности показателей (значений).

Одномерные и многомерные (двух-, трехмерные и т.д.) временные ряды.

3. По форме отображения (вида) отсчетов.

ВР могут содержать абсолютные, относительные и средние значения исследуемых показателей.

Полные и неполные ряды. В полных нет пропущенных значений, соответственно, в неполных ВР пропуски возможны.

5. По случайности отображаемого рядом процесса.

6. По наличию выделенной тенденции.

Стационарные и нестационарные ВР. Стационарные ряды характеризуются постоянством средних значений и дисперсий его величин. В нестационарных рядах прослеживается основная тенденция их эволюции.

Базовые принципы прогноза

В целом, при изучении поведения временного ряда и построения его прогнозных оценок применяется следующая последовательность действий.

1. Обнаружение закономерностей по ВР на прошлых (исторических) данных.

2. Конструирование функции (соотношений), способных максимально точно отразить выявленные на первом этапе трендовые тенденции. Отработка такой функции предоставит возможность оценить степень достоверности результатов начального этапа.

4. Сравнение прогнозных данных с текущими измерениями временного ряда. Отладка трендовой функции.

Далее, этапы 3 и 4 повторяются до достижении требуемой точности (удовлетворительности) прогноза.

Для построения заслуживающего доверия прогноза, временные параметры ряда должны отвечать нижеприведенным требованиям:

Легко видеть, что согласно приведенной выше классификации ВР, для полноценного изучения максимально подходят равноотстающие полные ряды. В случае, когда отсутствуют данные за сравнительно небольшие отрезки времени, их можно заменить путем усреднения находящихся рядом известных уровней ВР.

Компоненты временного ряда

Неплохая наглядная аналогия подобной визуализации ВР просматривается в зависимости доходности отдельной акции от общей среднерыночной доходности (доходности фондового индекса) через β-коэффициент:

Сглаживание. Скользящая средняя и медиана

Скользящая средняя

MA можно строить разными способами.

n именуется сглаживающим интервалом или шириной “окна”.

Графическая интерпретация простого скользящего среднего приведена на рисунке [6] :

Вместе с тем, для временного ряда типична ситуация, когда одни его отсчеты более значимы, другие менее. Для корректного сглаживания такого ВР используют взвешенную скользящую среднюю (Weighted Moving Average, WMA).

WMA в момент t (WMAt):

Нормированные веса удовлетворяют традиционному условию:

То есть, их сумма по данному интервалу (окну) равна 1.

Медиана

Когда динамика временного ряда сопровождается большим количеством значительных выбросов (флуктуаций) внутри каждого (почти каждого) окна, более эффективным методом сглаживания будет медиана. Появление выбросов может быть связано, в том числе, и с большой относительной погрешностью измерений.

С четными выборками ситуация несколько сложнее. Допустим, для выборки (1,3,5,11) медианой допустимо считать любое число из интервала от 3 до 5 (средние “по росту” члены массива). Традиционно медиану здесь считают, как среднее арифметическое, то есть (3+5)/2=4. Таким образом, медиана (число) может и не входить в состав выборки.

Применение медианного сглаживания для неустойчивых рядов приведет к вычерчиванию более гладких, и, что важно, более надежных кривых, чем дало бы скользящее среднее. В силе медианного подхода заложена и его слабость. В тех рядах, где выбросы сравнительно малы и/или редки медианное сглаживание строит неудобные зубчатые графики. Кроме того оно не позволяет задействовать веса.

Медианой и скользящим средним приемы сглаживания не исчерпываются. Существуют метод наименьших квадратов, взвешенных относительно расстояния, процедура отрицательного экспоненциально взвешенного сглаживания и целый ряд других более сложных методик.

Подбор функции

Грубо это можно сделать применив линейную зависимость. Более тонкие, нелинейные подходы, используют экспоненциальную, логарифмическую функции, а также степенной полином (многочлен).

Ряд Тейлора и ряд Маклорена

Исаак Ньютон, портрет Г. Кнеллера (1689) [12]

Разложение функции f(z) в бесконечный ряд Тейлора имеет вид:

В случае конечного (n) числа членов ряда Тейлора работает формула Тейлора:

n-ая частичная сумма ряда Тейлора для f(x).

На практике применяют частный случай ряда (формулы) Тейлора для а=0. Такой ряд именуется рядом Маклорена:

Приведем два распространенных варианта ряда Маклорена.

и натурального логарифма (ряд Меркатора):

Метод наименьших квадратов

Запишем временной ряд в виде:

Суть метода наименьших квадратов заключается в минимизации суммы квадратов разницы между y_t и f(x_t,b) через подгон параметра b:

Интегрированный временной ряд и лаговый оператор

Особый интерес для алготрейдера представляют нестационарные ВР. Биржевые тренды ценных бумаг и прочих финансовых активов имеют именно такой характер. Среди нестационарных рядов принято выделять класс интегрированных временных рядов.

Лаговый оператор k-го порядка вводится так:

Разность нулевого порядка не сдвигает члены ряда: L 0 X_t=X_t.

Модели временных рядов. От простого к сложному

В заключительном разделе перечислим в самом общем виде несколько актуальных моделей временных рядов, используемых в современных торговых алгоритмах и стратегиях.

Авторегрессионная модель (AR-модель)

Авторегрессионная модель, Autoregressive Model, кратко AR-модель, предполагает линейную зависимость члена временного ряда в заданный момент времени от предыдущих его значений [18] (с латинского regressus — возвращение, обратное движение):

Процесс первого порядка, AR(1)-процесс представляет знаменитое случайное блуждание:

Модель скользящего среднего (MA-модель)

Модели скользящего среднего, Moving Average Model, кратко MA-модели q-го порядка, MA(q) отвечает следующее соотношение [19] :

MA-модель нулевого порядка, MA(0) представляет собой просто белый шум: X_t=ε_t.

На практике обычно применяют MA-модель первого порядка, MA(1):

Модель авторегрессии — скользящего среднего (AutoRegressive Moving-Average Model, ARMA) объединяет обе модели (AR+MA=ARMA) в одно целое [20] :

Комбинация AR- и MA-модели в единую ARMA позволяет более тонко смоделировать временной ряд, используя сильные стороны обеих методик. ARMA может трактоваться, как “линейная модель множественной регрессии”. Линейная часть заложена AR-компонентой, а влияние белого шума отражено MA-составляющей.

ARIMA

Математика ARIMA (p,d,q) выглядит так:

ARCH и GARCH

Относительно недавно исследователи финансовых нестационарных временных рядов взяли на вооружение модели линии ARCH и GARCH. Что стоит за этими англоязычными аббревиатурами?

Согласно гипотезе Р. Энгла, условная дисперсия в рамках модели ARCH q-го порядка, ARCH(q) описывается следующим образом:

ARCH показала свою эффективность при интерпретации кластеризации волатильности на фондовом, валютном и прочих финансовых рынках, когда периоды высокой волатильности сменяются периодами низкой, при том, что среднюю долгосрочную волатильность можно оценивать, как относительно неизменный фактор.

Т. Боллерслев сделал вполне разумное и логичное предположение, о том, что для корректного прогноза отдельных неустойчивых временных рядов в формулу 19 для ARCH-модели полезным будет введение компоненты, отвечающей за предыдущие условные дисперсии.

где: α₀, α_i и u_t уже введены в формуле 19 для ARCH;

Необходимое условие стационарности ряда, согласно GARCH записывается так:

Линейка актуальных моделей исследования временных рядов в алготрейдинге отнюдь не ограничивается приведенными выше примерами. Алгоритмы используют их комбинации и усовершенствованные варианты.

В частности, на слуху симбиоз ARIMA+GARCH и целое семейство, собственно “GARCH-ей” адаптированных для тех или иных целей: GARCH-M, асимметричные GARCH, в том числе, EGARCH, AGARCH, TGARCH, GJR-GARCH и многие другие.

В изложении использован материал «Анализ временных рядов» портала StatSoft

Примечания и ссылки (источник – Википедия/Wikipedia если не оговорено иное)

Источник

Анализ временных рядов

Временные ряды — это актуальный инструмент, применимый во множестве решений, от предсказания цен на акции, прогнозов погоды, планирования бизнеса, до распределения ресурсов. Несмотря на то, что прогнозирование может быть сведено к построению контролируемой регрессии, существуют особенности, связанные с временным характером наблюдений, которые необходимо учитывать, используя специальные инструменты.

Содержание

Временной ряд [ править ]

Определение:

Временно́й ряд (или ряд динамики) — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. Каждая единица статистического материала называется измерением или отсчётом. Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку.

Как и большинство других видов анализа, анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.

Валидирование и тестирование модели временного ряда [ править ]

Данные упорядочены относительно неслучайных моментов времени, и, значит, в отличие от случайных выборок, могут содержать в себе дополнительную информацию, поэтому нельзя пользоваться обычными способами валидации. Чтобы избежать смещения оценки необходимо удостовериться, что обучающие наборы данных содержат только наблюдения, которые произошли до событий из валидирующиx наборов.

Возможным способом преодоления данной проблемы будет использование скользящего окна, как описано здесь. Эта процедура называется кросс-валидацией временного ряда и может быть вкратце описана следующей картинкой (рис. 1), в которой синие точки обозначают тренировочный набор данных, а красные соответствующие валидационные наборы данных.

Краткое исследование данных [ править ]

В данной части используется несколько разных моделей для предсказания изменений в промышленном производстве,
которые для примера будем оценивать численно, как количество электрооборудования, произведённого в зоне Евро (рис. 2, 3).

Набор данных описывает ежемесячное производство электрооборудования (компьютеры электрические и оптические приборы) в зоне евро (17 стран) в период с января 1996 по март 2012 года (см. график ниже). Последние два года будем использовать при тестировании.

Модели прогнозирования временных рядов [ править ]

Наивное предсказание [ править ]

Такие предскания предполагают, что стохастическая [2] модель генерирует случайное блуждание.

Разделение по сезонам + любая модель [ править ]

Если данные показывают, что они восприимчивы к периодическим (сезонным) изменениям (ежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.

Классическое разложение можно расширить несколькими способами.
Расширение позволяет использовать данный метод при:

Обзор методов разложений ряда можно увидеть по ссылке. Используется реализация из стандартной библиотеки (рис. 6).

На следующем графике показаны сезонные индексы ряда с учётом сезонности (рис. 7).

Следующий график показывает расчёты для 2007 года с использованием декомпозиции и наивной модели (рис. 8) для сезонно-изменяемого временного ряда.

Экспоненциальное сглаживание [ править ]

Также как и экспоненциальное сглаживание, интегрированная модель авторегрессии скользящего среднего (англ. autoregressive integrated moving average, ARIMA) также часто используются для прогноза временных рядов.

Определение:

Процесс авторегрессии — последовательная зависимость элементов временного ряда, выразается следующим уравнением:

Определение:

Скользящее среднее — общее название для семейства функций, значения которых в каждой точке определения равны некоторому среднему значению исходной функции за предыдущий период.

Определение:

Процесс скользящего среднего — в процессе скользящего среднего каждый элемент ряда подвержен суммарному воздействию предыдущих ошибок. В общем виде это можно записать следующим образом:

ARIMA — комбинация этих двух подходов. Так как эти подходы требуются стационарности временного ряда, может понадобится продифференциировать/проинтегрировать ряд. То есть рассматировать ряд разностей, а не исходный ряд.

Сезонная интегрированная модель авторегрессии скользящего среднего (англ. season autoregressive integrated moving average, SARIMA) учитывает сезонность, добавляя линейную комбинацию прошлых сезонных значений и/или прошлых ошибок прогноза. Более подробную информацию про ARIMA, SARIMA читайте по ссылке.

Данные графики показывают предсказания полученные для 2007 года, с использованием модели SARIMA (рис. 11,12).

Garch [ править ]

В предыдущих моделях считалось, что слагаемое ошибки в стохастическом процессе генерации временного ряда имело одинаковую дисперсию.

В GARСH-модели (англ. Generalized AutoRegressive Conditional Heteroscedasticity, GARCH) предполагается, что слагаемое ошибки следует авторегрессионному скользящему среднему (англ. AutoRegressive Moving Average, ARMA), соответственно слагаемое меняется по ходу времени. Это особенно полезно при моделировании финансовых временных рядов, так как диапазон изменений тоже постоянно меняется (рис. 13).

В 1982 году была предложена ARCH — модель, описываемая формулой:

Обычно ARMA используется и для учёта среднего, более подробное введение в Garsh и различные варианты можно найти здесь.

Динамические линейные модели [ править ]

Динамические линейные модели могут быть построены в рамках Байесовской системы. Тем не менее и этот метод можно улучшить, подробности здесь.

TBATS [ править ]

TBATS (англ. Trigonometric seasonality, Box-Cox transformation, ARMA errors, Trend and Seasonal components) — это модели, которые основаны на экспоненциальном сглаживании (рис. 15).
Главной особенностью TBATS является возможность взаимодействия с несколькими сезонностями. Моделируя каждую функцию сезонности отдельным тригонометрическим отображением построенным на рядах Фурье.

Классическим примером комплексной сезонности будет отображение ежедневных объемов продаж, которое имеет, как еженедельные колебания, так и ежегодные.

Больше информации можно прочиать тут.

Prophet [ править ]

Ещё одна модель, способная взаимодействовать с несколькими сезонностями (рис. 16). Это ПО с открытым исходным кодом от Фейсбука (ссылка).

Prophet считает, что временной ряд может быть разложен следующим образом:
$y(t) = g(t) + s(t) + h(t) + ε(t)$,
$g(t)$ — тренд,
$s(t)$ — сезонность,
$h(t)$ — каникулы, т.е аномальные данные,
$ε(t)$ — ошибки.

NNETAR [ править ]

Таким образом, мы можем итеративно моделировать будущий путь выборки. Повторно моделируя выборочные пути, мы накапливаем знания о распределении всех будущих значений на основе подобранной нейронной сети.

LSTM [ править ]

Блок cети долго-краткосрочной памяти (англ. Long short-term memory, LSTM) могут использоваться для прогнозирования временных рядов (а также других рекуррентных нейронных сетей).
Состояние сети LSTM представлено через вектор пространства состояний. Этот метод позволяет отслеживать зависимости новых наблюдений от прошлых (даже очень далеких).
Вообще говоря, LSTM представляют собой сложные модели, и они редко используются для прогнозирования одного временного ряда, поскольку для их оценки требуется большой объем данных.
Однако они обычно используются, когда необходимы прогнозы для большого количества временных рядов (как показано здесь).

Оценка [ править ]

Выполнен выбор модели с помощью процедуры перекрестной проверки, описанной ранее. Не рассчитывая его для динамических линейных моделей и моделей LSTM из-за их высокой вычислительной стоимости и низкой производительности.
На следующем рисунке показана средняя абсолютная ошибка (англ. Mean Absolute Error, MAE) с перекрестной проверкой для каждой модели и для каждого временного горизонта (рис. 17):

Модель NNETAR по сезонно скорректированным данным была лучшей моделью для данной задачи, поскольку она соответствовала самому низкому значению MAE, прошедшему перекрестную проверку.
Чтобы получить объективную оценку наилучшей производительности модели, вычислим MAE на тестовом наборе (рис. 18), получив оценку, равную 5,24. На следующем рисунке можно увидеть MAE, оцененную на тестовой выборке для каждого временного горизонта.

Методы увеличения производительности [ править ]

Заключительные замечания [ править ]

Большинство ранее описанных моделей позволяют легко включать изменяющиеся во времени предикторы. Они могут быть извлечены из одного и того же временного ряда или могут соответствовать внешним предикторам (например, временному ряду другого индекса). В последнем случае необходимо обратить внимание на то, чтобы не использовать информацию из будущего, которая могла бы быть удовлетворена путем прогнозирования предикторов или использования версий c ошибками.

Обратите внимание, что в данном конспекте рассматривается случай, когда у нас есть один временной ряд для прогнозирования. Когда у нас много временных рядов, может быть предпочтительнее глобальный подход, поскольку он позволяет нам оценивать более сложную и потенциально более точную модель. Подробнее о глобальном подходе здесь.

Источник

Онлайн проект astro.akademiakhv.ru

формы представления временного ряда

Формы представления временного ряда

Анализ временных рядов

Содержание

Временной ряд [ править ]

Валидирование и тестирование модели временного ряда [ править ]

Краткое исследование данных [ править ]

Модели прогнозирования временных рядов [ править ]

Наивное предсказание [ править ]

Разделение по сезонам + любая модель [ править ]

Экспоненциальное сглаживание [ править ]

Garch [ править ]

Динамические линейные модели [ править ]

TBATS [ править ]

Prophet [ править ]

NNETAR [ править ]

LSTM [ править ]

Оценка [ править ]

Методы увеличения производительности [ править ]

Заключительные замечания [ править ]

Добавить комментарий Отменить ответ

Формы представления временного ряда

Анализ временных рядов

Содержание

Временной ряд [ править ]

Валидирование и тестирование модели временного ряда [ править ]

Краткое исследование данных [ править ]

Модели прогнозирования временных рядов [ править ]

Наивное предсказание [ править ]

Разделение по сезонам + любая модель [ править ]

Экспоненциальное сглаживание [ править ]

Garch [ править ]

Динамические линейные модели [ править ]

TBATS [ править ]

Prophet [ править ]

NNETAR [ править ]

LSTM [ править ]

Оценка [ править ]

Методы увеличения производительности [ править ]

Заключительные замечания [ править ]

Вам также понравится

гомеопатия средство что это значит

форма для выпечки фкк 1

перераспределение долей в праве общей долевой собственности калькулятор

Добавить комментарий Отменить ответ