Разложение временных рядов по сезонам в Excel
Обновлено: 21.11.2024
Заголовок может показаться сложным, но все, на что он ссылается, — это средство объяснения сигнала (т. е. количества посещений страницы, конверсий и т. д.) с течением времени и с учетом сезонного или циклического элемента. Это может быть полезно для объяснения того, почему показатель снижается в краткосрочной перспективе только для того, чтобы подняться в долгосрочной перспективе, и может помочь пролить свет на то, почему это произошло. Разложить временной ряд — значит разбить его на составные элементы — здесь мы рассматриваем три компонента:
- Основная тенденция, например. долгосрочный темп роста сигнала
- Сезонный элемент – колебания во времени, которые могут быть годовыми, квартальными, месячными или в течение одного дня.
- Элемент шума — случайное поведение, которое мы не можем отнести к вышеизложенному
Для примера данных, которые я буду использовать (исключительно для иллюстративных целей), мы рассматриваем веб-трафик, который имеет сильный сезонный компонент. Сезонный элемент был очевиден в течение годового периода, с большими объемами обращений в январе и более ровными объемами в остальное время года с затишьем в летние месяцы. Годовой рост также очевиден.
Чтобы разбить данные, нам нужно найти основную тенденцию роста и сезонную тенденцию.
Шаг первый
Сначала мы сглаживаем данные за год, используя взвешенное скользящее среднее (MA). Поскольку тренд является ежегодным, скользящее среднее значение должно включать точки данных за все месяцы года. Это даст нам основной компонент роста, и оттуда мы сможем рассчитать сезонный компонент.
В этом примере я получаю среднее значение продаж за каждый месяц путем усреднения за шесть месяцев по обе стороны от него, чтобы получить центрированное скользящее среднее порядка 12. Для июля январь включается дважды, поэтому мы делим эти значения пополам. , затем разделите на 12, чтобы получить месячную цифру. Обязательно мы теряем некоторые данные с начала выборки, где нет шести предшествующих месяцев.
Шаг второй
Следующий шаг требует, чтобы мы выбрали, подходит ли мультипликативная или аддитивная модель. В мультипликативной декомпозиции сезонный элемент изменяется в зависимости от основного роста, тогда как в аддитивной модели он остается постоянным по размеру. Обычно это можно определить по графику.
На приведенной выше диаграмме видно, что сезонные различия в более поздние годы, когда трафик выше, больше, что говорит о необходимости мультипликативной модели.
Теперь мы можем рассчитать соотношение между скользящей средней и необработанными цифрами. Это просто необработанная цифра, деленная на соответствующую цифру скользящей средней (в аддитивной модели мы нашли бы разницу, а не отношение). Как показано ниже, это дает ряд чисел по обе стороны от единицы — в августе наблюдалось всего 0,816 долгосрочного трафика, а в январе было зарегистрировано 1,341 долгосрочного среднего значения — как и следовало ожидать, увидев на начальном этапе. график, как сезонные колебания влияют на эти данные.
Шаг третий
Выше мы видим значения только за период с июля 2010 г. по июнь 2011 г. В реальном анализе мы будем использовать весь доступный набор данных, предоставляя несколько значений для каждого месяца. Затем мы должны усреднить их (например, усреднить январские данные вместе, затем февральские и т. д.), чтобы получить более надежные сезонные коэффициенты и сгладить часть шума в данных.
Поскольку мы работаем с коэффициентами, разница в абсолютных значениях, скажем, между октябрем 2008 г. и октябрем 2012 г. не влияет на расчет. Это можно сделать с помощью функции Excel «СРЗНАЧЕСЛИ»:
Теперь у нас есть отдельный коэффициент для каждого месяца года. Теперь их следует масштабировать, чтобы убедиться, что их среднее значение равно единице (в зависимости от используемого набора данных это может быть не так). Для этого разделите каждый месячный показатель на среднее значение всех 12. Это гарантирует, что мы не завышаем и не занижаем необработанные значения при поправке на сезонность — 12 значений должны в сумме давать 12, то есть усреднять единицу.
Шаг четвертый
Давайте теперь посмотрим на лежащую в основе тенденцию роста — нам нужно найти среднемесячный прирост трафика. Используя созданные нами данные скользящего среднего, постройте диаграмму и добавьте линию тренда.
Здесь линейная линия тренда обеспечивает очень точное соответствие со значением R 2, близким к единице. Уравнение на диаграмме говорит нам, что, начиная с базы 36 074, эти данные впоследствии показали средний рост на 428 посещений в месяц в течение оцениваемого периода. Другие наборы данных могут показывать квадратичную, экспоненциальную или более сложную тенденцию роста.
Проведенный нами анализ позволит нам измерить долгосрочный рост, а также объяснить сезонные колебания в количественном выражении. В некоторых отраслях сезонные колебания легко объяснимы — например, производители мороженого или рождественских украшений. Однако иногда сезонный элемент может быть более тонким — и помните, что сезонные тенденции не ограничиваются весной/летом/осенью/зимой — различия в посещаемости сайта в течение отдельного дня также могут быть полезны в этом анализе.
Линия сезонных колебаний выше отображает необработанные данные за каждый месяц, показывая, как мы сгладили пики и спады за двенадцатимесячный цикл, чтобы получить долгосрочное среднее значение.
Мы также можем использовать этот средний показатель роста для прогнозирования будущего роста и ежемесячно корректировать его, используя определенные нами сезонные параметры.
Шаг пятый
Теперь мы можем довольно легко составить простой и приблизительный прогноз эффективности на будущие месяцы. Для каждого последующего месяца прибавьте 428 посещений, которые мы определили, и получите основной показатель роста, а затем умножьте на соответствующий месячный коэффициент.
Для прогнозируемого первого месяца я использовал среднее значение за 12 предыдущих месяцев в качестве базового значения. Затем в столбец «Тенденция роста» добавляется 428 посещений в месяц, а сезонная корректировка умножает эту цифру на рассчитанный нами месячный коэффициент.
Здесь мы видим прогнозные цифры по сравнению с историческими данными, которые мы использовали. Похоже, мы сохранили общую тенденцию, уделяя особое внимание сезонным всплескам и спадам в течение года.
Этот метод может дать нам приблизительное значение сигнала для будущих месяцев. Однако следует помнить, что каждый месяц прогноза основан на предыдущем прогнозе, и поэтому эта тенденция может пойти наперекосяк, если будут задействованы до сих пор неучтенные факторы. Более сложный анализ может дать доверительный интервал 95 % для каждого прогноза и обычно использует экспоненциальное сглаживание или другой метод, более эффективный, чем декомпозиция временных рядов.
Подводя итог…
Иногда данные временных рядов могут отображать очевидные тенденции, как показано на последнем графике выше. Несмотря на то, что прослеживается характер роста и довольно регулярный сезонный характер, эти данные трудно объяснить как общую тенденцию. Разбивка серии на разные компоненты может облегчить моделирование каждой части; в этом примере мы получили общий темп роста, и сезонные коэффициенты для каждого месяца влияют на это. Идя дальше, мы можем попытаться раскрыть любые циклические тенденции, такие как долгосрочный экономический цикл, или использовать более сложные методы, позволяющие выполнять более точные прогнозы.
Прогнозирование: дальнейшая декомпозиция временных рядов в Excel
В статье «Базовая декомпозиция временных рядов в Excel» я кратко продемонстрировал несколько простых методов прогнозирования, показав, как учитывать не только рост, но и сезонность. К концу этого поста у нас был такой прогноз:
Как мы уже упоминали, чего-то еще не хватает. Возможно, это не очень заметно в этом наборе данных, поскольку он имеет довольно хороший сезонный профиль, но, тем не менее, отсутствует. Вы можете видеть, что некоторые из этих пиков за последние две недели на самом деле были примерно на 10 процентных пунктов выше, чем мы прогнозировали. Это различие мы называем ошибкой.
Расчет ошибки прогноза
Теперь каждая точка данных имеет разное количество ошибок; в некоторых местах наш прогноз почти идеален, иногда чуть больше. Я рассчитал процент ошибки для каждого дня. Это показано на диаграмме ниже:
Вы получаете величину ошибки, вычитая фактические цифры из цифр в прогнозе на каждый день, когда у нас есть исторические данные, а затем снова делите на фактические значения, чтобы получить процент. Наш прогноз был в столбце G , а наш исходный ЦП в столбце B , поэтому ошибку можно рассчитать для каждой строки, например, как =(G5-B5)/B5.
Эта диаграмма ошибок показывает, что иногда мы завышаем, а иногда занижаем прогнозы, при этом ошибка достигает 40 % в любом случае. Однако это выбросы, и в целом прогноз более точен. Что нам нужно сделать, так это использовать эту ошибку, чтобы предоставить нам +/- типичную ошибку, которая даст нам представление о том, насколько точен наш прогноз в целом, а также позволит нам указать верхние и нижние разумные границы наших будущих прогнозов.
Один из способов сделать это – взять среднюю процентную ошибку, просто взяв среднее значение всех значений ошибки на приведенной выше диаграмме. Этот метод довольно привлекателен, так как он прост, а также дает нам хорошее низкое значение ошибки. Средняя процентная ошибка для нашего прогноза декомпозиции временных рядов составляет всего 2% — очень впечатляет!
Однако это мало что нам говорит. Все, что это значит, это то, что мы немного больше преувеличиваем, чем недооцениваем. Поскольку одна из наших ошибок отрицательна, а другая положительна, эти две ошибки просто компенсируют друг друга.
Лучший способ получить ошибку – использовать среднюю абсолютную ошибку в процентах. Это то же самое, за исключением того, что мы берем абсолютные значения каждой точки. Абсолютные значения процентной ошибки выглядят следующим образом:
И в среднем это 15%.
Это легко вычислить в Excel; просто добавьте новый столбец с ABS() каждой процентной ошибки, которую мы уже вычислили, например. =АБС(Н5) . Затем возьмите среднее значение всех этих значений.
Метод прогноза 4 – декомпозиция временного ряда с ошибкой
Как мы можем использовать это значение ошибки для дальнейшего улучшения нашего прогноза? Вероятно, лучший способ — использовать его, чтобы указать среднюю верхнюю границу для него в будущем. Вы также можете указать нижнюю границу, если вам это интересно, но здесь нас больше интересует, насколько высока может быть загрузка ЦП.
Вот снова наш прогноз ЦП, на этот раз с верхней границей +15% для прогноза, также показанного на диаграмме:
Наш апрельский пик, включая ошибку, теперь составляет 79%. Вот список прогнозов, которые мы создали с помощью различных обсуждаемых методов:
- Предположительно: 73%
- Линейная регрессия: 55%
- Разложение временных рядов: 69%
- TSD с ошибкой: 69–79 %
Итак, цифра, которую мы получили в итоге, очень похожа на наше первое предположение! Но главное то, что теперь у нас есть автоматизированный метод, который каждый может использовать и понять, и нам не нужно постоянно оглядываться на график и гадать каждый раз, когда мы получаем какие-то новые данные — мы можем просто подставить данные, и мы будет иметь пересмотренный прогноз.
Как и обещал, я привел в порядок файл Excel и разместил его на нашем веб-сайте вместе с другими нашими загрузками и презентациями — вы можете найти ссылку в конце этого поста.
Дополнительные соображения
Это был один из методов прогнозирования декомпозиции временных рядов. Для простоты я только что рассмотрел один конкретный тип. Однако есть много вещей, которые вы могли бы изменить или сделать немного по-другому:
- Во-первых, о каком росте на самом деле свидетельствуют данные? Здесь для простоты мы предположили, что это линейный тренд, но он может быть, например, экспоненциальным. Те же методы можно использовать для декомпозиции, но расчет тренда должен быть другим.
- Во-вторых, как насчет типа сезонности? Здесь у нас есть шаблон, который повторяется каждую неделю; однако часто в данных присутствуют и другие закономерности. Может быть, у вас обычный загруженный месяц, и вам нужен месячный график. Или может быть типичный годовой пик.Используемая методология будет такой же, как показано здесь, только сезонные закономерности и идентификаторы должны быть другими.
- Тогда есть разница между аддитивной (которую мы рассмотрели здесь) и мультипликативной декомпозицией временных рядов. Здесь мы вычтем сезонность и добавим ее обратно, но мы могли бы разделить ее и снова умножить. Попробуйте и посмотрите, в чем разница!
- И, конечно же, существует множество различных способов вычисления ошибки, а также различных способов ее добавления обратно. Действительно ли мы хотим получить среднее значение?
Оставьте комментарий, если есть какие-либо конкретные варианты, примеры которых вы хотели бы увидеть.
Ограничения
В любом случае, теперь у нас есть идеальный прогноз — или нет? Действительно ли процессор гарантированно продолжит расти в будущем? При прогнозировании декомпозиции временных рядов важно помнить, с чего вы начинаете: данные, которые вы анализируете, в будущем будут вести себя так же, как и в прошлом.
- Новая версия увеличивает/уменьшает затраты ресурсов?
- У компании есть планы по увеличению числа пользователей, продаж, рейсов и т. д.
- Серверы объединены вместе или приложения перемещены с одного на другой?
Возможно, настоящий ЦП будет выглядеть так…
Подводя итог, можно сказать, что рассмотренные нами методы прогнозирования очень полезны, легко поддаются автоматизации и просты для понимания. Но чтобы вывести это на новый уровень, нам нужен бизнес-прогноз, учитывающий будущие планы и проекты. Опять же, мы можем автоматизировать это в Excel, хотя для этого потребуется больше данных и гораздо больше размышлений — может быть, для этого нужна еще одна запись в блоге!
В этом тематическом исследовании обсуждается декомпозиция временных рядов по набору данных и решения, иллюстрирующие ее применение с использованием реальных данных. Используемые данные взяты из классической статьи по прикладной эконометрике (Davidson et al., 1978). В дополнение к файлу Excel с необходимыми данными, решениями и сопроводительными примечаниями в разделах ниже представлена информация о: характере декомпозиции временных рядов; привлекательность и информативность выбранного эмпирического средства; и возможности для обсуждения соответствующих вопросов, касающихся декомпозиции временных рядов, на выбранном эмпирическом примере на семинаре или в классе.
2. Фон
Декомпозиция временных рядов — это знакомый компонент курсов и текстов по прогнозированию деловых и экономических данных. В своей стандартной форме классическая декомпозиция временных рядов предполагает, что интересующий ряд состоит из трех основных компонентов, которые объединяются для получения исследуемых данных. Этими тремя компонентами являются цикл тренда, сезонный компонент и нерегулярный компонент. Обычно эти компоненты обозначаются как Tt, St и E< sub>t соответственно, а интересующая серия обозначена как Yt. Тогда первоначальный вопрос касается того, как именно эти компоненты объединяются для получения интересующего ряда. Здесь возникают два предположения или подхода, поскольку классическая декомпозиция предполагает, что либо интересующий ряд дается как сумма его основных компонентов, либо вместо этого дается как их произведение. Это приводит к классической аддитивной и мультипликативной декомпозиции соответственно. Формально это можно выразить так:
Поэтому декомпозиция временных рядов начинается с предположения, что данные возникают в результате сочетания трех основных компонентов. Следующим шагом является изоляция или захват этих компонентов. Последним шагом будет использование изолированных компонентов для получения модификаций исходного ряда, которые могут представлять интерес для исследователя.
Чтобы проиллюстрировать декомпозицию временных рядов на практике и выделить ряд сопутствующих проблем, возникающих при ее применении, я использовал данные о потреблении, использованные в классической статье Дэвидсона et al. (1978) (широко известный как DHSY) в качестве транспортного средства. Помимо использования в качестве средства, облегчающего применение декомпозиции временных рядов, этот набор данных служит нескольким дополнительным целям.Во-первых, это набор данных из статьи, которая будет знакома многим студентам в результате ее центральной роли в прикладной эконометрике (она дает ранний пример использования моделирования с исправлением ошибок), эконометрической теории (это ключевая статья). в литературе об охватывающем принципе и методологии LSE или Хендри) и макроэкономике (она лежит в основе дискуссий о моделировании потребительских расходов через ее отличие от подхода Холла, основанного на рациональных ожиданиях). Во-вторых, он дает «экономический» пример в области, где часто доминируют неэкономические приложения и подходы. Под этим я подразумеваю доминирование бизнес-приложений в области (прогнозирование), представляющей интерес для студентов, изучающих бизнес, экономику и финансы. Кроме того, тексты по прогнозированию часто используют представление, которое отличается от того, что знакомо студентам-экономистам. В качестве примера рассмотрим очень популярный и превосходный текст Макридакиса et al. (1998). Хотя я использовал этот текст в качестве основного материала для аспирантского курса Бизнес и экономическое прогнозирование для студентов, изучающих бизнес и экономику в Университете Суонси (и я предполагаю, что многие коллеги в других учреждениях делают то же самое), его изложение местами отходит от того, что используется в экономике. Чтобы проиллюстрировать это, рассмотрим следующие примеры:
- Ссылка делается на «оператор обратного сдвига», а не на «оператор запаздывания», обычно рассматриваемый в эконометрике. Следовательно, отставание переменных происходит через «B», а не «L».
- Как и выше, разность обозначается перевернутой дельтой в верхнем регистре, а не дельтой в верхнем регистре, которая обычно используется в эконометрике.
- Рассматриваемая форма коэффициента неравенства Тейла — это характеристика «отсчет 1», а не характеристика «ограничение между 0 и 1», обычно используемая в эконометрике (см., например, EViews 7).
Поэтому использование данных из классической статьи по экономике является не просто приветствуемым компонентом модуля, поскольку общая проблема заключается в том, чтобы позволить учащимся более активно участвовать в исследованиях, которые они читают (просмотр, обработка и изучение данных, используемых в эмпирических исследованиях). исследования достигают этого, по крайней мере, на мой взгляд), но и как средство уравновешивания потенциального дисбаланса для студентов-экономистов.
3. Применение и проблемы
Данные DHSY, используемые в приложении для декомпозиции временных рядов, предоставляются в файле Excel DHSY_Decomposition.xlsx. Исходные данные, обеспечивающие ежеквартальные наблюдения за сезонно нескорректированными реальными потребительскими расходами в Великобритании за период с марта 1957 г. по июль 1975 г., представлены во втором столбце исходной электронной таблицы и обозначены как Yt. под>. В этом конкретном примере используется разложение временных рядов в предположении мультипликативной сезонности (то есть предполагается, что Yt = T< sub>t x St x Et). Использование данных DHSY позволяет рассматривать и обсуждать приведенные ниже вопросы, касающиеся декомпозиции временных рядов, в практическом контексте.
3.1. Использование сглаживателей скользящих средних четной длины
Проблема здесь заключается в том, что на практике часто используется сглаживание скользящих средних равной длины для захвата основного цикла тренда интересующего ряда. Это так, поскольку часто будут проверяться квартальные или месячные данные, и, следовательно, 4 MA или 12 MA позволяют сглаживать в течение года. Однако использование сглаживателя четной длины приводит к циклу тренда, который попадает между наблюдениями. Обе эти точки могут быть проиллюстрированы здесь, поскольку сглаживание четырех наблюдений четко отражает полный календарный год, что приводит к более сглаженным наблюдениям, в которых наблюдения попадают между кварталами. Например, первое значение 4 MA основано на наблюдениях Yt за март, июль, сентябрь и декабрь 1957 г. и, таким образом, приходится на период между июлем и сентябрем 1957 г. Аналогичным образом, второе значение 4 MA приходится на период с сентября по декабрь 1957 г.
3.2. Использование центрированных скользящих средних и удаление тренда данных
Как отмечалось выше, 4 MA предоставляет значения, попадающие между фактическими периодами времени. Следовательно, центрированная скользящая средняя 2 x 4 приходится на реальный период (в первую очередь сентябрь 1957 г.). Этот вопрос можно использовать, чтобы проиллюстрировать различие между необходимостью центрирования сглаживателей MA четной и нечетной длины, а также то, что центрированные сглаживатели эквивалентны взвешенным сглаживателям другого порядка. В этом случае 2 x 4 MA эквивалентны взвешенному 5 MA, и из-за нечетной длины сглаживание сосредоточено на реальном наблюдении.
3.3. «Драматичное» предположение об изоляции сезонной составляющей
После определения подходящего сглаживателя и исключения цикла тренда из исходного ряда результирующий ряд без тренда представляет собой комбинацию сезонных и нерегулярных компонентов. Для настоящего примера, работающего в предположении мультипликативной сезонности, это задается как:
В своей стандартной форме классическая декомпозиция предполагает, что нерегулярная составляющая может быть удалена, и, следовательно, сезонная составляющая может быть выделена путем усреднения. То есть сезонную составляющую для конкретного сезона (в данном случае для конкретного квартала) можно найти, усредняя значения St x Et для этого сезона за все доступные годы. Другими словами, предполагается, что изначально случайный характер нерегулярной составляющей означает, что ее можно «усреднить». Текущий набор данных можно использовать, чтобы проиллюстрировать это, попросив учащихся вычислить среднее значение St x Et для марта, прежде чем повторить это для июля, сентября и декабря. В ситуациях с семинарами я не использовал упрощение для этого, поскольку хочу убедиться, что механика и последствия этого весьма драматического предположения о сезонности признали и поняли. Следовательно, требуемые члены вводятся в команду усреднения с интервалом в четыре периода между ячейками, усиливающими форму предпринятого упражнения. Например, при расчете первого сезонного значения требуется среднее значение по ячейкам от E5, E9 до E73. Механический характер этого упражнения и посещение каждого из «сентябрей» (в этом первом случае) в выборке ясно показывает, что для удаления нерегулярного компонента требуется среднее значение по всем этим кварталам. Возможно, что более важно, последующее повторение этого для декабря, марта и июля, а затем копирование производных сезонных условий по всей выборке показывает, что разложение дает сезонный член для каждого сезона, который является фиксированным по всей выборке. То есть сезонность для сентября одинакова для каждого года выборки, как и для марта, июля и декабря. Вот почему изоляция сезонной составляющей при стандартной форме декомпозиции временных рядов упоминается выше как «драматическая», поскольку она придает сезонной составляющей фиксированный характер. В рассматриваемом здесь учебном приложении этот вопрос может быть связан с обсуждением графиков сезонных подсерий и отсутствием вариаций внутри сезонов через во времени и, следовательно, с эквивалентностью сезонных компоненты и их средние линии.
3.4. Графики сезонных и несезонных рядов
Применение декомпозиции позволяет получать и рассматривать различные модифицированные версии исходных данных. Возможно, наиболее очевидным из них является сезонно скорректированная версия исходных данных, в которой сезонный компонент устраняется путем деления. Альтернативное выражение:
График этих двух рядов представлен во второй электронной таблице в файле Excel. Такой график дает возможность обсудить, в какой степени относительно простой метод может устранить сезонность за счет рассмотрения степени, в которой качающийся характер исходного ряда без сезонной корректировки (NSA) отсутствует в сезонно скорректированном (SA ) его версия.
4. Заключительные замечания
Настоящее тематическое исследование стремилось предоставить соответствующий набор данных для применения, обсуждения и иллюстрации характера и последствий декомпозиции временных рядов. Надеемся, что в этой серии также представлен пример, который представляет интерес и знаком для студентов-экономистов.
Ссылки
Макридакис С., Уилрайт С. и Хайндман Р. Прогнозирование: методы и приложения (3-е издание), Нью-Йорк: Wiley.
Декомпозиция временных рядов предполагает представление ряда как комбинации компонентов уровня, тренда, сезонности и шума.
Декомпозиция предоставляет полезную абстрактную модель для анализа временных рядов в целом и для лучшего понимания проблем, возникающих при анализе и прогнозировании временных рядов.
В этом руководстве вы узнаете о декомпозиции временных рядов и о том, как автоматически разбивать временные ряды на компоненты с помощью Python.
После завершения этого руководства вы будете знать:
- Метод анализа декомпозиции временных рядов и то, как он может помочь в прогнозировании.
- Как автоматически разложить данные временных рядов в Python.
- Как разложить задачи на аддитивные и мультипликативные временные ряды и построить график результатов.
Начните свой проект с моей новой книги «Прогнозирование временных рядов с помощью Python», включающей пошаговые руководства и файлы исходного кода Python для всех примеров.< /p>
Приступим.
- Обновлено, апрель 2019 г.: обновлена ссылка на набор данных.
- Обновлено, август 2019 г.: обновлена загрузка данных для использования нового API.
Как разложить данные временных рядов на тренд и сезонность
Фото Терри Робинсона, некоторые права защищены.
Компоненты временных рядов
Полезной абстракцией для выбора методов прогнозирования является разбиение временного ряда на систематические и несистематические компоненты.
- Систематический: компоненты временного ряда, которые имеют последовательность или повторяемость и могут быть описаны и смоделированы.
- Несистематические: компоненты временного ряда, которые нельзя смоделировать напрямую.
Считается, что данный временной ряд состоит из трех систематических компонентов, включая уровень, тенденцию, сезонность, и одного несистематического компонента, называемого шумом.
Эти компоненты определяются следующим образом:
- Уровень: среднее значение в серии.
- Тенденция: увеличение или уменьшение значения в ряду.
- Сезонность: повторяющийся краткосрочный цикл в ряду.
- Шум: случайное изменение в ряду.
Перестаньте учиться прогнозировать временные ряды медленно!
Пройдите мой бесплатный 7-дневный курс электронной почты и узнайте, как начать работу (с образцом кода).
Нажмите, чтобы зарегистрироваться, а также получить бесплатную электронную версию курса в формате PDF.
Начните БЕСПЛАТНЫЙ мини-курс прямо сейчас!
Объединение компонентов временных рядов
Серия считается совокупностью или комбинацией этих четырех компонентов.
Все серии имеют уровень и шум. Компоненты тренда и сезонности являются необязательными.
Полезно думать о компонентах как об аддитивной или мультипликативной комбинации.
Аддитивная модель
Аддитивная модель предполагает, что компоненты складываются следующим образом:
Аддитивная модель является линейной, в ней изменения во времени последовательно вносятся в одну и ту же величину.
Линейный тренд — это прямая линия.
Линейная сезонность имеет одинаковую частоту (ширина циклов) и амплитуду (высота циклов).
Мультипликативная модель
Мультипликативная модель предполагает, что компоненты перемножаются следующим образом:
Мультипликативная модель является нелинейной, например квадратичной или экспоненциальной. Изменения увеличиваются или уменьшаются со временем.
Нелинейный тренд представляет собой кривую линию.
Нелинейная сезонность имеет возрастающую или уменьшающуюся частоту и/или амплитуду с течением времени.
Разложение как инструмент
Это полезная абстракция.
Декомпозиция в основном используется для анализа временных рядов, а в качестве инструмента анализа ее можно использовать для информирования моделей прогнозирования о вашей проблеме.
Он обеспечивает структурированный подход к проблеме прогнозирования временных рядов, как в целом с точки зрения сложности моделирования, так и в частности с точки зрения того, как наилучшим образом отразить каждый из этих компонентов в заданной модели.
О каждом из этих компонентов вам, возможно, придется подумать и решить во время подготовки данных, выбора модели и ее настройки. Вы можете явно решить эту проблему с помощью моделирования тенденции и вычитания ее из ваших данных или неявно, предоставив достаточно истории для алгоритма, чтобы смоделировать тенденцию, если она может существовать.
Вы можете или не можете быть в состоянии четко или идеально разбить ваш конкретный временной ряд с помощью аддитивной или мультипликативной модели.
Реальные проблемы — это беспорядок и шум. Могут быть аддитивные и мультипликативные компоненты. Тенденция роста может сменяться тенденцией к снижению. К повторяющимся сезонным компонентам могут быть примешаны неповторяющиеся циклы.
Тем не менее, эти абстрактные модели представляют собой простую основу, которую можно использовать для анализа данных и изучения способов анализа и прогнозирования проблемы.
Автоматическая декомпозиция временных рядов
Существуют методы автоматической декомпозиции временного ряда.
Библиотека statsmodels обеспечивает реализацию наивного, или классического, метода декомпозиции в функции, называемой Season_decompose(). Для этого необходимо указать, является ли модель аддитивной или мультипликативной.
И то, и другое даст результат, и вы должны быть осторожны и критически интерпретировать результат. Просмотр графика временного ряда и некоторых сводных статистических данных часто может быть хорошим началом, чтобы понять, выглядит ли ваша проблема с временными рядами аддитивной или мультипликативной.
Функция seasonal_decompose() возвращает объект результата. Объект результата содержит массивы для доступа к четырем частям данных из декомпозиции.
Например, во фрагменте ниже показано, как разложить ряд на трендовые, сезонные и остаточные компоненты, предполагая аддитивную модель.
Объект результата обеспечивает доступ к тренду и сезонным рядам в виде массивов.Он также обеспечивает доступ к остаткам, которые представляют собой временные ряды после удаления тренда и сезонных компонентов. Наконец, также сохраняются исходные или наблюдаемые данные.
Читайте также: