Регрессионный анализ в Excel: лучшие практики

Обычно я использую Python для проведения регрессионного анализа, так как там проще подготавливать данные и доступны сложные модели. Однако для новичков (особенно в учебных целях) нужен более простой подход. В этой статье я покажу, как проводить базовый регрессионный анализ в Excel. Все будет понятно, просто и с пошаговым описанием, а также с картинками. Поехали!

Эта статья направлена в первую очередь на инструменты. Читатель должен самостоятельно разбираться в своих задачах, поскольку никакой инструмент не сможет это сделать за вас (за исключением, возможно, некоторых типов сетей DQN, если применять их правильно). Я не претендую на математическую статистику, когда речь идет о Excel.

Зачем это нужно?

Регрессионный анализ в Excel: лучшие практики

Регрессионный анализ играет важную роль в статистических исследованиях, позволяя выявить зависимость между различными переменными. В повседневной жизни этот метод помогает предсказывать значения неизвестных величин на основе имеющихся данных. Например, мы можем попытаться предсказать цену биткоина на следующий день, но лучше не рисковать.

Шаг 1 – Подготовка данных

Для проведения исследования необходимо подготовить исходные данные – необходимо сформировать два столбца (две переменные), на основе которых будет проводиться регрессионный анализ. Рекомендуется использовать простые и понятные данные, где все зависимости видны невооружённым взглядом. Более сложные зависимости могут быть обнаружены в Ваших данных.

Регрессионный анализ в Excel: лучшие практики

С целью обучения на приведенных данных можно сказать, что вторая величина представляет собой лишь утроенную первую величину с небольшим добавленным мной шумом.

Шаг 2 – Включаем пакет анализа

По умолчанию Excel не включает пакет анализа, в котором находится инструмент регрессии, поэтому его нужно включить.

Если вы не понимаете ниже приведенный текст, у нас есть подробная статья о том, как добавить пакет анализа в Excel.

Перейдите в раздел Файл – Параметры – Надстройки – Надстройки Excel – Нажмите на кнопку «Перейти» – Установите флажок рядом с «Пакет анализа» – Нажмите ОК

После выполнения этих действий на вкладке «Данные» в Excel должна появиться кнопка «Анализ данных».

Регрессионный анализ в Excel: лучшие практики

Шаг 3 – Делаем регрессионный анализ

Приступаем к основным шагам:

  1. Кликаем на кнопку «Анализ данных».
  2. Находим «Регрессия» в списке и нажимаем ОК.

Регрессионный анализ в Excel: лучшие практики

  1. Установите два интервала для входа. Я назначу второй столбец для Y, а первый – для X. Все остальное можно оставить без изменений, так как это зависит от конкретной задачи. В случае парного трейдинга очень важно получить график остатков для двух коинтегрированных пар – и функция для этого уже доступна. Однако, в нашем обучающем курсе это не требуется.

Регрессионный анализ в Excel: лучшие практики

Шаг 4 – Анализ результата

Если вы здесь, то вы, безусловно, знакомы со статистикой, и знаете, что существует множество различных способов построения регрессии (степенной, логарифмический, экспоненциальный и так далее). В данном случае мы рассматриваем самый простой вид регрессии — линейную, которая старается построить линейную функцию на основе двух переменных (или просто провести прямую через заданные точки на плоскости).

Таким образом, зная коэффициенты a и b, мы можем предсказать значение Y на основе значения X. Задача линейной регрессии заключается в поиске этих коэффициентов a и b. А теперь давайте посмотрим на результаты нашего анализа, которые представлены на отдельном листе (выделены все основные моменты):

Регрессионный анализ в Excel: лучшие практики

  • R-квадрат – это показатель точности нашей модели. Чем ближе он к 1, тем лучше. Это показывает, насколько хорошо нам удалось подогнать линию под заданный набор точек.
  • Y-пересечение – это коэффициент b в уравнении.
  • Переменная X 1 – это коэффициент a в уравнении.

Итак, мы получили отличную зависимость (R-квадрат 0,98, и это правда, потому что она была ручным образом задана с некоторым шумом), и итоговое уравнение зависимости выглядит следующим образом:

Я немного округлил первый коэффициент, но суть легко уловить. И если кто-то помнит о линейной функции, то первый коэффициент показывает основную зависимость первой величины от второй – в данном случае разница между ними примерно в 3 раза, как и задано было изначально.

Бонус (быстрый способ) – Строим график

Как и упоминал ранее, я лично не занимаюсь подобным в Excel – мои руки остаются связанными во всех направлениях. Однако я время от времени грешу построением быстрых графиков в Excel, тем более здесь есть интересный функционал построения линий регрессий, включая не только линейные.

  1. Я строю простой линейный график на основе наших двух величин (вероятно, вы уже умеете это делать). Использую те же данные.

Регрессионный анализ в Excel: лучшие практики

  1. Нажмите ПКМ по изображению (оранжевая линия) и выберите «Добавить трендовую линию».

Регрессионный анализ в Excel: лучшие практики

  1. На правой стороне Excel мы увидим список параметров для нашей регрессионной линии. Мы выбираем тип трендовой линии — в данном случае мы оставляем линейную, но обратите внимание, здесь также доступен расширенный список типов. Мы устанавливаем прогноз «вперед» еще на 10 периодов и отмечаем галочку отображения уравнения (для сравнения результатов с предыдущим пунктом).

Регрессионный анализ в Excel: лучшие практики

  1. Прямая формируется автоматически, а вместе с ней и уравнение. Стоит отметить, что уравнение прогнозируемой прямой на графике совпадает с тем, что было выведено ранее.

Надеюсь, все изложено понятно. Но еще раз – при необходимости сложных вычислений, лучше обратиться к специализированным языкам и средам.

Видео по теме

Оцените статью
Мои Советы
Добавить комментарий