Введение в алгоритмы машинного обучения: линейная регрессия
Данные и алгоритмы находятся в центре внимания специалиста по науке о данных. Понимание данных помогает ему принимать приоритетные решения, а понимание алгоритмов — моделировать данные в соответствии с точными расчетами. Линейная регрессия считается отправным пунктом, с которого новички в области науки о данных приступают к моделированию данных.
Цель этой статьи — дать представление об алгоритме линейной регрессии, его реализации на языке программирования Python и практическом применении. Для начала выясним, что такое алгоритм линейной регрессии.
Что такое линейная регрессия?
Линейная регрессия — это алгоритм машинного обучения, который в основном используется для проведения регрессионного анализа. Хотя на регрессионный анализ настроено множество моделей, все они являются оптимизированными версиями двух базовых регрессионных моделей — простой линейной регрессии и множественной линейной регрессии.
Несмотря на то, что регрессионный анализ можно рассматривать и с точки зрения статистики, он, как и другие модели МО, нацелен на минимизацию ошибок. Линейная регрессия использует только линейную функцию, помогая в моделировании взаимосвязи между зависимыми и независимыми переменными.
Стоит отметить, что модели линейной регрессии давно и активно используются в анализе данных, в частности в одном из ведущих его разделов — анализе временных рядов. Посмотрим, как работают эти модели.
Как работает линейная регрессия?
Регрессионный анализ осуществляется путем оценки коэффициента линейного уравнения. При этом может быть одна или несколько независимых переменных, которые коррелируют и лучше всех подходят для прогнозирования значения зависимой переменной.
Можно считать, что регрессионный анализ выполняется путем подгонки прямой линии к данным, которые стремятся к уменьшению расхождения между фактическими и прогнозируемыми значениями зависимой переменной.
Из множества методов обучения линейных регрессионных моделей по данным наиболее распространенным является метод наименьших квадратов. Он также называется регрессией наименьших квадратов. Попробуем разобраться в линейной регрессии на примере данных о росте и весе учеников в классе.
Будем исходить из того, что с увеличением роста ученика увеличивается и его вес. Нанесение этих данных между двумя координатами будет выглядеть следующим образом:
Изучив эти данные, регрессионная модель может предсказать рост ученика по его весу. Это процесс нахождения простой линейной зависимости между весом и ростом.
Математически такая линейная зависимость выражается следующим образом:
Это простое линейное уравнение, которое позволяет предсказать значение y (рост) по заданному значению x (вес). Построить линию с помощью этого уравнения можно путем нахождения значений m (коэффициент) и c (точка пересечения с осью y).
После нахождения всех значений и построения соответствующих линий модель готова к использованию для прогноза. В качестве результата модель выдаст значение y. Перед началом моделирования данных с помощью модели линейной регрессии необходимо рассмотреть некоторые допущения, связанные с этой моделью.
Допущения
С работой любой линейной регрессионной модели принято связывать четыре основных допущения.
- Линейность. Между средним значением зависимой переменной и независимыми переменными должна существовать линейная связь. Эта связь измеряется путем выявления изменений зависимой переменной в связи с изменениями независимых переменных.
- Гомоскедастичность. В линейной регрессии гомоскедастичность имеет важное значение, поскольку представляет собой степень подгонки модели под данные. Она определяет дисперсию по величине погрешности или остатков: если дисперсия увеличивается, значит модель подогнана плохо.
- Независимость. Собранные точки данных должны быть независимы друг от друга.
- Нормальность. Должно быть нормальное распределение для любого из фиксированных значений зависимой и независимой переменных.
Это были основные допущения, принимаемые во внимание при моделировании данных с помощью модели линейной регрессии. Теперь перейдем к рассмотрению реализации модели простой линейной регрессии.
Реализация
Регрессионные модели могут быть реализованы с помощью различных инструментов, таких как R, Python, MATLAB и Excel. В этой статье будет использован язык программирования Python и его библиотека Sklearn, которая предоставляет функции для реализации различных регрессионных моделей в пакете Linear_model . Весь список функций для регрессионных моделей можно найти здесь. Начнем с импорта и подготовки данных.
Подготовка данных
Чтобы избавиться от таких процессов, как EDA, валидация данных и т. д., будем использовать предоставленный Sklearn набор данных “Diabetes” (“Диабет”). Это позволит сразу перейти от загрузки данных к их разбиению.
from sklearn.datasets import load_diabetes
var_X, var_y = load_diabetes(return_X_y=True)
print(“number of independent variables:”, var_X.shape[1:])
print(“number of data points:”, var_y.shape)
Как видите, в этом наборе данных 10 независимых переменных и 442 точки данных. Для оптимизации процесса можно выбрать только одну независимую переменную, чтобы применить к данным простую линейную регрессионную модель.
Теперь необходимо разделить набор данных для обучения и тестирования регрессионной модели.
from sklearn.model_selection import train_test_split
X_train, X_actual, y_train, y_actual = train_test_split(
var_X, var_y, test_size=0.10, random_state=42)
print(“number of data points in training data”, X_train.shape, X_train.shape)
print(“number of data points in testing data”, X_actual.shape, y_actual.shape)
Как видите, сформированы разделенные наборы данных — для обучения и для тестирования. Теперь можно импортировать и обучать модель, используя обучающие наборы данных.
Моделирование
from sklearn.linear_model import LinearRegression
LineR = LinearRegression()
Теперь можно подогнать модель для прогнозирования значений на основе данных.
Прежде чем увидеть, что предсказала модель, визуализируем тестовые данные.
На приведенной выше визуализации виден разброс данных между координатами, а теперь посмотрим на предсказанные моделью значения.
Здесь можно увидеть, как работала модель для составления прогнозов. Теперь, имея представление о реализации простой регрессионной модели, перейдем к изучению оценочных метрик, которые используются для оптимизации работы модели.
Метрики оценки
Оценка любой модели машинного обучения — важнейшая задача, сопутствующая моделированию данных. Кроме того, некоторые метрики помогают оценить саму подогнанную модель. В этой статье будут представлены официально принятые метрики оценки модели линейной регрессии. Познакомьтесь с их интерпретациями.
1. MAE (mean absolute error, средняя абсолютная ошибка) — это универсальная метрика, которая позволяет узнать разницу между фактическими и прогнозируемыми значениями. Она рассчитывается по следующей формуле:
- n = количество точек данных;
- y = фактический выход;
- Ŷ = прогнозируемый выход.
2. MSE (mean squared error, средняя квадратичная ошибка) можно рассматривать как уточненную MAE, поскольку она помогает находить ошибки с помощью квадратичной разницы между фактическими и прогнозируемыми значениями. Ниже приведена формула, которую используют для вычисления этой метрики:
3. RMSE (root mean squared error, корень квадратный из средней квадратичной ошибки) также показывает разницу между фактическими и прогнозируемыми значениями, извлекая корень квадратный из средней квадратичной ошибки.
4. RMSLE (root mean squared logarithmic error, корень квадратный из средней квадратичной логарифмической ошибки) использует логарифмически преобразованные прогнозируемые и фактические значения, проверяемые по корню квадратному из средней квадратичной ошибки. Чтобы избежать натурального логарифма нуля, в оба вида значений добавляется 1. Для оценки моделей применяется следующая формула этой метрики:
5. R² (R-squared, R-квадрат) также считается универсальной метрикой, применяемой для оценки эффективности регрессионной модели. R-квадрат получают путем определения доли вариаций зависимой переменной, что прогнозируется по независимой переменной. Рассчитывается эта метрика по следующей формуле:
- R² = коэффициент детерминации;
- RSS (root of sum of squares) = остаточная сумма квадратов;
- TSS (total sum of squares) = полная сумма квадратов.
6. Adjusted R² (скорректированный R²) необходим, когда в данные добавляются новые признаки. Эта метрика компенсирует недостатки R-квадрата, которые уменьшаются или увеличиваются при увеличении дисперсии признаков. Данная метрика рассчитывается по формуле:
k = количество независимых переменных.
Все перечисленные метрики используются для оценки моделей. Библиотека Sklearn предоставляет модули для этих оценочных метрик, которые можно найти здесь. Теперь перейдем к вопросу о применении регрессионных моделей.
Применение линейной регрессии
На практике линейная регрессия используется в самых различных сферах. Условно их можно разделить на две основные категории.
- Прогнозирование. Если необходимо сделать прогноз на основе прошлых данных, а зависимые и независимые переменные имеют линейную корреляцию, используют модель линейной регрессии. К этой категории можно отнести прогнозирование ситуации на фондовом рынке, прогноз погоды, прогнозирование продаж и т. д.
- Оптимизация прочности связей. Иногда при анализе данных может потребоваться узнать тип связи и силу связи двух или более переменных. В таких ситуациях используют линейную регрессию, которая помогает понять, как изменится данная переменная при изменении других переменных. Оптимизация прочности связи находит применение в медицине, розничной торговле, сельском хозяйстве.
Заключение
В данной статье были изложены базовые понятия, касающиеся линейного регрессионного моделировании и его реализации с помощью языка программирования Python. Эта тема науки о данных связана с контролируемыми данными, где зависимые переменные являются непрерывными и зависят от независимой переменной. Ниже перечислены практические шаги, которые рекомендуется сделать после прочтения этой статьи.
- Проверка корректности допущений.
- Оценка модели.
- Нахождение коэффициента.
- Определение ошибки.
- Использование множественной линейной регрессии.
Здесь можно найти фрагменты кода из статьи.
- Как использовать MSE в науке о данных
- 3 случая, когда линейная модель может ошибаться
- ТОП-4 официальных сайта МО-библиотек и способы их использования
Читайте нас в Telegram, VK и Дзен
Линейная регрессия с Python
Алгоритм линейной регрессии с использованием языка программирования Python.
В машинном обучении линейная регрессия – это статистическая процедура для вычисления значения зависимой переменной из независимой переменной. В этой статье я познакомлю вас с линейной регрессией с помощью языка программирования Python.
Линейная регрессия – это алгоритм машинного обучения, который использует зависимую переменную для прогнозирования будущих результатов на основе одной или нескольких независимых переменных. Он измеряет связь между двумя переменными. Линейный регрессионный анализ – самый широко используемый из всех алгоритмов машинного обучения.
Проще говоря, линейная регрессия – это статистический тест, применяемый к набору данных для определения и количественной оценки взаимосвязи между рассматриваемыми переменными. Он прост в использовании и до сих пор считается одним из самых мощных алгоритмов.
Использование алгоритма линейной регрессии важно по следующим причинам:
- Описание: помогает проанализировать силу связи между результатом (зависимой переменной) и переменными-предикторами.
- Корректировка: регулирует влияние ковариата или искажающих факторов.
- Предикторы: помогает оценить важные факторы риска, влияющие на зависимую переменную.
- Степень прогноза: помогает проанализировать величину изменения независимой переменной «единицы», которое может повлиять на зависимую переменную.
- Прогнозирование: помогает количественно оценить новые случаи.
Линейная регрессия с Python
В этом разделе я расскажу, как реализовать линейную регрессию с помощью языка программирования Python. Я начну эту задачу с импорта необходимых библиотек Python:
import matplotlib.pylab as plt import numpy as np %matplotlib inline from sklearn.linear_model import LinearRegression from sklearn import datasets
Теперь я загружу набор данных:
diabetes = datasets.load_diabetes()
Обучение линейной регрессии с помощью Python
Чтобы обучить алгоритм линейной регрессии с использованием языка программирования Python, я сначала разделю набор данных на 80% обучающих и 20% тестовых наборов:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=0)
Теперь давайте обучим модель:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=0) # There are three steps to model something with sklearn # 1. Set up the model model = LinearRegression() # 2. Use fit model.fit(X_train, y_train)
Теперь давайте построим нашу обученную модель с помощью библиотеки matplotlib в Python:
y_pred = model.predict(X_test) plt.plot(y_test, y_pred, '.') # plot a line, a perfit predict would all fall on this line x = np.linspace(0, 330, 100) y = x plt.plot(x, y) plt.show()
Модель линейной регрессии используется для проверки взаимосвязи между двумя переменными в форме уравнения. Вы можете реализовать эту модель без использования какой-либо библиотеки, например, sklearn, которую вы можете изучить здесь.
Надеюсь, вам понравилась эта статья о линейной регрессии с языком программирования Python.
Что такое линейная регрессия?
Линейная регрессия — это метод анализа данных, который предсказывает ценность неизвестных данных с помощью другого связанного и известного значения данных. Он математически моделирует неизвестную или зависимую переменную и известную или независимую переменную в виде линейного уравнения. Например, предположим, что у вас есть данные о ваших расходах и доходах за прошлый год. Методы линейной регрессии анализируют эти данные и определяют, что ваши расходы составляют половину вашего дохода. Затем они рассчитывают неизвестные будущие расходы, сокращая вдвое будущий известный доход.
Почему линейная регрессия важна?
Модели линейной регрессии относительно просты и предоставляют легко интерпретируемую математическую формулу для создания прогнозов. Линейная регрессия – это признанный статистический метод, который легко применяется к программному обеспечению и вычислениям. Компании используют его для надежного и предсказуемого преобразования необработанных данных в бизнес-аналитику и полезную аналитику. Ученые во многих областях, включая биологию и поведенческие, экологические и социальные науки, используют линейную регрессию для проведения предварительного анализа данных и прогнозирования будущих тенденций. Многие методы науки о данных, такие как машинное обучение и искусственный интеллект, используют линейную регрессию для решения сложных задач.
Как работает линейная регрессия?
По своей сути простой метод линейной регрессии пытается построить линейный график между двумя переменными данных, x и y. Как независимая переменная x строится вдоль горизонтальной оси. Независимые переменные также называются независимыми переменными или предикторными переменными. Зависимая переменная y нанесена на вертикальную ось. Значения y также можно называть переменными отклика или прогнозируемыми переменными.
Этапы линейной регрессии
Для этого обзора рассмотрим простейшую форму уравнения линейного графика между y и x; y = c*x+m, где c и m постоянны для всех возможных значений x и y. Например, предположим, что входной набор данных для (x, y) был (1,5), (2,8) и (3,11). Чтобы определить метод линейной регрессии, необходимо выполнить указанные ниже шаги.
- Постройте прямую линию и измерьте корреляцию между 1 и 5.
- Продолжайте менять направление прямой линии для новых значений (2,8) и (3,11), пока все значения не подойдут.
- Определите уравнение линейной регрессии как y = 3 * x + 2.
- Экстраполировать или предсказать, что y равно 14, когда x равно
Что такое линейная регрессия в машинном обучении?
В машинном обучении компьютерные программы, называемые алгоритмами, анализируют большие наборы данных и работают в обратном направлении от этих данных для расчета уравнения линейной регрессии. Специалисты по обработке данных сначала обучают алгоритм на известных или маркированных наборах данных, а затем используют алгоритм для прогнозирования неизвестных значений. Реальные данные сложнее, чем в предыдущем примере. Вот почему линейный регрессионный анализ должен математически изменять или преобразовывать значения данных, чтобы соответствовать указанным ниже четырем предположениям.
Линейная зависимость
Между независимыми и зависимыми переменными должна существовать линейная зависимость. Чтобы определить эту взаимосвязь, специалисты по обработке данных создают точечную диаграмму – случайную коллекцию значений x и y – чтобы увидеть, падают ли они вдоль прямой линии. В противном случае можно применить нелинейные функции, такие как квадратный корень или log, для математического создания линейной зависимости между двумя переменными.
Остаточная независимость
Специалисты по обработке данных используют невязки для измерения точности прогнозирования. Невязка – это разница между наблюдаемыми данными и прогнозируемым значением. Остатки не должны иметь идентифицируемой закономерности между ними. Например, вы не хотите, чтобы остатки со временем увеличивались. Для определения остаточной независимости можно использовать различные математические тесты, такие как тест Дурбина-Уотсона. Фиктивные данные можно использовать для замены любых вариаций данных, таких как сезонные данные.
Нормальность
Методы построения графиков, такие как графики Q-Q, определяют, нормально ли распределены невязки. Невязки должны располагаться вдоль диагональной линии в центре графика. Если невязки не нормализованы, можно проверить данные на случайные выбросы или нетипичные значения. Устранение выбросов или выполнение нелинейных преобразований может решить проблему.
Гомоскедастичность
Гомоскедастичность предполагает, что невязки имеют постоянную дисперсию или стандартное отклонение от среднего для каждого значения x. В противном случае результаты анализа могут быть неточными. Если это предположение не выполняется, возможно, придется изменить зависимую переменную. Поскольку дисперсия возникает естественным образом в больших наборах данных, имеет смысл изменить масштаб зависимой переменной. Например, вместо того, чтобы использовать численность населения для прогнозирования количества пожарных частей в городе, можно использовать численность населения для прогнозирования количества пожарных частей на человека.
Какие существуют типы линейной регрессии?
Некоторые типы регрессионного анализа больше подходят для обработки сложных наборов данных, чем другие. Далее приведены некоторые примеры.
Простая линейная регрессия
Простая линейная регрессия определяется линейной функцией:
β0 и β1 – две неизвестные константы, представляющие наклон регрессии, тогда как ε (эпсилон) – член ошибки.
Можно использовать простую линейную регрессию для моделирования взаимосвязи между двумя переменными, например:
- Количество осадков и урожайность
- Возраст и рост у детей
- Температура и расширение металлической ртути в термометре
Несколько линейных регрессий
При множественном линейном регрессионном анализе набор данных содержит одну зависимую переменную и несколько независимых переменных. Функция линии линейной регрессии изменяется и включает в себя большее количество факторов, как указано ниже.
Y = β0*X0 + β1X1 + β2X2+… βnXn + ε
По мере увеличения количества переменных-предикторов константы β также соответственно увеличиваются.
Множественная линейная регрессия моделирует несколько переменных и их влияние на результат:
- Количество осадков, температура и использование удобрений на урожайность
- Диета и упражнения при сердечных заболеваниях
- Рост заработной платы и инфляция ставок по жилищным кредитам
Логистическая регрессия
Специалисты по обработке данных используют логистическую регрессию для измерения вероятности возникновения события. Предсказание – это значение от 0 до 1, где 0 означает маловероятное событие, а 1 – максимальную вероятность того, что оно произойдет. Логистические уравнения используют логарифмические функции для вычисления линии регрессии.
Ниже приведены несколько примеров.
- Вероятность победы или поражения в спортивном матче
- Вероятность прохождения или неудачи теста
- Вероятность того, что изображение будет фруктом или животным
Как AWS может помочь в решении задач линейной регрессии?
Amazon SageMaker – это полностью управляемый сервис, который поможет быстро подготовить, построить, обучить и развернуть высококачественные модели машинного обучения (ML). Amazon SageMaker автопилот – это универсальное автоматическое решение машинного обучения для решения проблем классификации и регрессии, таких как обнаружение мошенничества, анализ оттока и целевой маркетинг.
Amazon Redshift, быстрое и широко используемое облачное хранилище данных, изначально интегрируется с Amazon SageMaker для машинного обучения. С помощью Amazon Redshift ML можно использовать простые инструкции SQL для создания и обучения моделей машинного обучения на основе данных в Amazon Redshift. Затем эти модели можно использовать для решения всех типов задач линейной регрессии.
В чем разница между линейной регрессией и логистической регрессией?
В чем разница между линейной и логистической регрессиями?
Линейная и логистическая регрессии – это методы машинного обучения, которые делают прогнозы на основе анализа исторических данных. Например, изучая тенденции покупок клиентов в прошлом, регрессионный анализ позволяет оценить будущие продажи, что дает возможность более обоснованно осуществлять закупки товаров. Методы линейной регрессии математически моделируют неизвестный фактор по нескольким известным для точной оценки неизвестного значения. Аналогичным образом логистическая регрессия использует математические методы для нахождения взаимосвязи между двумя факторами данных. Затем эта взаимосвязь используется для прогнозирования значения одного из этих факторов на основе другого. Предсказание обычно имеет конечное количество результатов, например «да» или «нет».
Прогнозирование: линейная и логистическая регрессии
Линейная и логистическая регрессии используют математическое моделирование для прогнозирования значения выходной переменной на основе одной или нескольких входных переменных. Выходные переменные являются зависимыми переменными, а входные – независимыми.
Линейная регрессия
Каждая независимая переменная напрямую связана с зависимой и не связана с другими независимыми переменными. Эта взаимосвязь известна как линейная зависимость. Зависимая переменная обычно представляет собой значение из диапазона непрерывных значений.
Это формула или линейная функция для создания модели линейной регрессии:
y = β0 + β1X1 + β2X2 +… βnXn + ε
- y – прогнозируемая зависимая переменная
- β0 – пересечение по оси y, когда все независимые входные переменные равны нулю (0)
- β1X1 – коэффициент регрессии (B1) первой независимой переменной (X1), значение влияния первой независимой переменной на зависимую
- βnXn – коэффициент регрессии (BN) последней независимой переменной (XN) при наличии нескольких входных значений
- ε – ошибка модели
Примером линейной регрессии является прогнозирование цены на жилье (зависимая переменная) на основе количества комнат, района и возраста дома (независимые переменные).
Логистическая регрессия
Значение зависимой переменной является одним из списка конечных категорий, которые называются категориальными переменными и используют бинарную классификацию. В качестве примера можно привести результат броска шестигранного кубика. Эта связь называется логистической.
Формула логистической регрессии применяет логитное преобразование или натуральный логарифм отношения шансов к вероятности успеха или неудачи конкретной категориальной переменной.
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
- y дает вероятность успеха категориальной переменной y
- e (x) – число Эйлера, обратное функции натурального логарифма или сигмоидальной функции ln (x)
- Β0, β1X1…βnXn – имеют то же значение, что и линейная регрессия в предыдущем разделе
Примером логистической регрессии является прогнозирование вероятности того, что цена дома превысит 500 000 USD (зависимая переменная) на основе количества комнат, района и возраста жилья (независимые переменные).
В чем сходство линейной и логистической регрессий?
Линейная и логистическая регрессии имеют некоторые общие черты и схожие области применения.
Статистический анализ
Логистическая и линейная регрессии являются формами статистического анализа или анализа данных и предметом изучения науки о данных. Они используют математическое моделирование для связи набора независимых или известных переменных с зависимыми. Логистическую и линейную регрессии можно представить в виде математических уравнений или модели на графике.
Методы машинного обучения
Модели линейной и логистической регрессий применяют в контролируемом машинном обучении.
Машинное обучение под наблюдением включает в себя обучение модели путем ввода маркированных наборов данных. Известные зависимые и независимые переменные собираются исследователями. Путем ввода известных исторических данных происходит обратная инженерия математического уравнения. В конечном итоге прогнозы могут стать точными для вычисления неизвестных зависимых переменных на основе известных.
Отличие обучения под наблюдением от обучения без наблюдения заключается в том, что во втором случае маркировка данных не проводится.
Сложность обучения
Логистическая и линейная регрессии требуют значительного количества маркированных данных, чтобы модели в прогнозах стали точными. Для людей это может оказаться трудной задачей. Например, если вы хотите указать, содержит ли изображение автомобиль, все изображения должны иметь теги таких переменных, как размеры автомобиля, углы съемки, а также препятствия на дороге.
Ограниченная точность прогноза
Статистическая модель, которая сопоставляет входные данные с выходными, не обязательно подразумевает причинно-следственную связь между зависимой и независимой переменными. Как для логистической, так и для линейной регрессии корреляция не является причинно-следственной.
Чтобы использовать пример ценообразования на жилье из предыдущего раздела, предположим, что имя домовладельца входит в список независимых переменных. В таком случае имя Джона Доу связано со снижением цен на продажу жилья. В то время как линейная и логистическая регрессии всегда предсказывают снижение цен на жилье, если владельца зовут Джон Доу, логики это не так.
Основные отличия линейной и логистической регрессий
Логистическая и линейная регрессии больше всего отличаются по своим математическим подходам.
Выходное значение
Выходные данные линейной регрессии представляют собой непрерывную шкалу значений. К примеру, сюда относятся номера, километры, цена и вес.
В отличие от этого, выходным значением модели логистической регрессии является вероятность наступления фиксированного категориального события. Например, 0,76 может означать 76 % вероятности, что человек наденет синюю рубашку, а 0,22 – 22 %.
Переменная зависимость
В регрессионном анализе линия регрессии имеет форму линии графика и показывает взаимосвязь между каждой независимой и зависимой переменной.
В линейной регрессии эта линия прямая. Любые изменения независимой переменной оказывают прямое влияние на зависимую переменную.
В логистической регрессии линия регрессии представляет собой S-образную кривую, также известную как сигмовидная.
Математический тип распределения
Линейная регрессия следует нормальному или гауссовскому распределению зависимой переменной. На графике нормальное распределение изображается непрерывной линией.
Логистическая регрессия следует биномиальному распределению. Его обычно изображают в виде гистограммы.
Когда использовать линейную регрессию, а когда – логистическую
Линейную регрессию можно использовать для прогнозирования непрерывной зависимой переменной по шкале значений. Логистическая регрессия используется, когда ожидается результат бинарной операции (например, «да» или «нет»).
Примеры линейной регрессии:
- Прогнозирование роста взрослого человека на основе роста матери и отца.
- Прогнозирование объема продаж тыквы на основе цены, времени года и местоположения магазина.
- Прогнозирование цены авиабилета на основе пункта отправления, пункта назначения, времени года и авиакомпании.
- Прогнозирование количества отметок «нравится» в социальных сетях на основе постера, количества естественных подписчиков, содержания поста, времени и даты публикации.
Примеры логистической регрессии:
- Прогнозирование сердечного заболевания у человека на основе ИМТ, статуса курения и генетической предрасположенности.
- Прогнозирование наиболее популярных в розничной торговле предметов одежды по цвету, размеру, типу и цене.
- Прогнозирование возможности увольнения сотрудника в текущем году на основе данных о размере заработной платы, количестве дней, проведенных в офисе, количестве встреч, количестве отправленных электронных писем, коллективе и стаже работы.
- Прогнозирование команды отдела продаж, которая заключит контрактов на сумму более 1 млн долларов в течение года, на основе данных о продажах за предыдущий год, стаже работы и размере вознаграждения.
Краткое описание различий линейной и логистической регрессий
Линейная регрессия
Логистическая регрессия
Статистический метод прогнозирования выходного значения по набору входных значений.
Статистический метод прогнозирования вероятности принадлежности выходного значения к определенной категории по набору категориальных переменных.
Линейная зависимость, представленная прямой линией.
Логистическая или сигмоидальная зависимость, представленная S-образной кривой.
Тип обучения под наблюдением