В Части 3 нашей серии статей мы исследовали линейную регрессию, мощный алгоритм, используемый для прогнозирования непрерывных значений. В этой части мы рассмотрим логистическую регрессию, тесно связанный алгоритм, который используется для прогнозирования категориальных значений.
Логистическая функция - это функция, которая отображает действительное число в интервале (0, 1). Она определяется следующим уравнением:
sigmoid(x) = 1 / (1 + exp(-x))
График логистической функции имеет форму S и выглядит следующим образом:
[Изображение графика логистической функции]
Логистическая регрессия - это генеративная модель, которая использует логистическую функцию для моделирования вероятности того, что наблюдение принадлежит к определенной категории. Она моделирует вероятность как функцию набора независимых переменных.
Математически логистическая регрессия определяется следующим уравнением:
p = sigmoid(b0 + b1x1 + b2x2 + ... + bnxn)
где:
p
- вероятность того, что наблюдение принадлежит к определенной категорииb0
, b1
, ..., bn
- коэффициенты моделиx1
, x2
, ..., xn
- независимые переменныеКоэффициенты логистической регрессии интерпретируются как отношения логарифмических шансов. Это означает, что для каждого увеличения одной единицы независимой переменной отношение шансов на принадлежность к определенной категории увеличивается на exp(b)
.
Логистическая регрессия имеет широкий спектр применений, включая:
Производительность моделей логистической регрессии оценивается с помощью кривой ROC (Receiver Operating Characteristic) и меры AUC (Area Under Curve). Кривая ROC представляет собой график зависимости истинноположительной скорости от ложноположительной скорости для различных пороговых значений вероятности. AUC измеряет площадь под кривой ROC и является мерой дискриминационной способности модели.
Логистическая регрессия - это мощный алгоритм, используемый для прогнозирования категориальных значений. Она основана на логистической функции и может интерпретироваться как отношения логарифмических шансов. Логистическая регрессия имеет широкий спектр применений и оценивается с помощью кривой ROC и меры AUC.