Вероятностный главный компонентный анализ (Probabilistic PCA, PPCA) - это генеративная модель, относящаяся к семейству латентных переменных, которая стремится наложить на данные скрытую линейную структуру. Это расширение модели главного компонентного анализа (Principal Component Analysis, PCA), которое предполагает, что наблюдаемые данные порождаются линейной комбинацией скрытых латентных переменных, для которых предполагается нормальное распределение.
Модель PPCA предполагает, что наблюдаемые данные X являются линейной комбинацией k скрытых латентных переменных Z, которые подчиняются многомерному нормальному распределению:
**X** = **W** **Z** + **\mu** + **\epsilon**
где:
Обычно параметры модели PPCA, W, \mu и \Sigma, оцениваются с использованием алгоритма максимального правдоподобия (Maximum Likelihood Estimation, MLE). Цель MLE заключается в поиске параметров, которые максимизируют вероятность наблюдения данных X.
Функция правдоподобия для модели PPCA определяется следующим образом:
p(**X** | **W**, **\mu**, **\Sigma**) = (2\pi)**(-d/2) |**\Sigma**|**(-1/2)** exp(-1/2 (**X** - **W** **Z** - **\mu**)T **\Sigma**-1 (**X** - **W** **Z** - **\mu**))
Для решения задачи максимизации правдоподобия используется алгоритм итеративного совершенствования EM (Expectation-Maximization). EM-алгоритм представляет собой итерационный подход, который попеременно выполняет следующие шаги:
PPCA имеет широкий спектр применений, включая:
Вероятностный главный компонентный анализ является мощной генеративной моделью, которая позволяет захватить скрытую линейную структуру в данных. Благодаря своим многочисленным приложениям и относительно простой реализации PPCA является ценным инструментом для широкого круга задач машинного обучения.