Кластеризация - это техника неконтролируемого обучения, которая заключается в разделении набора данных на группы, называемые кластерами, которые содержат похожие данные. Количество желаемых кластеров - это часто гиперпараметр алгоритма кластеризации, и его выбор может значительно повлиять на результаты.
Теория информации обеспечивает рамки для количественной оценки неопределенности в данных. Мы можем использовать эти принципы для определения оптимального количества кластеров, основываясь на том, сколько информации мы теряем при кластеризации данных.
Предположим, у нас есть набор данных с размерностью d
. Следуя информационно-теоретическому подходу, мы можем определить количество потерянной информации при кластеризации данных:
I_L = D_L - D_{L|C}
где:
I_L
- потерянная информацияD_L
- энтропия данныхD_{L|C}
- условная энтропия данных при условии известных кластеровОптимальное количество кластеров - это то, которое минимизирует I_L
.
Существуют различные методы вычисления энтропии:
H(X) = -\sum_i^n p_i * log_2 p_i
где p_i
- вероятность появления i
-го значения.
h(X) = -\int_{-\infty}^{\infty} p(x) * log_2 p(x) dx
где p(x)
- плотность вероятности.
После расчета I_L
для разных количеств кластеров мы можем построить график зависимости I_L
от количества кластеров. Оптимальное количество кластеров соответствует локтю графика, точке, где I_L
резко уменьшается, но затем стабилизируется.
Предположим, у нас есть набор данных о доходах клиентов с двумя атрибутами: доход и возраст. Мы применяем алгоритм кластеризации к данным и вычисляем I_L
для разных количеств кластеров.
Количество кластеров | Потерянная информация |
---|---|
1 | 1.5 |
2 | 0.8 |
3 | 0.6 |
4 | 0.5 |
5 | 0.4 |
Построив график I_L
в зависимости от количества кластеров, мы обнаруживаем, что локоть графика находится при трех кластерах. Следовательно, оптимальное количество кластеров для этого набора данных составляет 3.
I_L
- интуитивно понятная мера, которая представляет потерянную информацию при кластеризации.I_L
может быть вычислительно сложным, особенно для больших наборов данных.Информационно-теоретический подход предоставляет мощный способ определения оптимального количества кластеров в неконтролируемых задачах обучения. Этот подход независим от расстояния, учитывает неопределенность и обеспечивает интерпретируемые результаты. Хотя вычислительная сложность и допущения могут ограничивать его применимость, он остается ценным инструментом для исследования и оптимизации задач кластеризации.