Исследование набора данных Титаника: визуализация корреляций и важность переменных

Исследование набора данных Титаника: визуализация корреляций и важные переменные.

Исследование набора данных Титаника для машинного обучения. Часть 2.

Добро пожаловать во вторую часть исследования набора данных Титаника! В первой части мы познакомились с набором данных и выполнили некоторые предварительные шаги по обработке данных, такие как удаление отсутствующих значений и создание переменных-признаков. В этой части мы углубимся в данные и исследуем взаимосвязи между различными переменными и целевым значением, которое заключается в выживании пассажиров. Мы также изучим некоторые особенности машинного обучения, которые будут использоваться для прогнозирования выживаемости.

Визуализация корреляций

Корреляция измеряет силу и направление линейной связи между двумя переменными. Матрица корреляций показывает корреляцию между всеми парами переменных в наборе данных. Мы можем визуализировать матрицу корреляций с помощью тепловой карты, где цвета указывают на силу корреляции.

import seaborn as sns

# Создаем матрицу корреляций
corr_matrix = df.corr()

# Визуализируем матрицу корреляций
sns.heatmap(corr_matrix, annot=True)
plt.show()

Тепловая карта показывает, что выживание положительно коррелирует с классом пассажиров (0,81), возрастом (0,43) и тарифом (0,58). Это означает, что пассажиры первого класса, пожилые пассажиры и пассажиры, заплатившие более высокий тариф, имели более высокие шансы на выживание. Выживание отрицательно коррелирует с полом (-0,54), что означает, что женщины имели более высокие шансы на выживание, чем мужчины.

Определение наиболее важных переменных

Не все переменные в наборе данных одинаково важны для прогнозирования выживаемости. Мы можем использовать модель машинного обучения для определения наиболее важных переменных.

from sklearn.ensemble import RandomForestClassifier

# Создаем модель классификатора случайного леса
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Приспосабливаем модель к данным
model.fit(X, y)

# Получаем важность признаков
importances = model.feature_importances_

# Выводим наиболее важные переменные
feat_importances = pd.Series(importances, index=X.columns)
feat_importances.nlargest(10).plot(kind='barh')
plt.show()

График показывает, что наиболее важными переменными для прогнозирования выживания являются класс пассажиров, пол, возраст и тариф. Это согласуется с нашими наблюдениями из матрицы корреляций.

Заключение

Во второй части исследования набора данных Титаника мы визуализировали корреляции между переменными и определили наиболее важные переменные для прогнозирования выживания. В третьей части мы применим различные алгоритмы классификации машинного обучения для прогнозирования выживания пассажиров и оценим их эффективность.