Добро пожаловать во вторую часть исследования набора данных Титаника! В первой части мы познакомились с набором данных и выполнили некоторые предварительные шаги по обработке данных, такие как удаление отсутствующих значений и создание переменных-признаков. В этой части мы углубимся в данные и исследуем взаимосвязи между различными переменными и целевым значением, которое заключается в выживании пассажиров. Мы также изучим некоторые особенности машинного обучения, которые будут использоваться для прогнозирования выживаемости.
Корреляция измеряет силу и направление линейной связи между двумя переменными. Матрица корреляций показывает корреляцию между всеми парами переменных в наборе данных. Мы можем визуализировать матрицу корреляций с помощью тепловой карты, где цвета указывают на силу корреляции.
import seaborn as sns
# Создаем матрицу корреляций
corr_matrix = df.corr()
# Визуализируем матрицу корреляций
sns.heatmap(corr_matrix, annot=True)
plt.show()
Тепловая карта показывает, что выживание положительно коррелирует с классом пассажиров (0,81), возрастом (0,43) и тарифом (0,58). Это означает, что пассажиры первого класса, пожилые пассажиры и пассажиры, заплатившие более высокий тариф, имели более высокие шансы на выживание. Выживание отрицательно коррелирует с полом (-0,54), что означает, что женщины имели более высокие шансы на выживание, чем мужчины.
Не все переменные в наборе данных одинаково важны для прогнозирования выживаемости. Мы можем использовать модель машинного обучения для определения наиболее важных переменных.
from sklearn.ensemble import RandomForestClassifier
# Создаем модель классификатора случайного леса
model = RandomForestClassifier(n_estimators=100, random_state=42)
# Приспосабливаем модель к данным
model.fit(X, y)
# Получаем важность признаков
importances = model.feature_importances_
# Выводим наиболее важные переменные
feat_importances = pd.Series(importances, index=X.columns)
feat_importances.nlargest(10).plot(kind='barh')
plt.show()
График показывает, что наиболее важными переменными для прогнозирования выживания являются класс пассажиров, пол, возраст и тариф. Это согласуется с нашими наблюдениями из матрицы корреляций.
Во второй части исследования набора данных Титаника мы визуализировали корреляции между переменными и определили наиболее важные переменные для прогнозирования выживания. В третьей части мы применим различные алгоритмы классификации машинного обучения для прогнозирования выживания пассажиров и оценим их эффективность.