Исследование данных с использованием Pandas: операции чтения, анализа, фильтрации и визуализации.
Исследование данных с использованием Pandas
import pandas as pd
Чтение данных
df = pd.read_csv('data.csv')
Основная информация о данных
df.info()
Статистическое описание
df.describe()
Получение уникальных значений
df['column_name'].unique()
Группировка данных
df.groupby('column_name').mean()
Сортировка данных
df.sort_values('column_name', ascending=False)
Фильтрация данных
df[df['column_name'] > 10]
Объединение наборов данных
pd.merge(df1, df2, on='common_column')
Создание новых столбцов
df['new_column'] = df['column1'] + df['column2']
Изменение типов данных
df['column_name'] = df['column_name'].astype('int')
Обработка пропущенных значений
df.dropna()
df.fillna(0)
Визуализация данных
import matplotlib.pyplot as plt
df['column_name'].hist()
plt.scatter(df['column1'], df['column2'])
Экспорт данных
df.to_csv('new_data.csv')