JavaRush /Курсы /Python SELF /Чтение данных из Excel-файлов и преобразование их в DataF...

Чтение данных из Excel-файлов и преобразование их в DataFrame

Python SELF
27 уровень , 2 лекция
Открыта

1. Основные методы работы с Excel-файлами в pandas

Чтение данных с помощью read_excel

Чтобы начать работу с Excel-файлами, первым делом установите pandas и openpyxl, если вы этого еще не сделали. Эти две библиотеки как пара надежных старых ботинок — без них в мир анализа данных не войти.

Bash

pip install pandas openpyxl

Теперь мы готовы переваривать таблицы. pandas предлагает простой и удобный метод read_excel, который позволяет загружать данные из Excel-файлов в DataFrame — стандартный формат данных в pandas.

Python

import pandas as pd

# Чтение данных из Excel-файла
data = pd.read_excel('example.xlsx')

# Вывод первых пяти строк DataFrame
print(data.head())

Вот и всё! Мы прочитали данные из Excel-файла и преобразовали их в DataFrame. Какие-то микросекунды, и вот уже у нас на экране данные, для которых раньше пришлось бы запускать Excel.

Параметры чтения данных

Метод read_excel поддерживает множество параметров, которые позволяют читать данные с конкретного листа, из определенного диапазона ячеек и с указанием форматов данных.

  • sheet_name: Указывает имя листа или его индекс (начиная с 0), который нужно прочитать. Например, sheet_name='Лист1' или sheet_name=0.
  • usecols: Позволяет выбрать конкретные столбцы, которые вы хотите импортировать. Например, usecols="A:C", чтобы выбрать только первые три столбца.
  • skiprows: Позволяет пропустить первые N строк в файле. Это полезно, когда нужно отбросить заголовки или ненужные данные в начале файла.
Python

# Чтение данных с определенного листа и выбор столбцов
data_filtered = pd.read_excel('example.xlsx', sheet_name='Лист1', usecols="A:C", skiprows=2)

2. Преобразование данных в DataFrame

Что такое DataFrame?

DataFrame — это все равно что электроника для робота-вакуумного пылесоса: снаружи может выглядеть просто (ну да, это просто таблица), но именно благодаря нему пылесос знает, куда ехать, а DataFrame — какие данные хранить и как их обрабатывать.

DataFrame в pandas — это двумерная структура данных, которая имеет метки по строкам (индекс) и столбцам. В отличие от стандартных Python-списков или массивов NumPy, DataFrame позволяет работать с данными как с таблицей в базе данных или Excel.

Базовые операции с DataFrame

Одна из лучших фишек DataFrame в pandas — это возможность очень просто взаимодействовать с данными. Например, вы можете сортировать данные, фильтровать или выбирать подмножество строк и столбцов.

Выбор столбцов

Выбор столбца осуществляется просто по именам. Помните, как в Excel: вы просто кликаете по заголовку столбца, чтобы его выделить. Здесь проще некуда:

Python

# Выбор одного столбца
dates = data['Дата']

# Выбор нескольких столбцов
subset = data[['Имя', 'Зарплата']]

Выбор строк

Если вам нужен доступ к строкам, вы можете использовать методы iloc для индексации и loc для работы с метками.

Python

# Выбор первой строки
first_row = data.iloc[0]

# Выбор строк с условием
high_salary = data[data['Зарплата'] > 50000]

3. Примеры и практика

Теперь, когда у нас есть базовое понимание коллекции данных в DataFrame, давайте немного попрактикуемся. Предположим, у нас есть Excel-файл data.xlsx с несколькими листами, и мы хотим извлечь данные с определенного листа, обработать их и вывести в консоль.

Практическое упражнение

Ваша задача: напишите скрипт, который будет читать данные из файла data.xlsx, выберет лист Продажи и отфильтрует продажи на сумму более 1000 единиц.

Python

# Чтение данных с листа 'Продажи' и фильтрация
sales_data = pd.read_excel('data.xlsx', sheet_name='Продажи')
high_sales = sales_data[sales_data['Сумма'] > 1000]

print(high_sales)

Это упражнение позволит вам прочувствовать магию pandas и ощутить себя волшебником данных. Конечно, ничего невозможного не произойдет, но таблицы превращаются в полезную информацию — и для мира аналитики это настоящая магия!

4. Ошибки и особенности реализации

Часто новички забывают о мелочах, таких как название столбцов с учётом регистра, или о том, что pandas по умолчанию считает первый ряд заголовками. Если ваши данные отличаются, то можете столкнуться с ошибками. Поддерживайте дружбу со своими данными: всегда проверяйте названия колонок после загрузки файла, используя print(data.columns).

И еще один важный момент: если вы пытаетесь загружать файлы, созданные большими корпорациями, данные в них могут быть зашифрованы. pandas тут не поможет, но всегда поможет чашка крепкого кофе и перерыв!

Все эти знания помогут вам автоматизировать рутину, когда нужно работать с данными из Excel. Автоматизация этих процессов не только сэкономит вам время, но и избавит от логистических кошмаров, связанных с копированием и вставкой. Ваши Python-скрипты будут выступать в роли автоматических ассистентов, способных мгновенно подготавливать отчетные данные.

Комментарии (1)
ЧТОБЫ ПОСМОТРЕТЬ ВСЕ КОММЕНТАРИИ ИЛИ ОСТАВИТЬ КОММЕНТАРИЙ,
ПЕРЕЙДИТЕ В ПОЛНУЮ ВЕРСИЮ
3 апреля 2025
В задаче Epic давайте будем честными: # Загрузка данных из Excel-файла - вот это никак не подразумевает, что надо всего лишь объявить переменные и присвоить им значения: file_path = 'financial_report.xlsx' sheet_name = 'Операции' column_name = 'Доход'