1. Основні методи роботи з Excel-файлами в pandas
Читання даних за допомогою read_excel
Щоб розпочати роботу з Excel-файлами, першим ділом встановіть pandas і openpyxl, якщо ви цього ще не зробили. Ці дві бібліотеки як пара надійних старих черевиків — без них у світ аналізу даних не ввійти.
pip install pandas openpyxl
Тепер ми готові переварювати таблиці. pandas пропонує простий і зручний метод read_excel, який дозволяє завантажувати дані з Excel-файлів у DataFrame — стандартний формат даних у pandas.
import pandas as pd
# Читання даних з Excel-файлу
data = pd.read_excel('example.xlsx')
# Виведення перших п'яти рядків DataFrame
print(data.head())
Ось і все! Ми прочитали дані з Excel-файлу і перетворили їх у DataFrame. Якісь мікросекунди, і ось уже на екрані дані, для яких раніше довелося б запускати Excel.
Параметри читання даних
Метод read_excel підтримує безліч параметрів, які дозволяють читати дані з конкретного аркуша, з певного діапазону клітинок і з вказанням форматів даних.
-
sheet_name: Вказує ім'я аркуша або його індекс (починаючи з 0), який потрібно прочитати. Наприклад,sheet_name='Аркуш1'абоsheet_name=0. -
usecols: Дозволяє вибрати конкретні стовпці, які ви хочете імпортувати. Наприклад,usecols="A:C", щоб вибрати тільки перші три стовпці. -
skiprows: Дозволяє пропустити першіNрядків у файлі. Це корисно, коли потрібно відкинути заголовки або непотрібні дані на початку файлу.
# Читання даних з певного аркуша і вибір стовпців
data_filtered = pd.read_excel('example.xlsx', sheet_name='Аркуш1', usecols="A:C", skiprows=2)
2. Перетворення даних у DataFrame
Що таке DataFrame?
DataFrame — це все одно що електроніка для робота-пилососа: ззовні може виглядати просто (ну так, це просто таблиця), але саме завдяки йому пилосос знає, куди їхати, а DataFrame — які дані зберігати і як їх обробляти.
DataFrame у pandas — це двовимірна структура даних, яка має мітки по рядках (індекс) і стовпцях. На відміну від стандартних Python-списків або масивів NumPy, DataFrame дозволяє працювати з даними як з таблицею в базі даних або Excel.
Базові операції з DataFrame
Одна з найкращих фішок DataFrame у pandas — це можливість дуже просто взаємодіяти з даними. Наприклад, ви можете сортувати дані, фільтрувати або вибирати підмножину рядків і стовпців.
Вибір стовпців
Вибір стовпця здійснюється просто за іменами. Пам'ятаєте, як в Excel: ви просто натискаєте на заголовок стовпця, щоб його виділити. Тут простіше нікуди:
# Вибір одного стовпця
dates = data['Дата']
# Вибір кількох стовпців
subset = data[['Ім'я', 'Зарплата']]
Вибір рядків
Якщо вам потрібен доступ до рядків, ви можете використовувати методи iloc для індексації і loc для роботи з мітками.
# Вибір першого рядка
first_row = data.iloc[0]
# Вибір рядків з умовою
high_salary = data[data['Зарплата'] > 50000]
3. Приклади і практика
Тепер, коли у нас є базове розуміння колекції даних у DataFrame, давайте трохи попрактикуємось. Припустимо, у нас є Excel-файл data.xlsx з кількома аркушами, і ми хочемо витягнути дані з певного аркуша, обробити їх і вивести на консоль.
Практичне завдання
Ваше завдання: напишіть скрипт, який буде читати дані з файлу data.xlsx, вибере аркуш Продажі і відфільтрує продажі на суму більше 1000 одиниць.
# Читання даних з аркуша 'Продажі' і фільтрація
sales_data = pd.read_excel('data.xlsx', sheet_name='Продажі')
high_sales = sales_data[sales_data['Сума'] > 1000]
print(high_sales)
Це завдання дозволить вам відчути магію pandas і відчути себе чарівником даних. Звісно, нічого неможливого не станеться, але таблиці перетворюються на корисну інформацію — і для світу аналітики це справжня магія!
4. Помилки та особливості реалізації
Часто новачки забувають про дрібниці, такі як назва стовпців з урахуванням регістру, або про те, що pandas за замовчуванням вважає перший ряд заголовками. Якщо ваші дані відрізняються, то можете зіткнутися з помилками. Підтримуйте дружбу зі своїми даними: завжди перевіряйте назви колонок після завантаження файлу, використовуючи print(data.columns).
І ще один важливий момент: якщо ви намагаєтесь завантажувати файли, створені великими корпораціями, дані в них можуть бути зашифровані. pandas тут не допоможе, але завжди допоможе чашка міцної кави і перерва!
Усі ці знання допоможуть вам автоматизувати рутину, коли потрібно працювати з даними з Excel. Автоматизація цих процесів не тільки заощадить вам час, але й позбавить від логістичних кошмарів, пов’язаних з копіюванням і вставкою. Ваші Python-скрипти будуть виступати в ролі автоматичних помічників, здатних миттєво готувати звітні дані.
ПЕРЕЙДІТЬ В ПОВНУ ВЕРСІЮ