10 приемов Python Pandas, которые сделают вашу работу более эффективной
Pandas — это широко используемый пакет Python для структурированных данных. Существует много хороших учебных пособий на данную тематику, но здесь мы бы хотели раскрыть несколько интересных приемов, которые, вероятно, еще пока неизвестны читателю, но могут оказаться крайне полезными.
read_csv
Все знают эту команду. Но если данные, которые вы пытаетесь прочитать, слишком большие, попробуйте добавить команду nrows = 5 , чтобы прочитать сначала небольшую часть данных перед загрузкой всей таблицы. В этом случае вам удастся избежать ситуации выбора неверного разделителя (не всегда в данных есть разделение в виде запятой).
(Или вы можете использовать команду ‘head’ в linux для проверки первых 5 строк в любом текстовом файле: head -c 5 data.txt )
Затем вы можете извлечь список столбцов, используя df.columns.tolist() , а затем добавить команду usecols = [‘c1’, ‘c2’,…], чтобы извлечь только нужные вам столбцы. Кроме того, если вы знаете типы данных определенных столбцов, вы можете добавить dtype = для более быстрой загрузки. Еще одно преимущество этой команды в том, что если у вас есть столбец, который содержит как строки, так и числа, рекомендуется объявить его тип строковым, чтобы не возникало ошибок при попытке объединить таблицы, используя этот столбец в качестве ключа.
select_dtypes
Если предварительная обработка данных должна выполняться в Python, то эта команда сэкономит ваше время. После чтения из таблицы типами данных по умолчанию для каждого столбца могут быть bool, int64, float64, object, category, timedelta64 или datetime64. Вы можете сначала проверить распределение с помощью
df.dtypes.value_counts()
чтобы узнать все возможные типы данных вашего фрейма, затем используйте
df.select_dtypes(include=[‘float64’, ‘int64’])
чтобы выбрать субфрейм только с числовыми характеристиками.
сopy
Это важная команда. Если вы сделаете:
import pandas as pd
df1 = pd.DataFrame(< ‘a’:[0,0,0], ‘b’: [1,1,1]>)
df2 = df1
df2[‘a’] = df2[‘a’] + 1
df1.head()
Вы обнаружите, что df1 изменен. Это потому, что df2 = df1 не делает копию df1 и присваивает ее df2, а устанавливает указатель, указывающий на df1. Таким образом, любые изменения в df2 приведут к изменениям в df1. Чтобы это исправить, вы можете сделать либо:
df2 = df1.copy ()
from copy import deepcopy
df2 = deepcopy(df1)
map
Это классная команда для простого преобразования данных. Сначала вы определяете словарь, в котором «ключами» являются старые значения, а «значениями» являются новые значения.
level_map =
df[‘c_level’] = df[‘c’].map(level_map)
Например: True, False до 1, 0 (для моделирования); определение уровней; определяемые пользователем лексические кодировки.
apply or not apply?
Если нужно создать новый столбец с несколькими другими столбцами в качестве входных данных, функция apply была бы весьма полезна.
def rule(x, y):
if x == ‘high’ and y > 10:
return 1
else:
return 0
df = pd.DataFrame(< 'c1':[ 'high' ,'high', 'low', 'low'], 'c2': [0, 23, 17, 4]>)
df['new'] = df.apply(lambda x: rule(x['c1'], x['c2']), axis = 1)
df.head()
В приведенных выше кодах мы определяем функцию с двумя входными переменными и используем функцию apply, чтобы применить ее к столбцам ‘c1’ и ‘c2’.
но проблема «apply» заключается в том, что иногда она занимает очень много времени.
Скажем, если вы хотите рассчитать максимум из двух столбцов «c1» и «c2», конечно, вы можете применить данную команду
df[‘maximum’] = df.apply(lambda x: max(x[‘c1’], x[‘c2’]), axis = 1)
но это будет медленнее, нежели:
df[‘maximum’] = df[[‘c1’,’c2']].max(axis =1)
Вывод: не используйте команду apply, если вы можете выполнить ту же работу используя другие функции (они часто быстрее). Например, если вы хотите округлить столбец ‘c’ до целых чисел, выполните округление (df [‘c’], 0) вместо использования функции apply.
value counts
Это команда для проверки распределения значений. Например, если вы хотите проверить возможные значения и частоту для каждого отдельного значения в столбце «c», вы можете применить
df[‘c’].value_counts()
Есть несколько полезных приемов / функций:
A. normalize = True : если вы хотите проверить частоту вместо подсчетов.
B. dropna = False : если вы хотите включить пропущенные значения в статистику.
C. sort = False : показать статистику, отсортированную по значениям, а не по количеству.
D. df[‘c].value_counts().reset_index().: если вы хотите преобразовать таблицу статистики в датафрейм Pandas и управлять ими.
количество пропущенных значений
При построении моделей может потребоваться исключить строку со слишком большим количеством пропущенных значений / строки со всеми пропущенными значениями. Вы можете использовать .isnull () и .sum () для подсчета количества пропущенных значений в указанных столбцах.
import pandas as pd
import numpy as np
df = pd.DataFrame(< ‘id’: [1,2,3], ‘c1’:[0,0,np.nan], ‘c2’: [np.nan,1,1]>)
df = df[[‘id’, ‘c1’, ‘c2’]]
df[‘num_nulls’] = df[[‘c1’, ‘c2’]].isnull().sum(axis=1)
df.head()
выбрать строки с конкретными идентификаторами
В SQL мы можем сделать это, используя SELECT * FROM… WHERE ID в («A001», «C022»,…), чтобы получить записи с конкретными идентификаторами. Если вы хотите сделать то же самое с pandas, вы можете использовать:
df_filter = df ['ID']. isin (['A001', 'C022', . ])
df [df_filter]
Percentile groups
Допустим, у вас есть столбец с числовыми значениями, и вы хотите классифицировать значения в этом столбце по группам, скажем, топ 5% в группу 1, 5–20% в группу 2, 20–50% в группу 3, нижние 50% в группу 4. Конечно, вы можете сделать это с помощью pandas.cut, но мы бы хотели представить другую функцию:
import numpy as np
cut_points = [np.percentile(df[‘c’], i) for i in [50, 80, 95]]
df[‘group’] = 1
for i in range(3):
df[‘group’] = df[‘group’] + (df[‘c’] < cut_points[i])
# or Которая быстро запускается (не применяется функция apply).to_csv
Опять-таки, это команда, которую используют все. Отметим пару полезных приемов. Первый:print(df[:5].to_csv())Вы можете использовать эту команду, чтобы напечатать первые пять строк того, что будет записано непосредственно в файл.
Еще один прием касается смешанных вместе целых чисел и пропущенных значений. Если столбец содержит как пропущенные значения, так и целые числа, тип данных по-прежнему будет float, а не int. Когда вы экспортируете таблицу, вы можете добавить float_format = '%. 0f', чтобы округлить все числа типа float до целых чисел. Используйте этот прием, если вам нужны только целочисленные выходные данные для всех столбцов – так вы избавитесь от всех назойливых нулей ‘.0’ .
Pandas минимум между 2 столбцами
Как добавить в пандас дата фрейм столбец с функцией min или max между значениями двух других столбцов? Фрейм df = pd.DataFrame(<'First':[1, 3, 5], 'Second':[4, 4, 2]>) Надо добавить колонку Third: [1, 3, 2] Так не работает:
df['Third'] = min(df.First, df.Second)
Отслеживать
2,537 4 4 золотых знака 9 9 серебряных знаков 25 25 бронзовых знаков
задан 11 янв в 7:35
Василий Семи-Булатов Василий Семи-Булатов
37 6 6 бронзовых знаков
Добавьте, пожалуйста, в вопрос: пример данных, ожидаемый результат и ваши попытки решения
11 янв в 7:56
Добавил. Что Вы можете посоветовать?
11 янв в 8:321 ответ 1
Сортировка: Сброс на вариант по умолчанию
Если функций несколько - например, минимум и максимум, удобно использовать agg() :
df = pd.DataFrame(<'First':[1, 3, 5], 'Second':[4, 4, 2]>) df[['min', 'max']] = df.agg([min, max], axis=1) print(df)
First Second min max 0 1 4 1 4 1 3 4 3 4 2 5 2 2 5
Можно и просто min() :
df['min'] = df[['First', 'Second']].min(axis=1) # если во фрейме есть столбцы, которые не нужно обрабатывать, то отбираем только нужные df['min'] = df.min(axis=1) # если обрабатываем все столбцы
First Second min 0 1 4 1 1 3 4 3 2 5 2 2
Методы применяем к оси columns или 1 : axis=1 . Новую колонку я бы не называл Third , поскольку оно не отражает того, что содержит минимум. Лучше назвать столбец соответственно примененной функции - min или max.
Как выбрать подмножество из DataFrame?¶
Как выбрать определенные столбцы из DataFrame?¶
- Меня интересует возраст пассажиров Титаника.
In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float64
Каждый столбец в DataFrame является Series . Поскольку выбран один столбец, возвращаемый объект представляет собой Series . Мы можем убедиться в этом, проверив тип вывода:
In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series
И посмотрите на shape вывода:
In [7]: titanic["Age"].shape Out[7]: (891,)
DataFrame.shape — это атрибут Series и DataFrame (вспомните урок по чтению и записи : круглые скобки для атрибутов не используются), содержащий количество строк и столбцов: (nrows, ncolumns). Series в pandas одномерна, так что возвращается только количество строк.
-
Меня интересует возраст и пол пассажиров Титаника.
In [8]: age_sex = titanic[["Age", "Sex"]] In [9]: age_sex.head() Out[9]: Age Sex 0 22.0 male 1 38.0 female 2 26.0 female 3 35.0 female 4 35.0 male
Внутренние квадратные скобки определяют список Python с именами столбцов, тогда как внешние скобки (мы будем называть их «скобки выбора») используются для выбора данных из DataFrame , как показано в предыдущем примере.
Возвращаемый тип данных — это DataFrame:
In [10]: type(titanic[["Age", "Sex"]]) Out[10]: pandas.core.frame.DataFrame
In [11]: titanic[["Age", "Sex"]].shape Out[11]: (891, 2)
Выборка вернула DataFrame с 891 строкой и 2 столбцами. Помните, что DataFrame двумерный объект, где одно измерение — это строки, а другое — столбцы.
В руководстве пользователя
Для получения базовой информации об индексировании см. раздел руководства пользователя, посвященный индексированию и выборкам данных.
Как отфильтровать определенные строки из DataFrame?¶
- Меня интересуют пассажиры старше 35 лет.
In [12]: above_35 = titanic[titanic["Age"] > 35] In [13]: above_35.head() Out[13]: PassengerId Survived Pclass Name . Ticket Fare Cabin Embarked 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th. . PC 17599 71.2833 C85 C 6 7 0 1 McCarthy, Mr. Timothy J . 17463 51.8625 E46 S 11 12 1 1 Bonnell, Miss. Elizabeth . 113783 26.5500 C103 S 13 14 0 3 Andersson, Mr. Anders Johan . 347082 31.2750 NaN S 15 16 1 2 Hewlett, Mrs. (Mary D Kingcome) . 248706 16.0000 NaN S [5 rows x 12 columns]
Условие titanic["Age"] > 35 внутри скобок выбора проверяет, для каких строк столбец Age имеет значение больше 35:
In [14]: titanic["Age"] > 35 Out[14]: 0 False 1 True 2 False 3 False 4 False . 886 False 887 False 888 False 889 False 890 False Name: Age, Length: 891, dtype: bool
Мы уже знаем, что оригинальный DataFrame Титаника состоит из 891 строки. Давайте посмотрим на количество строк, которые удовлетворяют условию, проверив атрибут shape результирующего DataFrame above_35 :
In [15]: above_35.shape Out[15]: (217, 12)
- Меня интересуют пассажиры Титаника из салонов 2 и 3 класса.
In [16]: class_23 = titanic[titanic["Pclass"].isin([2, 3])] In [17]: class_23.head() Out[17]: PassengerId Survived Pclass Name . Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris . A/5 21171 7.2500 NaN S 2 3 1 3 Heikkinen, Miss. Laina . STON/O2. 3101282 7.9250 NaN S 4 5 0 3 Allen, Mr. William Henry . 373450 8.0500 NaN S 5 6 0 3 Moran, Mr. James . 330877 8.4583 NaN Q 7 8 0 3 Palsson, Master. Gosta Leonard . 349909 21.0750 NaN S [5 rows x 12 columns]
Вышеприведенный пример эквивалентен фильтрации по строкам, для которых класс равен 2 или 3, и объединению двух выражений оператором | (или):
In [18]: class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)] In [19]: class_23.head() Out[19]: PassengerId Survived Pclass Name . Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris . A/5 21171 7.2500 NaN S 2 3 1 3 Heikkinen, Miss. Laina . STON/O2. 3101282 7.9250 NaN S 4 5 0 3 Allen, Mr. William Henry . 373450 8.0500 NaN S 5 6 0 3 Moran, Mr. James . 330877 8.4583 NaN Q 7 8 0 3 Palsson, Master. Gosta Leonard . 349909 21.0750 NaN S [5 rows x 12 columns]
При объединении нескольких условных операторов каждое условие должно быть заключено в круглые скобки () . Более того, вы не можете использовать or или and , а должны использовать | в качестве оператора или и & в качестве оператора и.
В руководстве пользователя
См. специальный раздел в руководстве пользователя о булевом индексировании или о функции isin.
- Я хочу работать с данными о пассажирах, возраст которых известен.
In [20]: age_no_na = titanic[titanic["Age"].notna()] In [21]: age_no_na.head() Out[21]: PassengerId Survived Pclass . Fare Cabin Embarked 0 1 0 3 . 7.2500 NaN S 1 2 1 1 . 71.2833 C85 C 2 3 1 3 . 7.9250 NaN S 3 4 1 1 . 53.1000 C123 S 4 5 0 3 . 8.0500 NaN S [5 rows x 12 columns]
Вы можете спросить, что же поменялось, ведь значения первых 5 строк все те же. Один из способов проверить — посмотреть, изменилась ли форма:
In [22]: age_no_na.shape Out[22]: (714, 12)
В руководстве пользователя
Дополнительные специальные функции для отсутствующих значений см. в разделе руководства пользователя об обработке отсутствующих данных.
Как выбрать определенные строки и столбцы из DataFrame?¶
- Меня интересуют имена пассажиров старше 35 лет.
In [23]: adult_names = titanic.loc[titanic["Age"] > 35, "Name"] In [24]: adult_names.head() Out[24]: 1 Cumings, Mrs. John Bradley (Florence Briggs Th. 6 McCarthy, Mr. Timothy J 11 Bonnell, Miss. Elizabeth 13 Andersson, Mr. Anders Johan 15 Hewlett, Mrs. (Mary D Kingcome) Name: Name, dtype: object
При использовании имен столбцов, меток строк или условия используйте оператор loc перед скобками выбора [] . И до, и после запятой вы можете использовать одну метку, список меток, срез меток, условие или двоеточие. Использование двоеточия указывает, что вы хотите выбрать все строки или столбцы.
-
Меня интересуют строки с 10 по 25 и столбцы с 3 по 5.
In [25]: titanic.iloc[9:25, 2:5] Out[25]: Pclass Name Sex 9 2 Nasser, Mrs. Nicholas (Adele Achem) female 10 3 Sandstrom, Miss. Marguerite Rut female 11 1 Bonnell, Miss. Elizabeth female 12 3 Saundercock, Mr. William Henry male 13 3 Andersson, Mr. Anders Johan male .. . . . 20 2 Fynney, Mr. Joseph J male 21 2 Beesley, Mr. Lawrence male 22 3 McGowan, Miss. Anna "Annie" female 23 1 Sloper, Mr. William Thompson male 24 3 Palsson, Miss. Torborg Danira female [16 rows x 3 columns]
При выборе определенных строк или столбцов с помощью loc или iloc выбранным данным могут быть присвоены новые значения. Например, присвоим имя anonymous первым 3 элементам третьего столбца:
In [26]: titanic.iloc[0:3, 3] = "anonymous" In [27]: titanic.head() Out[27]: PassengerId Survived Pclass . Fare Cabin Embarked 0 1 0 3 . 7.2500 NaN S 1 2 1 1 . 71.2833 C85 C 2 3 1 3 . 7.9250 NaN S 3 4 1 1 . 53.1000 C123 S 4 5 0 3 . 8.0500 NaN S [5 rows x 12 columns]
В руководстве пользователя
Больше информации об использовании loc и iloc вы найдете в разделе руководства пользователя о различных вариантах индексации.
ЗАПОМНИТЕ
- При выборе подмножества данных используются квадратные скобки выбора [] .
- Внутри скобок выбора вы можете использовать одну метку столбца или строки, список меток столбца или строки, срез меток, условное выражение или двоеточие.
- Выбирайте определенные строки и/или столбцы с помощью loc , указывая имена строк и столбцов.
- Выбирайте определенные строки и/или столбцы с помощью iloc , указывая порядковый номер в таблице.
- Можно присваивать новые значения выборке на основе loc и iloc .
В руководстве пользователя
Полный обзор индексирования представлен на страницах руководства пользователя об индексировании и выборках данных.
Как читать и записывать табличные данные?
Как создавать диаграммы в pandas?
© Copyright 2008-2022, the pandas development team. Переведено на русский authoress.
Created using Sphinx 4.3.2.
4 способа добавления колонок в датафреймы Pandas
Pandas — это библиотека для анализа и обработки данных, написанная на языке Python. Она предоставляет множество функций и способов для управления табличными данными. Основная структура данных Pandas — это датафрейм, который хранит информацию в табличной форме с помеченными строками и столбцами.
В контексте данных строки представляют собой утверждения, или точки данных. Столбцы отражают свойства, или атрибуты утверждений. Рассмотрим эту структуру на простом примере. Допустим, каждая строка — это дом. В таком случае, столбцы заключают в себе сведения об этом доме (его возрасте, количестве комнат, стоимости и т.д.).
Добавление или удаление столбцов — обычная операция при анализе данных. Ниже мы разберем 4 различных способа добавления новых столбцов в датафрейм Pandas.
Сначала создадим простой фрейм данных для использования в примерах:
import numpy as np
import pandas as pddf = pd.DataFrame( "B": [5, 6, 7, 8]>)df
Способ 1-й
Пожалуй, это самый распространенный путь создания нового столбца в Pandas:
df["C"] = [10, 20, 30, 40]df
Мы указываем имя столбца подобно тому, как выбираем столбец во фрейме данных. Затем этому столбцу присваиваются значения. Новый столбец добавляется последним (т. е. становится столбцом с самым высоким индексом).
Можно добавить сразу несколько столбцов. Их наименования перечисляются списком, а значения должны быть двумерными для совместимости с количеством строк и столбцов. Например, следующий код добавляет три столбца, заполненные случайными целыми числами от 0 до 10:
df[["1of3", "2of3", "3of3"]] = np.random.randint(10, size=(4,3))df
Давайте удалим эти три столбца, прежде чем перейти к следующему методу.
df.drop(["1of3", "2of3", "3of3"], axis=1, inplace=True)
Способ 2-й
В первом способе мы добавляли новый столбец в конец. Pandas также позволяет добавлять столбцы по определенному индексу. Для настройки расположения нового столба воспользуемся функцией вставки (insert function). Давайте добавим один столбец рядом с А:
df.insert(1, "D", 5)df
Для использования функции вставки необходимо 3 параметра: индекс, имя столбца и значение. Индексы столбцов начинаются с 0, поэтому мы устанавливаем параметр индекса 1, чтобы добавить новый столбец рядом со столбцом A. Мы можем указать постоянное значение, которое будет выставлено во всех строках.
Способ 3-й
Функция loc позволяет выбирать строки и столбцы, используя их метки. Таким же образом можно создать новый столбец:
df.loc[:, "E"] = list("abcd")df
Для выбора строк и столбцов мы указываем нужные метки. Если хотим выбрать все строки, ставим двоеточие. В части таблицы, где нужно проставить столбец, указываем метки столбцов, которые нам необходимо выбрать. Поскольку в датафрейме нет столбца E, Pandas создаст новый столбец.
Способ 4-й
Добавить столбцы можно также с помощью функции assign :
df = df.assign(F = df.C * 10)df
В функции assign необходимо прописать имя столбца и значения. Обратите внимание: мы получаем значения, используя другой столбец во фрейме данных. Предыдущие способы также допускают такую операцию.
Надо понимать, что между функциями assign и insert есть существенное различие.
Функция вставки ( insert ) работает на месте. Это означает, что изменение (добавление нового столбца) сохраняется во фрейме данных.
С функцией назначения ситуация немного иная. Он возвращает измененный фрейм данных, но не изменяет исходный. Чтобы использовать измененную версию (с новым столбцом), нам нужно явно назначить ее.
Заключение
Мы рассмотрели 4 различных способа добавления новых столбцов в фрейм данных Pandas. Это обычная операция при анализе и обработке данных.
Мне нравится пользоваться библиотекой Pandas, поскольку она предоставляет, как правило, несколько способов для выполнения одной задачи. По-моему, это говорит о гибкости и универсальности Pandas.
- 3 функции Pandas для группировки и агрегирования данных
- 7 полезных операций в Pandas при работе с DataFrame
- Новая библиотека превосходит Pandas по производительности