Install Anaconda & Run pandas on Jupyter Notebook
Jupyter Notebook is the most used tool in the scientific community to run python and r programming hence let’s learn how to install Anaconda and run pandas programs on Jupyter notebook. In this article I will cover step-by-step instructions of installing anaconda and running pandas programs on Jupyter Notebook.
- Anaconda is the most used distribution platform for python & R programming languages in the data science & machine learning community as it simplifies the installation of packages like pandas, NumPy, SciPy, and many more. Conda is the package manager that the Anaconda distribution is built upon. It is a package manager that is both cross-platform and language agnostic. We can use conda to install any third-party packages.
- Pandas is an open-source framework in Python to works with tabular data (rows and columns). pandas have DataFrame which is a two-dimensional data table and Series one dimensional. pandas will help you to explore, clean, and process your data in easy steps
- Jupyter Notebook is an interactive web UI environment to create notebook documents for python, R languages. Jupyter Notebook documents take statements similar to REPL additionally it also provides code completion, plots, and rich media.
- Download & Install Anaconda Distribution
- Install pandas on Anaconda
- Run pandas From the Command Line
- Run pandas From the Jupyter Notebook
1. Download & Install Anaconda Distribution
Follow the below step-by-step instructions to install Anaconda on windows. If you already have anaconda distribution installed then jump to Run pandas From the Command Line section.
1.1 Download Anaconda Distribution
Go to https://anaconda.com/ and select Anaconda Individual Edition to download the latest version of Anaconda. This downloads the .exe file to the windows download folder.
1.2 Install Anaconda on Windows
By double-clicking the .exe file starts the Anaconda installation. Follow the below screen shot’s and complete the installation
This finishes the installation of Anaconda distribution. Now let’s see how to install pandas.
2 Installing pandas using conda command
2.1 Open Anaconda Navigator from the windows start or search box.
2.2 Create Anaconda Environment
This is optional but recommended to create an environment before you proceed. This gives complete segregation of different package installs for different projects you would be working on. If you already have an environment, you can use it too.
2.3 Open Anaconda Terminal
You open the Anaconda terminal from Anaconda Navigator or open it from the windows start menu/search.
2.4 Install Pandas using conda
Now enter conda install pandas to install pandas in your environment. Note that along with pandas it also installs several other packages including the most used numpy .
3. Run pandas From Command Line
now open Python terminal by entering python on the command line and then run the following command at prompt >>>.
>>> import pandas as pd >>> pd.__version__ '1.3.2' >>>
Writing pandas commands from the terminal is not practical in real-time.
4. Run pandas From Jupyter Notebook
let’s see how to run panda programs from Jupyter Notebook .
Go to Anaconda Navigator -> Environments -> your environment (mine pandas-tutorial) -> select Open With Jupyter Notebook
This opens up Jupyter Notebook in the default browser.
Now select New -> PythonX and enter the below lines and select Run.
This completes installing Anaconda and runnings pandas on Jupyter Notebook. If you have any issues installing, please comment below. Your comments might help others.
Related Articles
- How to Install Anaconda on Windows
- pandas.DataFrame.sort_values() – Examples
- How to Install Anaconda & Run Jupyter Notebook
- Install Pandas on Windows Step-by-Step
- Pandas Window Functions Explained
- Pandas – Set Order of Columns in DataFrame
- Pandas – Retrieve Number of Columns From DataFrame
You May Also Like Reading:
- Pandas groupby() and sum() With Examples
- Pandas Select Columns by Name or Index
- Pandas Get Unique Values in Column
- Pandas Add Header Row to DataFrame
- How to Rename Columns With List in Pandas
- pandas.DataFrame.where() Examples
- How to Read CSV from String in Pandas
- Pretty Print Pandas DataFrame or Series?
- Pandas Drop Index Column Explained
- How to Convert Pandas Uppercase Column
Введение в библиотеку pandas: установка и первые шаги / pd 1
Библиотека pandas в Python — это идеальный инструмент для тех, кто занимается анализом данных, используя для этого язык программирования Python.
В этом материале речь сначала пойдет об основных аспектах библиотеки и о том, как установить ее в систему. Потом вы познакомитесь с двумя структурам данных: series и dataframes . Сможете поработать с базовым набором функций, предоставленных библиотекой pandas, для выполнения основных операций по обработке. Знакомство с ними — ключевой навык для специалиста в этой сфере. Поэтому так важно перечитать материал до тех, пока он не станет понятен на 100%.
А на примерах сможете разобраться с новыми концепциями, появившимися в библиотеке — индексацией структур данных. Научитесь правильно ее использовать для управления данными. В конце концов, разберетесь с тем, как расширить возможности индексации для работы с несколькими уровнями одновременно, используя для этого иерархическую индексацию.
Библиотека Python для анализа данных
Pandas — это библиотека Python с открытым исходным кодом для специализированного анализа данных. Сегодня все, кто использует Python для изучения статистических целей анализа и принятия решений, должны быть с ней знакомы.
Библиотека была спроектирована и разработана преимущественно Уэсом Маккини в 2008 году. В 2012 к нему присоединился коллега Чан Шэ. Вместе они создали одну из самых используемых библиотек в сообществе Python.
Pandas появилась из необходимости в простом инструменте для обработки, извлечения и управления данными.
Этот пакет Python спроектирован на основе библиотеки NumPy. Такой выбор обуславливает успех и быстрое распространение pandas. Он также пользуется всеми преимуществами NumPy и делает pandas совместимой с большинством другим модулей.
Еще одно важное решение — разработка специальных структур для анализа данных. Вместо того, чтобы использовать встроенные в Python или предоставляемые другими библиотеками структуры, были разработаны две новых.
Они спроектированы для работы с реляционными и классифицированными данными, что позволяет управлять данными способом, похожим на тот, что используется в реляционных базах SQL и таблицах Excel.
Дальше вы встретите примеры базовых операций для анализа данных, которые обычно используются на реляционных или таблицах Excel. Pandas предоставляет даже более расширенный набор функций и методов, позволяющих выполнять эти операции эффективнее.
Основная задача pandas — предоставить все строительные блоки для всех, кто погружается в мир анализа данных.
Установка pandas
Простейший способ установки библиотеки pandas — использование собранного решения, то есть установка через Anaconda или Enthought.
Установка в Anaconda
В Anaconda установка занимает пару минут. В первую очередь нужно проверить, не установлен ли уже pandas, и если да, то какая это версия. Для этого введите следующую команду в терминале:
conda list pandas
Если модуль уже установлен (например в Windows), вы получите приблизительно следующий результат:
# packages in environment at C:\Users\Fabio\Anaconda: # pandas 0.20.3 py36hce827b7_2
Если pandas не установлена, ее необходимо установить. Введите следующую команду:
conda install pandas
Anaconda тут же проверит все зависимости и установит дополнительные модули.
Solving environment: done ## Package Plan ## Environment location: C:\Users\Fabio\Anaconda3 added / updated specs: - pandas The following new packages will be installed: Pandas: 0.22.0-py36h6538335_0 Proceed ([y]/n)? Press the y key on your keyboard to continue the installation. Preparing transaction: done Verifying transaction: done Executing transaction: done
Если требуется обновить пакет до более новой версии, используется эта интуитивная команда:
conda update pandas
Система проверит версию pandas и версию всех модулей, а затем предложит соответствующие обновления. Затем предложит перейти к обновлению.
Установка из PyPI
Pandas можно установить и с помощью PyPI, используя эту команду:
pip install pandas
Установка в Linux
Если вы работаете в дистрибутиве Linux и решили не использовать эти решения, то pandas можно установить как и любой другой пакет.
В Debian и Ubuntu используется команда:
sudo apt-get install python-pandas
А для OpenSuse и Fedora — эта:
zypper in python-pandas
Установка из источника
Если есть желание скомпилировать модуль pandas из исходного кода, тогда его можно найти на GitHub по ссылке https://github.com/pandas-dev/pandas:
git clone git://github.com/pydata/pandas.git cd pandas python setup.py install
Убедитесь, что Cython установлен. Больше об этом способе можно прочесть в документации: (http://pandas.pydata.org/pandas-docs/stable/install.html).
Репозиторий для Windows
Если вы работаете в Windows и предпочитаете управлять пакетами так, чтобы всегда была установлена последняя версия, то существует ресурс, где всегда можно загрузить модули для Windows: Christoph Gohlke’s Python Extension Packages for Windows (www.lfd.uci.edu/~gohlke/pythonlibs/). Каждый модуль поставляется в формате WHL для 32 и 64-битных систем. Для установки нужно использовать приложение pip:
pip install SomePackage-1.0.whl
Например, для установки pandas потребуется найти и загрузить следующий пакет:
pip install pandas-0.22.0-cp36-cp36m-win_amd64.whl
При выборе модуля важно выбрать нужную версию Python и архитектуру. Более того, если для NumPy пакеты не требуются, то у pandas есть зависимости. Их также необходимо установить. Порядок установки не имеет значения.
Недостаток такого подхода в том, что нужно устанавливать пакеты отдельно без менеджера, который бы помог подобрать нужные версии и зависимости между разными пакетами. Плюс же в том, что появляется возможность освоиться с модулями и получить последние версии вне зависимости от того, что выберет дистрибутив.
Проверка установки pandas
Библиотека pandas может запустить проверку после установки для верификации управляющих элементов (документация утверждает, что тест покрывает 97% всего кода).
Во-первых, нужно убедиться, что установлен модуль nose . Если он имеется, то тестирование проводится с помощью следующей команды:
nosetests pandas
Оно займет несколько минут и в конце покажет список проблем.
Модуль Nose
Этот модуль спроектирован для проверки кода Python во время этапов разработки проекта или модуля Python. Он расширяет возможности модуль unittest . Nose используется для проверки кода и упрощает процесс.
Здесь о нем можно почитать подробнее: _http://pythontesting.net/framework/nose/nose-introduction/.
Первые шаги с pandas
Лучший способ начать знакомство с pandas — открыть консоль Python и вводить команды одна за одной. Таким образом вы познакомитесь со всеми функциями и структурами данных.
Более того, данные и функции, определенные здесь, будут работать и в примерах будущих материалов. Однако в конце каждого примера вы вольны экспериментировать с ними.
Для начала откройте терминал Python и импортируйте библиотеку pandas. Стандартная практика для импорта модуля pandas следующая:
>>> import pandas as pd >>> import numpy as np
Теперь, каждый раз встречая pd и np вы будете ссылаться на объект или метод, связанный с этими двумя библиотеками, хотя часто будет возникать желание импортировать модуль таким образом:
>>> from pandas import *
В таком случае ссылаться на функцию, объект или метод с помощью pd уже не нужно, а это считается не очень хорошей практикой в среде разработчиков Python.
Установка Jupyter и Pandas в MacOS
Это краткая инструкция по установке Jupyter Notebook в MacOS. Cразу будут установлены инструменты для аналитики данных.
Требования — у вас на Mac должен быть установлен Python + Virtualenv, если таковых нет в системе — в этой статье представлена подробная информация о том как установить Python на Mac.
В этой статье я просто напишу кратко команды для установки и настройки окружения.
1) Проверить есть ли python3 (если нет — инструкция выше)
python3 --version
2) Установка virtualenv. Для этого в терминале просто выполнить команду:
sudo pip3 install virtualenv
3) Инициализация виртуального окружения (перед выполнением команды нужно быть в дериктории вашего проекта, куда нужно установить Jupyter)
virtualenv venv -p python3 # инициализация source venv/bin/activate # активация
4) Далее последовательно выполнить команды:
pip install numpy pip install opencv-python pip install matplotlib pip install jupyterlab pip install pandas pip install pivottablejs
5) Запуск Jupyter, просто запустить в консоли команду:
Библиотека Pandas Profiling: делаем первичный анализ данных в одну строку
Кандидат философских наук, специалист по математическому моделированию. Пишет про Data Science, AI и программирование на Python.
Python-библиотека pandas — незаменимый инструмент для работы с табличными данными. Команды и функции из этой библиотеки — практически всегда первое, что исполняет дата-сайентист в своём Jupyter-блокноте.
Мы будем запускать наш блокнот в среде Google Colab, которая работает прямо в браузере. Прочитайте небольшую статью об этом популярном сервисе.
Мы будем запускать наш блокнот в среде Google Colab, которая работает прямо в браузере. Прочитайте небольшую статью об этом популярном сервисе.
Выглядит это так:
В первой ячейке мы импортировали библиотеку pandas. Во второй:
- прочитали таблицу planets.csv из коллекции seaborn-data, содержащую данные наблюдений за экзопланетами;
- сохранили её в переменную my_data;
- а также посмотрели первые пять строк датасета с помощью метода .head(), чтобы убедиться, что данные прочитались корректно.
В третьей ячейке с помощью .describe() были получены основные количественные характеристики нашего датасета: количество строк (наблюдений) count, среднее mean, величина стандартного отклонения std и так далее. На вид всё вполне солидно, но:
- результат — сплошные цифры, надо разбираться и вникать в каждую строчку;
- куда-то делась колонка method, содержащая категориальные (не числовые) переменные.
Неужели характеристики датасета (часто говорят «профиль данных») нельзя представить полнее и нагляднее? Оказывается, можно.
Pandas Profiling спешит на помощь
Создатели библиотеки пишут прямо: функция .describe() в Pandas отличная, но не покрывает современных требований к первичному исследовательскому (разведочному) анализу данных.
Pandas Profiling выдаёт в своём отчёте следующие параметры датасета:
- тип данных в каждой колонке;
- пропущенные и уникальные значения (количество и процент);
- описательную статистику: квартили, медиану, межквартильный размах, среднее, моду, абсолютное и относительное стандартное отклонение, медианное абсолютное отклонение, коэффициенты асимметрии и эксцесса;
Уфф! А ведь это только середина неполного списка. Пора сделать перерыв на статью о базовых статистических понятиях, необходимых для дата-сайентиста.
- график в виде гистограммы;
- корреляции между значениями (Пирсона, Спирмена и Кендалла);
- матрицу пропущенных значений;
- анализ текста в категориальных значениях;
- а также метаданные файлов и изображений: размеры файлов, даты создания, высоту и ширину.
Это практически исчерпывающее описание имеющихся данных. Причём оформленное в наглядный отчёт прямо в вашем блокноте.
Давайте разбираться, как заполучить себе такую красоту.
Отчёт о данных в одну (почти) строчку
Для установки библиотеки в Colab запускаем в отдельной ячейке одну из двух команд:
Чтобы сохранить отчёт в html-файл, воспользуйтесь командой .to_file():
profile.to_file("my_report.html")
Файл my_report.html появится в меню колаба слева, и оттуда его можно будет скачать себе на компьютер.
Посмотрите, как выглядят отчёты по разным датасетам на странице библиотеки на GitHub:
- отчёт по классическому датасету про пассажиров «Титаника»;
- отчёт по данным NASA о падениях метеоритов;
- отчёт по данным о 1000 самых употребительных слов русского языка;
- ну, и, конечно, куда без котиков и собачек.
Что дальше
Библиотека Pandas Profiling поможет как начинающим, так и опытным дата-сайентистам быстро понять, что за данные перед ними, оценить их качество и полноту. Скопируйте наш колаб-ноутбук себе с помощью команды меню «Файл» → «Сохранить копию на диске» и испытайте её в деле.
На курсе «Профессия Data Scientist» вы познакомитесь со множеством других, не менее мощных, быстрых и полезных инструментов специалиста по данным. Приходите, чтобы получить модную, интересную и востребованную профессию!