12 лучших Python-библиотек для Data Science

Безграничные возможности для обработки данных.
14 июля 2017326451Илья Бубнов3396118

 

В последние годы Python стал востребованным в области Data Science. Это стало возможным благодаря появлению библиотек, способных обрабатывать и визуализировать большие данные на уровне MATLAB, Mathematica и R. Далее поговорим о 15 лучших.

NumPy

Python SciPy Stack — набор библиотек, специально предназначенных для научных вычислений. Каждый, кто собрался использовать Python в науке, должен познакомиться с этим стеком.
Самый фундаментальный пакет — NumPy. Он позволяет выполнять основные операции над n-массивами и матрицами: сложение вычитание, деление, умножение, транспонирование, вычисление определителя и т. д. Благодаря механизму векторизации, NumPy повышает производительность и, соответственно, ускоряет выполнение операций.

SciPy

SciPy — библиотека в составе Python SciPy Stack, не запутайтесь. Она содержит модули для линейной алгебры, оптимизации, интеграции и статистики. SciPy работает совместно с NumPy, что позволяет ей значительно расширить функциональность. Два аргумента, почему эта библиотека действительно хороша:

  1. Наличие подпрограмм, таких как численная интеграция и оптимизация, для повышения производительности.
  2. Подробная документация на каждую функцию.

Pandas

Pandas — это пакет, предназначенный для простой и интуитивно понятной работы с «помеченными» и «реляционными» данными. Тоже работает в связке с NumPy, и помимо математических вычислений обеспечивает их агрегацию и визуализацию.

Matplotlib

Переходим к визуализации, и на очереди ещё одна библиотека из пакета SciPy Stack. Именно возможности Matplotlib позволяют рассматривать Python, как полноправного конкурента MATLAB или Mathematica. С её помощью вы создадите:

  • Линейные графики;
  • Графики рассеяния;
  • Гистограммы;
  • Круговые диаграммы;
  • Стволовые участки;
  • Контурные участки;
  • Участки колчана;
  •  Спектрограммы.

Библиотека низкоуровневая, что означает большой объём кода для расширенной визуализации. Но производительность и работа с привычным языком позволяют закрыть глаза на этот недостаток.
Matplotlib является основным инструментом для визуализации данных на языке Python, поддерживается различными платформами и IDE (iPython, Jupyter и пр.)

Seaborn

Seaborn базируется на Matplotlib, но оптимизирован для визуализации статистических моделей: тепловые карты, распределения, результаты математических операций. Несмотря на указанные возможности, большинство разработчиков использует библиотеку для отображения простых временных распределений.

Bokeh

В отличие от Seaborn, Bokeh не зависит от Matplotlib. Основная область его применения — веб, где визуализация данных происходит согласно стилю d3. js (Data-Driven Documents). Визуально графики, построенные при помощи Bokeh, выглядят привлекательнее, чем в предыдущих двух случаях.

Plotly

Plotly — онлайн инструмент .для визуализации данных с поддержкой Python, R, MATLAB, Perl, Julia, Arduino и REST. Библиотека содержит шаблоны и заготовки для повышения производительности. Есть один минус — исполнение кода происходит на серверной стороне, после чего изображение готово к публикации в интернете. Впрочем, есть способ это обойти.

SciKit-Learn

Возвращаемся к пакету библиотек SciPy Stack, чтобы представить SciKit — инструмент для обработки изображений и имитации искусственного интеллекта. Он основывается на библиотеке SciPy и отвечает за реализацию алгоритмов машинного обучения. SciKit, как и его математическая основа, демонстрирует высокую производительность, и имеет качественную документацию.

Theano

Theano — одна из самых мощных библиотек в нашем списке. Вот несколько причин:

  • тесная интеграция с NumPy;
  • использование CPU и GPU для повышения производительности;
  • встроенные механизмы оптимизации кода;
  • расширения для юнит-тестирования и самопроверки.

Theano используется там, где необходимо произвести вычисления с большой точностью максимально быстро, например в нейронных сетях и машинном обучении.

TensorFlow

Библиотека от Google была разработана специально для обучения нейронных сетей. Вы можете прямо сейчас оценить эффективность TensorFlow на примере голосового помощника или в игре «Quick, Draw». Библиотека использует многоуровневую систему узлов для обработки большого количества данных, что расширяет сферу её использования далеко за научную область.

Keras

Keras использует возможности TensorFlow и Theano в качестве компонентов. Минималистичный подход в дизайне и невероятная расширяемость позволяет быстро начать работу с библиотекой, и не менять её для серьёзного моделирования. Keras также используется в построении и обучении нейронных сетей, а также при решении задачи распознавания устной речи.

NLTK

NLTK расшифровывается как Natural Language Toolkit, что недвусмысленно говорит о назначении библиотеки. Её Преимущественно использует для анализа текстовых документов:

  • тегирования;
  • токенизации;
  • идентификации имен;
  • построения связей между предложениями и частями текста;
  • семантические рассуждения.

Это лишь малая часть Python-библиотек, используемых в Data Science. Некоторые из них приносят общую практическую пользу, другие предлагают оптимизацию под конкретные задачи. Попробуйте их все, и выберете для себя лучшие.

Не забудьте поделиться результатами в комментариях.

Новые комментарии