Что такое автоматизированное машинное обучение (AutoML) и
собирается ли оно лишить специалистов по данным (Data Scientists) работы?
С того момента как стали появляться инструменты автоматизированного машинного обучения (AutoML), такие как Google AutoML, эксперты обсуждают вопрос — готовы ли они к полной корпоративной интеграции и применению. В описании инструментов AutoML утверждается, что каждый может взять на себя роль «исследователя данных» (data scientist), способного создавать готовые для промышленного применения модели машинного обучения без традиционно необходимого технического образования.
Хотя, безусловно, верно, что автоматизированные процессы машинного обучения меняют способы, с помощью которых предприятия могут выполнять задачи анализа данных, технология еще не готова оставить специалистов по данным без работы. Одно из главных утверждений технологии заключается в том, что автоматически созданные модели имеют схожее качество и производятся в кратчайшие сроки по сравнению с эквивалентной моделью, созданной группой исследователей данных.
Хотя модели AutoML создаются быстрее, они эффективны только в том случае, если проблема, которую они ищут, является постоянной и повторяющейся. Большинство моделей AutoML работают хорошо и достигают постоянного качества в этих условиях; но чем сложнее проблемы с данными, тем больше требуется вмешательство специалиста, чтобы понять, что запустила система AutoML, и превратить ее в нечто полезное. Чтобы понять некоторые из этих ограничений, давайте рассмотрим процесс AutoML более подробно.
Инструменты AutoML упрощают процесс обработки данных, делая все возможное, используя имеющуюся информацию. Процесс состоит из трех основных этапов:
Первый этап включает в себя «добычу» информации, которая помогает повысить производительность сгенерированных моделей, создавая дополнительную информацию для изучения. Это занимает очень много времени, так как специалисту по анализу данных необходимо практически вручную выявлять взаимосвязи между элементами данных и разрабатывать способы представления информации в качестве дополнительных полей данных, которые машина может использовать для обучения, а так же принять решение о полноте данных что бы построить модель.
Это важный этап, поскольку эти дополнительные данные очень часто означают разницу между неподходящей и превосходной моделью. AutoML запрограммирован на использование ограниченного диапазона методов обнаружения данных, обычно таким образом, чтобы удовлетворить «среднюю» проблему данных, ограничивая конечную производительность модели, поскольку он не может использовать знания конкретного МСБ(малый средний бизнес), которые могут быть важны для успеха и то, что специалист по данным может использовать в своей работе.
Многие проблемы с данными начинаются со значительных умственных усилий по выбору данных для представления в алгоритм. Передача всех данных, имеющихся у вас в системе, может привести к модели, не соответствующей параметрам, поскольку в данных обычно содержится много разных, часто противоречивых сигналов, которые должны быть нацелены и смоделированы индивидуально.
Это особенно верно в отношении мошенничества, когда различные географические регионы, каналы оплаты и т. д. имеют очень разные виды мошенничества. Попытки вручную обнаружить эти шаблоны и спроектировать соответствующие наборы данных для обеспечения точного обнаружения все еще в значительной степени не автоматизированы. Использование многоцелевого автоматизированного подхода к этой проблеме в настоящее время невозможно из-за огромной сложности такого мероприятия.
Следующий этап — генерация моделей. Модели с различными конфигурациями создаются и обучаются с использованием данных предыдущего этапа. Это очень важно, поскольку практически невозможно использовать конфигурацию по умолчанию для каждой проблемы и получить наилучшие результаты.
На этом этапе системы AutoML имеют преимущество перед специалистами по данным, поскольку они способны создавать огромное количество тестовых моделей за очень короткий промежуток времени. Большинство систем AutoML стремятся быть универсальными и производят только глубокие нейронные сети, которые могут быть излишними для многих задач, когда простая модель, такая как логистическая регрессия или деревья решений, может быть более подходящей и выигрывает от оптимизации гиперпараметров.
Завершающим этапом является массовое тестирование производительности и выбор лучшего исполнителя. Именно на этом этапе требуется некоторый ручной труд, не в последнюю очередь потому, что крайне важно, чтобы пользователь выбрал правильную модель для задачи. Бесполезно иметь модель риска мошенничества, которая выявляет 100% случаев мошенничества, но ставит под сомнение каждую авторизацию.
В текущем ручном процессе специалисты по данным работают с МСБ, чтобы понять данные и разработать эффективные описательные функции данных. Эта важная связь между МСБ и специалистом по данным отсутствует в AutoML общего назначения. Как описано ранее, процесс пытается автоматически сгенерировать эти модели из того, что инструмент может обнаружить в данных, что может быть неуместно, что приводит к неэффективным моделям. Будущие системы AutoML должны быть разработаны с учетом этого и других ограничений, чтобы создавать качественные модели в соответствии с разработанными специалистами по данным стандартами.
Будущее AutoML
AutoML продолжает развиваться, и основные текущие поставщики AutoML ( Google и Microsoft) достигли значительных улучшений. Эти разработки были сосредоточены главным образом на повышении скорости генерации готовых моделей, а не на изучении того, как можно улучшить технологию для решения более сложных проблем (например, обнаружения мошенничества и вторжения в сеть), где AutoML может продвинуться дальше чем специалист по данным.
По мере того как решения AutoML продолжают развиваться и расширяться, автоматизировать можно будет более сложные ручные процессы. Современные системы AutoML отлично работают с изображениями и речью, поскольку в AutoML встроены знания для бизнеса, позволяющие выполнять эти задачи так хорошо. Будущие системы AutoML будут иметь возможность для бизнес-пользователей вводить свои знания, чтобы помочь машине в автоматическом создании очень точных моделей.
Вдобавок ко всему, сложные конвейеры данных будут становиться все более и более упорядоченными, и добавление большого количества разнообразных алгоритмов для оптимизации еще больше расширит возможные варианты проблем, которые смогут решать ученые, работающие с данными граждан.
Хотя многие задачи по обработке данных станут автоматизированными, это позволит ученым выполнять заказные задачи для бизнеса; дальнейшее стимулирование инноваций и предоставление возможности бизнесу сосредоточиться на более важных направлениях получения доходов и роста бизнеса.
Автоматическое машинное обучение
Автоматическое машинное обучение (англ. Automated Machine Learning, AutoML) — процесс создания динамической комбинации различных методов для формирования простой в использовании сквозной конвейерной системы машинного обучения. AutoML использует хорошо зарекомендовавшие себя методы, которые мы классифицируем в следующие категории на основе конвеера машинного обучения (показано на Рис.1): подготовка данных, конструирование признаков, генерация моделей и их оценка.

Рисунок 1: Конвеер автоматического машинного обучения
Подготовка данных состоит из двух этапов: сбор данных и их предварительная обработка.
Конструирование признаков состоит из 3 процессов: извлечение признаков, выбор признаков и построение признаков.
Этап генерации модели включает в себя выбор модели и оптимизацию гиперпараметров выбранной модели.
Методы оптимизации гиперпараметров: случайный поиск, поиск по сетке, градиентный спуск (gradient descent, GD), обучение с подкреплением, эволюционный алгоритм (evolutionary algorithm, EA), байесовская оптимизация (Bayesian optimization, BO), байесовская оптимизация на основе гиперболы (Bayesian optimization based hyperband, BOBH).
Подготовка данных
Первым шагом в конвейере машинного обучения идет этап подготовки данных. Во многих задачах, например, в задаче распознавания образов в медицине, бывает трудно получить достаточно данных, или качественно размеченных данных. Мощная система AutoML должна уметь справляться с этой проблемой. Для исследования этой задачи процесс подготовки данных разделяется на два подэтапа: сбор данных и их предобработка.
Сбор данных
Углубленное изучение ML привело к консенсусу, что качественные данные общедоступны. В результате появилось множество открытых наборов данных. Однако, с помощью вышеуказанных подходов, как правило, очень трудно найти надлежащий набор данных для специализированных задач, таких как задачи, связанные с медициной. Для решения этой задачи предлагается два типа методов: синтез данных и поиск данных.
Синтез данных
Одним из наиболее часто используемых методов является аугментация существующего набора данных. Для данных изображений существует множество операций аугментации, таких как обрезка, поворот, изменение размера и т.д.
Также, существуют два подхода к созданию дополнительных обучающих примеров: искажение данных и синтетическая избыточная выборка. Первый генерирует дополнительные семплы, применяя преобразования к пространству данных, а второй создает дополнительные семплы в пространстве признаков. Текстовые данные могут быть дополнены синонимами или сначала переводом текста на иностранный язык, а затем переводом его обратно на оригинальный.
Плюс ко всему, одним из распространенных методов является порождающие состязательные сети, которые, в основном, применяются для генерации картинок и текстов.
Поиск данных
Так как интернет является неисчерпаемым источником данных, поиск веб-данных — это интуитивно понятный способ сбора наборов данных. Тем не менее, есть некоторые проблемы с использованием данных, полученных таким образом.
Во-первых, результаты поиска могут не совсем совпадать с ключевыми словами. Чтобы решить эту проблему, несвязанные данные могут быть отфильтрованы.
Во-вторых, веб-данные могут быть неправильно размечены или не размечены вовсе. Для решения этой проблемы часто используются self-labeling методы. К примеру, один из таких методов активного обучения выбирает наиболее «неопределенные» неразмеченные отдельные примеры для разметки вручную, а затем итеративно размечаются оставшиеся данные. Чтобы полностью устранить потребность в разметке данных вручную и еще больше ускорить этот процесс, предлагается множество методов саморазметки с частичным привлечением учителя.
Однако, также существует проблема, что наш набор данных не сбалансирован. Решением этой проблемы является, к примеру, алгоритм SMOTE, который помогает синтезировать новые данные, которые будут относиться к миноритарным классам, а также уменьшать количество данных, относящихся к мажоритарным классам.
Предварительная обработка данных
После того, как необработанные данные были собраны, они должны быть предварительно обработаны, чтобы удалить избыточные, неполные или неправильные данные. Например, распространенными типами ошибок в полученных наборах данных являются пропущенные значения и неправильные типы данных. Типичными операциями, используемыми для обработки данных, являются стандартизация, масштабирование, бинаризация количественных характеристик и замена недостающих значений средними значениями.
При работе с картинками может возникнуть проблема, что картинка имеет неверную метку. В таких случаях применимы методы саморазметки. Тем не менее, процесс обработки данных обычно должен быть определен заранее вручную, потому что разные методы могут иметь различные требования, даже для одного и того же набора данных. Например, нейронная сеть может работать только с числовыми данными, в то время как методы, основанные на деревьях принятия решений, могут работать как с числовыми, так и с категориальными данными.
Конструирование признаков
Конструирование признаков состоит из трёх подэтапов: выбор признаков (англ. feature selection), извлечение признаков (англ. feature extraction) и построение признаков (англ. feature construction). Извлечение и построение признаков — это варианты преобразования, с помощью которых создается новый набор признаков. Во многих случаях, целью извлечения признаков является уменьшение исходной размерности путём применения некоторых функций отображения, в то время как построение признаков используется для расширения исходного пространства признаков. Цель выбора признаков состоит в том, чтобы уменьшить избыточность признаков путем выбора наиболее важных из них. В итоге, суть автоматического конструирования признаков в некоторой степени заключается в динамическом сочетании этих трех принципов.
Выбор признаков

Рис. 2: Итерационный процесс выбора признаков. Подмножество признаков выбирается на основе стратегии поиска, а затем оценивается. После этого выполняется процедура валидации, чтобы определить, является ли полученное подмножество валидным. Описанные выше шаги повторяются до того момента, пока не будет достигнут критерий остановки.
При выборе признаков строится подмножество объектов на основе исходного набора объектов путем сокращения нерелевантных или избыточных признаков. Это, как правило, упрощает модель, таким образом, избегая переобучения и улучшая производительность модели. Выбранные объекты обычно расходятся и сильно коррелируют со значениями объектов.
Стратегия поиска для выбора признаков включает в себя три типа алгоритмов: полный поиск, эвристический поиск и случайный поиск.
Построение признаков
Это процесс создания новых признаков из исходного пространства или необработанных данных с целью улучшения качества и обобщаемой способности модели. Этот процесс сильно зависит от человеческого опыта, и одним из наиболее часто используемых методов являются препроцессинговые преобразования, такие как стандартизация, нормализация или дискретизация признаков. Кроме того, операции преобразования для различных типов признаков могут отличаться. Например, такие операции, как конъюнкция, дизъюнкция и отрицание, обычно используются для бинарных признаков; такие операции, как минимум, максимум, сложение, вычитание, среднее значение, обычно используются для числовых признаков.
Невозможно вручную исследовать все возможности. Таким образом, для дальнейшего повышения эффективности были предложены некоторые автоматические методы построения признаков, которые позволяют достичь результатов, которые не уступают или даже превосходят результаты, достигнутые человеческим опытом. Эти алгоритмы направлены на автоматизацию процесса поиска и оценки комбинации операций.
Извлечение признаков
Это процесс уменьшения размерности пространства признаков путем применения некоторых функций отображения. Он извлекает наиболее информативные признаки с учетом выбранных метрик. В отличие от выбора признаков, извлечение признаков изменяет исходные признаки. Главной частью извлечения признаков является функция отображения, которая может быть реализована многими способами. Наиболее распространенными подходами являются метод главных компонент (PCA), метод независимых компонент (ICA), t-SNE, isomap, нелинейное уменьшение размерности.
Генерация модели
После конструирования признаков нам нужно сгенерировать модель и задать ее гиперпараметры. Как показано на Рис. 1, генерация модели состоит из двух этапов: выбора модели и оптимизации гиперпараметров. Существует множество способов выбора модели. Ниже приведены некоторые из них:
TPOT (Tree-base Pipeline Optimization Tool)
В основе TPOT лежит эволюционный алгоритм поиска для нахождения лучшей модели и одновременной оптимизации её гиперпараметров. Представляет собой надстройку над scikit-learn [1] , при этом в данную библиотеку также включены собственные алгоритмы регрессии и классификации. В мае 2020 года вышла версия, в которую был добавлен модуль для работы с нейронными сетями на основе PyTorch [2] . Время работы TPOT сильно зависит от размера входных данных. Не поддерживает обработку естественного языка и категориальных данных.
Auto-WEKA
Auto-WEKA позволяет одновременно выбирать лучшую модель и настраивать ее гиперпараметры. Для этого процесса используется алгоритм SMAC. Из-за перебора всех возможных моделей и их гиперпараметров алгоритм работает довольно долго.
Auto-sklearn
В Auto-sklearn реализован автоматический выбор лучшего алгоритма из представленных в scikit-learn, а также настройка его гиперпараметров. Для улучшения обобщающей способности используются ансамбли из моделей, которые были получены в ходе оптимизации. В Auto-sklearn применяются идеи мета-обучения, которые позволяют выделять похожие датасеты и использовать знания о них.
Auto-sklearn 2.0
Auto-sklearn 2.0 является улучшенной версией библиотеки auto-sklearn. В обновленном варианте пакета каждый pipeline способен совершать раннюю остановку и сохранять результаты промежуточных вычислений. Это изменение кардинально улучшило производительность и качество работы. Следующим нововведением стало ограничение множества алгоритмов, в котором производится перебор, до моделей, которые можно обучать итеративно, в частности, методы, основанные на деревьях решений. Изменился подход к мета-обучению, предыдущая версия библиотеки использовала мета-признаки для определения схожих между собой датасетов. В Auto-sklearn 2.0 реализован другой подход, было создано единое портфолио лучших решений для различных датасетов. Был добавлен автоматический выбор стратегии подбора наилучшей модели.
Auto-Keras
Открытая библиотека для автоматизированного подбора архитектуры модели, которая использует в своей основе scikit-learn, PyTorch и Keras [3] . Библиотека параллельно использует CPU и GPU, а также адаптируется под лимиты памяти, за счёт чего обладает высокой производительностью. Auto-Keras показывает высокие результаты близкие к Google AutoML, однако в отличии от продукта Google является бесплатной. Идея библиотеки в том, чтобы исследовать пространство поиска архитектур с помощью алгоритма байесовской оптимизации. Алгоритм поиска нейросетевой архитектуры состоит из трех повторяющихся шагов: обновление, генерация и наблюдение. Обновлением называется обучение гауссовского процесса на имеющихся данных. На этапе генерации создаётся новая архитектура через оптимизацию функции исследования. В качестве наблюдения записываются результаты новой архитектуры.
MLBox
Мощная библиотека для автоматического машинного обучения, разработанная для Python. Реализует быстрое чтение, распределенную предобработку данных, выбор признаков, оптимизацию гиперпараметров в многомерном пространстве, современные предсказательные модели классификации и регрессии.
TransmogrifAI
AutoML библиотека написанная на SCALA работающая поверх Apache Spark. Она разработана с упором на повышение производительности разработки за счёт проверки типов во время компиляции, их переиспользования и модульности. Обеспечивает быстрое обучение моделей с минимальной ручной настройкой.
Оценка модели
После того, как новая модель была сгенерирована, ее производительность должна быть оценена. Интуитивный метод состоит в том, чтобы обучить сеть сходиться, а затем оценить ее производительность. Однако этот метод требует значительных временных и вычислительных ресурсов. Для ускорения процесса оценки модели было предложено несколько алгоритмов, которые приведены ниже.
Низкая точность (англ. Low fidelity)
Поскольку время обучения модели тесно связано с набором данных и размером модели, оценка модели может быть ускорена различными способами.
В случае обработки изображений может быть уменьшено их количество или разрешение (в терминах задач классификации изображений).
Также, оценка модели может быть реализована путем уменьшения размера модели, например, путем обучения с меньшим количеством фильтров на слой.
Суррогатный метод (англ. Surrogate method)
Суррогатный метод — это еще один мощный инструмент, который аппроксимирует black-box функцию. В общем случае, как только получено хорошее приближение, задача найти конфигурации, которые непосредственно оптимизируют исходную дорогостоящую цель, становится тривиальной. К примеру, прогрессивный поиск оптимизации нейронной сети (PNAS) вводит суррогатную модель для управления методом поиска. Хотя было доказано, что эффективный поиск нейронной сети (ENAS) показывает высокую производительность, PNAS еще более эффективен, поскольку число моделей, оцениваемых PNAS, более чем в пять раз превышает число моделей, оцениваемых ENAS, и PNAS в восемь раз быстрее с точки зрения общей вычислительной скорости. Однако, когда пространство оптимизации слишком велико и трудно поддается количественной оценке, а оценка каждой конфигурации чрезвычайно дорогостоящая, суррогатный метод неприменим.
Ранняя остановка (англ. Early stopping)
Метод ранней остановки впервые был применен для избежания переобучения в классических задачах машинного обучения. Он используется для ускорения оценки модели путем остановки оценивания, которое, как предполагается, плохо работает на валидационном наборе.
Оптимизация ресурсов (англ. Resource-aware)
В большинстве исследований в прошлом больше внимания уделялось поиску нейронных архитектур, достигающих более высокой производительности (например, точности классификации), независимо от связанного с этим потребления ресурсов (т.е. количества графических процессоров и требуемого времени). Поэтому во многих последующих исследованиях исследуются алгоритмы, учитывающие ресурсы (resource-aware), чтобы найти компромисс между эффективностью и количеством вычислительных ресурсов. Для этого эти алгоритмы добавляют вычислительную стоимость к функции потерь в качестве ограничения ресурсов.
Эти алгоритмы отличаются друг от друга типом вычислительной стоимости, которым могут являться:
- число параметров,
- число операций умножения-накопления (MAC),
- число операций с плавающей точкой (FLOP),
- действительная задержка
AutoML сервисы
Google Cloud AutoML
Сервис от компании Google, который позволяет создавать модели машинного обучения, использующий запатентованную технологию Google Research, чтобы помочь пользовательским моделям достичь наиболее высокой производительности и точных предсказаний. Используется простой графический пользовательский интерфейс Cloud AutoML для обучения, оценки и оптимизации моделей на основе пользовательских данных. Также есть возможность генерировать высококачественные данные для интересующих задач.
Инструменты Cloud AutoML
- компьютерное зрение — AutoML Vision, AutoML Video Intelligence
- машинный перевод — AutoML Natural Language, AutoML Translation
- структурирование данных — AutoML Tables
IBM Watson Machine Learning
Сервис IBM Cloud с широким спектром услуг. Предоставляет обширные возможности для работы с естественным языком (например преобразование текста в речь и наоборот, динамический перевод документов, классификацию текста, анализ эмоциональной составляющей текста), а также инструменты для распознавания изображений. Поддерживает ограниченный набор типов библиотек, таких как scikit-learn и Keras.
MLJAR
Сервис для автоматизации машинного обучения предоставляющий возможности по предобработке данных, обучению алгоритма, и выбору гиперпараметров без использования кода. Предобработка реализована в виде заполнения недостающих данных, преобразовании типов признаков, а также one-hot encoding. В качестве алгоритмов предлагаются Xgboost, LightGBM, Regularized Greedy Forest, cлучайный лес, алгоритм k-ближайших соседей, логистическая регрессия, нейронные сети и другие. Обученную модель можно использовать как удаленно на сервере, так и локально на своей машине.
AzureML
Облачный сервис компании Microsoft, который предоставляет многочисленные возможности для упрощения разработки и развертывания проектов. В AzureML реализованы пользовательские интерфейсы конструктора машинного обучения и автоматического машинного обучения. В облаке вы можете хранить свои датасеты, модели, конвейеры, базы данных и т.д. Сервис поддерживает следующие среды разработки: VSCode, Pycharm, Visual Studio, Jupyter Notebook, а также два языка программирования: R и Python вместе с основными библиотеками и фреймворками.
См. также
- Модель алгоритма и её выбор
- Мета-обучение
- Настройка гиперпараметров
- Оценка качества в задаче кластеризации
- Оценка качества в задачах классификации
Источники информации
- AutoML: A Survey of the State-of-the-Art
- Auto-WEKA: Automatic model selection in WEKA
- TPOT Automated Machine Learning in Python
- Auto-sklearn: Efficient and Robust Automated Machine Learning
- Auto-sklearn 2.0: The next generation
Примечания
- ↑Библиотека scikit-learn
- ↑Библиотека PyTorch
- ↑Библиотека Keras
Решения AWS AutoML
AutoML автоматизирует каждый шаг рабочего процесса машинного обучения, что упрощает его использование. AWS предоставляет широкий спектр решений AutoML для любого уровня знаний. Специалистам по машинному обучению, которые ищут решение с открытым исходным кодом, мы предлагаем AutoGluon, а специалистам по работе с данными, предпочитающим полностью управляемый сервис, – Amazon SageMaker, который автоматически создает модели на основе вашего уникального сценария использования. Разработчики или бизнес-пользователи, не имеющие опыта машинного обучения, могут воспользоваться готовыми решениями для таких сценариев использования, как машинное зрение, прогнозирование спроса, интеллектуальный поиск, а также для отраслей промышленности и здравоохранения.

Благодаря тому, что AutoML встроенно во многие сервисы, вам не нужно беспокоиться о подготовке данных, конструировании признаков, выборе алгоритмов, обучении, настройке, логических выводах и непрерывном мониторинге моделей. Вместо этого вы можете сосредоточиться на работе, которая влияет на результаты вашего бизнеса в большей степени.
AutoML для всех
![]()
Независимо от того, являетесь ли вы бизнес-пользователем, специалистом по работе с данными или разработчиком, AWS предлагает вам решения AutoML. Вы можете начать работу без опыта машинного обучения от проектов с открытым исходным кодом, таких как AutoGluon для автоматизированного глубокого обучения, до сервиса Amazon Lookout для метрики, который автоматически подготавливает данные коммерческих метрик и обнаруживает аномалии.
Полная прозрачность
![]()
AWS позволяет легко погрузиться в модели, созданные AutoML. Например, Amazon SageMaker автопилот ранжирует автоматически сгенерированные модели на основе производительности, и всего несколькими щелчками мыши вы можете увидеть, как модель была создана и что в ней содержится. SageMaker также предоставляет вам доступ к развертыванию и настройке более 150 моделей с открытым исходным кодом в один клик.
Комплексные решения

Вы можете применять машинное обучение в больших масштабах, используя более 70 комплексных решений. Решения регулируют горизонтальные варианты использования, включая интеллектуальную обработку документов и машинное зрение, а также вертикальные варианты использования в здравоохранении и промышленности. Все решения можно запустить всего несколькими щелчками мыши.
Что такое AutoML?
Автоматическое машинное обучение, известное как AutoML, устраняет утомительную, итеративную и трудоемкую работу на всех этапах процесса машинного обучения от сбора данных до ввода модели в эксплуатацию, поэтому вы можете тратить меньше времени на детализацию низкого уровня и больше на использование машинного обучения для улучшения результатов в бизнесе. Инструменты AutoML занимаются поиском и подготовкой данных, конструированием признаков, обучением, настройкой, развертыванием моделей, а также их постоянным мониторингом и обновлением.
AutoML для открытого исходного кода
AutoGluon автоматизирует задачи машинного обучения, позволяя легко достичь высокой производительности прогнозирования в ваших приложениях. Всего несколько строк кода позволяют обучать и развертывать высокоточные модели машинного и глубокого обучения на текстовых, графических и табличных данных.
Современный набор инструментов с открытым исходным кодом для AutoML
В библиотеке с открытым исходным кодом для разработчиков, создающих приложения, используется машинное обучение с наборами графических, текстовых или табличных данных.
AutoML для Amazon SageMaker
Amazon SageMaker – это полностью управляемый сервис, который предоставляет каждому разработчику и специалисту по работе с данными возможность создавать, обучать и развертывать модели машинного обучения в любом масштабе. Он упрощает каждый этап рабочего процесса машинного обучения и позволяет с легкостью развертывать любые сценарии с использованием машинного обучения – от технического обслуживания по текущему состоянию до компьютерного зрения и прогнозирования поведения клиентов.
Студия SageMaker – это первая полностью интегрированная среда разработки для машинного обучения, в которой можно создавать, обучать и развертывать модели машинного обучения в любом масштабе.
Amazon SageMaker автопилот
SageMaker автопилот – это первый в отрасли сервис автоматического машинного обучения, который обеспечивает полную прозрачность всех процессов в моделях машинного обучения.
Amazon SageMaker Ground Truth
SageMaker Ground Truth позволяет без труда создавать сверхточные наборы данных для машинного обучения с помощью настраиваемых или встроенных процессов маркировки данных для трехмерных облаков точек, видео, изображений и текста.
Amazon SageMaker Data Wrangler
SageMaker Data Wrangler сокращает время, необходимое для сбора и подготовки данных для машинного обучения, с нескольких недель до считанных минут.
Хранилище функций Amazon SageMaker
Хранилище функций Amazon SageMaker – это специализированный репозиторий для хранения, обновления, извлечения и распространения возможностей машинного обучения.
Amazon SageMaker Clarify
SageMaker Clarify делает ваши модели прозрачными, обнаруживая смещения в процессе машинного обучения и объясняя поведение моделей.
Конвейеры Amazon SageMaker
Конвейеры SageMaker – это первый удобный сервис непрерывной интеграции и непрерывной доставки (CI / CD) для машинного обучения.
Менеджер периферии Amazon SageMaker
Менеджер периферии SageMaker обеспечивает эффективное управление моделями машинного обучения на периферийных устройствах и их мониторинг.
Сервисы AI – простое добавление интеллектуальных функций в приложения. Навыки в сфере машинного обучения не обязательны
В сервисах AI имеются готовые средства искусственного интеллекта для приложений и рабочих процессов, что позволяет улучшить результаты бизнеса с помощью технологии, на базе которой работает Amazon. Теперь для создания приложений на базе искусственного интеллекта не нужен опыт работы с технологиями машинного обучения.
AutoML для языка
Боты и виртуальные агенты
Легко создавайте диалоговых агентов для повышения качества обслуживания клиентов и увеличения эффективности работы контакт-центров.
Amazon Lex »
Преобразование речи в текст
Легко добавляйте высококачественные функции автоматического распознавания речи для приложений и рабочих процессов.
Amazon Transcribe »
Преобразование текста в речь
Добавьте функцию преобразования текста в речь с естественным звучанием в ваши приложения.
Amazon Polly »
AutoML для зрения

Обнаружение дефектов продукции и автоматизация проверки качества
Используйте компьютерное зрение (CV) для обнаружения отсутствующих элементов в продукции, повреждений транспортных средств или конструкций, сбоев в работе производственных линий или проверяйте любые физические объекты, в которых важно качество.

Улучшение работы с помощью компьютерного зрения на периферийных устройствах
Улучшайте выполнение операций благодаря автоматизации задач мониторинга и визуальной проверки, таких как оценка качества производства и безопасности работников на территории предприятий, обнаружение проблем в промышленных процессах.
Анализ изображений и видео
Добавьте в свои приложения функции анализа изображений и видео, чтобы каталогизировать ресурсы, автоматизировать рабочие процессы обработки мультимедиа и извлекать смысловую информацию.
Эксперты об AutoML: подробно об инструментах, специалистах и перспективах
Машинное обучение (Machine Learning, ML) называют самой перспективной областью ИИ. По прогнозам объем рынка ML к 2025 году составит $39.98 млрд. Но ML — сложный процесс, для которого нужна команда с экспертизой по работе с данными, а также технологии и инструменты. Часть процессов по работе с ML-моделями можно автоматизировать с помощью инструментов для AutoML.
На VK Cloud Сonf прошла дискуссия, в ходе которой представители российских компаний поговорили об автоматизации процессов машинного обучения, выборе инструментов для AutoML, а также о том, сможет ли AutoML заменить специалистов по данным. Вы можете посмотреть в запись дискуссии на странице VK Cloud. В этой статье – расскажем о главных выводах.
Главная задача AutoML — автоматизация рутины
Инструменты AutoML предназначены для автоматизации процессов машинного обучения и эффективно работают для решения типовых и повторяющихся задач. По мнению участников дискуссии, AutoML-инструменты нужны для избавления дата-инженеров и дата-сайентистов от рутинных задач, но пока не могут полностью заменить специалистов по данным.
«В идеале AutoML должен обеспечивать полную автоматизацию всех процессов работы с ML. Но на практике автоматизировать всё невозможно. Поэтому, в первую очередь, AutoML-решения нужны, чтобы автоматизировать рутину и быстро получать адекватные решения, не тратя силы дата-инженеров и тем более дата-сайентистов»
Николай Никитин, руководитель направления AutoML в NSS Lab, ИТМО
Универсального инструмента для всех – нет
Под каждый тип задач нужен определенный AutoML-инструмент. При этом, надо учитывать не только цели применения машинного обучения, но и компетенции команд.
Например, если в компании есть дата-сайентисты, которые работают с кодом, умеют писать запросы и вызывать нужные библиотеки, больше подойдут решения промышленного класса:
- H2O;
- Data Robot;
- AutoSklearn;
- AutoGluon;
- TPOT.
Для работы с ними нужна экспертиза, но эти инструменты обеспечивают качество и точность обучения ML-моделей.
Для команд без экспертизы лучше No-Code-платформы — например, Pecan. Для работы с ними не нужны навыки программирования, но их точность ниже.
Инструменты AutoML эффективны только в связке с дата-сайентистом
Инструменты автоматизации упрощают работу человека, помогают находить скрытые зависимости и паттерны. Также они позволяют найти неочевидные, но эффективные решения при построении моделей. При этом, на многих этапах работы с моделями машинного обучения по-прежнему нужны дата-инженеры и дата-сайентисты, которые должны формализовать задачу, выбрать переменные, настроить параметры и интерпретировать результат.
«Говорить о создании AutoML в широком смысле, как системы полностью решающей бизнес задачу с помощью машинного обучения пока рано. Работа ML-специалиста остается во многом определяющей. Кроме упомянутых проблем включение человека необходимо для формализации задачи, выбора целевой переменной, выстраивания связи метрик качества решения оптимизационных задач с бизнес-метриками. Открытыми остаются вопросы продуктивизации построенной модели машинного обучения, A/B тестирования»
Александр Мамаев, руководитель группы машинного обучения и анализа данных в компании VK Predict
При выборе AutoML-решения для бизнеса надо учитывать многие параметры
- Исходные задачи машинного обучения. Универсальных AutoML-инструментов нет, поэтому нужно понимать, в чем конкретно должно помочь решение.
- Наличие команды. Если в компании нет большой команды DS (дата-сайентистов), лучше выбрать no-code решение — с ним могут работать даже аналитики. Если специалисты есть, решения промышленного класса будут лучшим вариантом — они дают более высокую точность, хоть и требуют программирования и тонкой настройки.
- Модульность. При работе с инструментами автоматизации ML важно, чтобы они могли в полном объеме решить конкретные-бизнес задачи. Поэтому лучше выбирать модульные инструменты — решения, которые можно самостоятельно адаптировать под себя, добавив целевые функции, эвристики, правила или другие параметры.
«Модульность делает AutoML многозадачным и гибким. Она позволяет покрыть широкий спектр задач, используя всего один фреймворк. При этом, модульный инструмент адаптируется под задачи бизнеса, а не бизнес адаптируется под возможности инструмента»
Николай Никитин, руководитель направления AutoML в NSS Lab, ИТМО
Участники дискуссии отметили, что лучше выбирать инструменты с открытым исходным кодом — это дает возможность изучить, как работает решение, и позволяет изменять его под себя.
AutoML-решения продолжат развиваться
С развитием машинного обучения и искусственного интеллекта AutoML-инструменты становятся востребованнее. Но существующие решения ограничены типами данных, их форматами и другими параметрами. В связи с этим, AutoML-решения требуют оптимизации. Представители российских компаний ожидают, что в ближайшее время:
AutoML-подходы смогу охватить новые области — временные ряды, signal processing, SVI, NLP и другие. Это расширит сферы применения AutoML.
«Текущее состояние АutoML библиотек позволяет снизить трудоемкость ML-решений за счет автоматизации отдельных этапов пайплайна машинного обучения. Библиотеки предоставляют удобное api к параметрическим семействам алгоритмов, автоматизируют подбор гиперпараметров, отбор признаков, ансамблирование, выбор модели. Но алгоритмы предобработки и контроля качества данных, автоматической генерации признаков, специфичных для конкретной прикладной задачи, управления бюджетом и стратегией обучения нуждаются в развитии. Оpen-source-решения настроены в первую очередь на работу с табличными данными лишь частично покрывая обработку временных рядов и естественного языка»
Александр Мамаев, руководитель группы машинного обучения и анализа данных в компании VK Predict
Инструменты автоматизации смогут самостоятельно генерировать общие признаки на основе имеющихся данных. Это позволит находить зависимости и паттерны, которые не может распознать человек.
Появится больше AutoML-решений с UX/UI, но высокой точностью обучения. Это нужно, чтобы команды без дата-сайентистов и большой экспертизы могли использовать технологии машинного обучения, не жертвуя точностью прогнозирования.
На вебинаре Александр Волынский, технический менеджер продукта, VK Cloud и Николай Никитин, руководитель направления AutoML, NSS Lab в ИТМО рассказали, как автоматизировать процесс работы с ML-моделями с помощью инструментов для работы с данными и моделями JupyterHub и MLflow, а также с AutoML-фреймворком FEDOT.