Data science и машинное обучение чем отличается
Перейти к содержимому

Data science и машинное обучение чем отличается

  • автор:

Data Science и Machine Learning: с чего начать и где учиться

Меня зовут Ольга Мажара, я преподаю «Искусственный интеллект» в КПИ им. Игоря Сикорского и являюсь Senior Java Developer в Intellias.

Я училась в КПИ на теплоэнергетическом факультете по специальности программист. В то далекое время Data Science и ML не были мейнстримом и изучались фрагментарно в рамках других курсов, таких как ИИ или математические методы. Позже, после окончания аспирантуры, преподавала машинное обучение на этой же кафедре. Параллельно работала в Samsung R&D Institute Ukraine. Многие кухонные разговоры на работе были посвящены подходам к изучению Data Science, и мне было интересно сравнивать мнение коллег и студентов.

Сейчас я преподаю на факультете информатики и вычислительной техники. Сегодня Data Science и Machine Learning стали довольно популярны — четверть дисциплин и половина дипломных работ на курсе посвящены этому направлению. Однако, если раньше была проблема в недостатке информации, сейчас есть запрос на структуризацию и помощь в выборе курса, который даст необходимый для работы минимум навыков.

Данная статья написана для тех, кто хочет попробовать себя в Data Science и машинном обучении, но не знает, с чего начать и какие знания для этого нужны.

Что такое Data Science и Machine Learning

Прежде чем говорить об обучении, начнем с разбора терминологии. Data Science — это общее наименование дисциплин по изучению данных, а Machine Learning — это подразделение Data Science, которое занимается построением умных моделей. Такие модели могут использоваться для предсказания покупки товара пользователем, рекомендаций в соцсетях (рекомендательные системы), распознавания изображений и так далее.

Data Science специалисты занимаются исследованиями. В иностранных компаниях такой должности соответствуют позиции research-инженеров — это в большей мере математики, которые работают с теоретической частью алгоритмов и исследуют разнообразные закономерности. Machine Learning инженеры, в свою очередь, занимаются построением моделей на основе полученных данных. Но такое разделение существует лишь в теории или же только в некоторых странах.

В Украине Data Science и Machine Learning ранее использовались как слова-синонимы, сейчас же эти понятия уже начинают разделять. В наших реалиях вакансии, где необходимо знание Machine Learning, зачастую называются Data Scientist и наоборот. Поэтому, если вы хотите работать с данными, вам следует изучить и то, и другое.

Процесс обучения Data Science и Machine Learning можно разбить на пять блоков:

  1. Математика
  2. Язык программирования
  3. Алгоритмы машинного обучения
  4. Deep Learning
  5. Отдельные специализации

Рассмотрим каждый из них более детально.

Математика

Для начала давайте разберемся, нужна ли вообще математика в работе с Data Science и Machine Learning. Коротким ответом будет: да, нужна. Безусловно, есть много примеров того, как успешные Data Scientists занимают призовые места на Кaggle-соревнованиях, не имея при этом технического образования. Но даже они согласятся, что знание математики дает значительное преимущество в работе с Data Science.

Несмотря на то, что почти все алгоритмы реализуются в библиотеках Python и R, понимание базовых математических концепций значительно упростит вашу учебу и выполнение прикладных задач. Кроме того, в большинстве статей о машинном обучении содержатся математические выкладки, читать которые без знаний математики будет затруднительно.

Для успешной работы минимально нужно понимать три раздела математики:

  1. Основы линейной алгебры
  2. Основы математического анализа (интегрирование, производные и частные производные)
  3. Основы теории вероятностей и математическая статистика

Язык программирования

Для работы с данными вы должны уметь программировать. Например, чтобы загрузить данные, распарсить, синтезировать новые признаки или воплотить в жизнь любую другую вашу идею. Основным языком программирования большинства Data Science специалистов является Python.

Python сам по себе очень простой язык, в нем реализовано множество библиотек для обработки и анализа данных. Популярные ранее R и Matlab сегодня встречается все реже и реже, поэтому, если вы только начинаете осваивать Data Science, сосредоточьтесь на изучении Python.

Базовые алгоритмы машинного обучения

Для того чтобы начать свой профессиональный путь в машинном обучении, вам необходимо знать основные классы задач Machine Learning, какие существуют алгоритмы и какие подходы позволяют решить тот или иной класс задач. Вы также должны различать алгоритмы разных специализаций, понимать их преимущества и недостатки.

На Coursera есть хороший курс с легкой и наглядной подачей материала, который поможет разобраться во всех этих аспектах. Несмотря на то, что в этом курсе используется Octave, а не Python, вам стоит его пройти. Здесь изучите основы и принципы машинного обучения, а также получите необходимые знания по линейной алгебре. Курс не требует какой-либо предварительной подготовки и подходит всем, кто собирается изучать Data Science.

Теоретическая часть курсов на Coursera бесплатная, а практическая — платная. Но, если у вас нет возможности заплатить за практику, вы можете поискать решения других студентов и специалистов на гитхабе. Кроме того, есть различные специализированные курсы от университетов — Стэнфорда, Гарварда, Мичигана, Университета Дюка и так далее.

Также не забывайте, что машинное обучение — практическая дисциплина, поэтому очень важно применять полученные знания на реальных данных. Возьмите за правило заходить на Kaggle — это платформа для соревнований по Data Science. Здесь вы найдете множество датасетов, на которых сможете разобрать решения других участников и попрактиковать свои аналитические навыки. И со временем сможете попытать счастья в каком-нибудь открытом конкурсе.

Deep Learning

Имея базовое понимание принципов машинного обучения и знание Python, можно приступить к изучению Deep Learning. Это один из разделов машинного обучения, в основе которого лежит использование нейронных сетей. Тут я рекомендую к изучению курс Deep Learning Specialization.

Отдельные специализации

Отдельные специализации в машинном обучении можно проходить, когда вы изучили и материалы и решили несколько прикладных кейсов. Если подытожить, ваше обучение может выглядеть следующим образом:

Сложно ли выучить Data Science

Все зависит от вашего бэкграунда и склада ума. С хорошо развитыми аналитическими способностями и знанием математики ваш путь в Data Science будет довольно простым. Если вы на данный момент учитесь в школе или в университете, старайтесь участвовать в математических олимпиадах. Они помогут сформировать базис аналитического мышления и значительно облегчат освоение профессии в будущем.

Если же решили перейти в Data Science из другой сферы, я бы рекомендовала решать практические задачи на Kaggle. Решайте их самостоятельно, разбирайте решения других людей — все это помогает развивать логику и аналитику. Обратите внимание на блоги различных Data Scientists, YouTube-каналы с разбором и описанием того, как они строили модель, какую логику вкладывали в решение.

Кроме того, в свободном доступе есть много данных, на которых можно практиковаться. Возьмите, к примеру, статистику по заболеваемости COVID-19 и попробуйте найти закономерности (такой конкурс недавно проводили на Kaggle). Вы можете посмотреть на чужие хорошие решения, разобрать логику и постепенно улучшать свои знания алгоритмов. При постоянной практике и наличии аналитического мышления очень скоро вы начнете делать первые успехи в Data Science.

Что почитать

Хотя профильная литература может помочь в вашем обучении, не забывайте, что технологии развиваются очень быстро, а информация в книгах устаревает. Для успеха в Data Science важна практика, понимание предметной области, задач и инструментов, которыми владеете.

И все же советую почитать:

  • Hands-on Machine Learning with Scikit-Learn and TensorFlow;
  • Deep Learning (Adaptive Computation and Machine Learning series);
  • arXiv — ресурс с научными статьями не только по Machine Learning, но и по другим наукам, в том числе фундаментальным.

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

image

Данные становятся движущей силой современного мира, поэтому почти каждый уже сталкивался с такими терминами, как data science, «машинное обучение», «искусственный интеллект», «глубокое обучение» и data mining. Но что же обозначают эти понятия? Какие различия и связи между ними существуют?

Все перечисленные выше термины, несмотря на их взаимосвязь, нельзя использовать в качестве синонимов. Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.

Вкратце о дисциплинах работы с данными

Data science, data mining, машинное обучение, глубокое обучение и искусственный интеллект — основные термины, вызывающие самый высокий ажиотаж. Поэтому прежде чем приступать к подробным объяснениям, давайте вкратце рассмотрим все дисциплины, для которых важны данные.

Дисциплины data science на примере распознавания снимков МРТ.

Data science — это обширная научная область, занимающаяся осмыслением данных. Например, рассмотрим системы рекомендаций, создающие индивидуальные предложения для покупателей на основе истории их поиска. Допустим, если один покупатель искал удочку и прикорм, а другой наряду с этими продуктами искал и рыболовную леску, то есть высокая вероятность того, что первый покупатель будет заинтересован и в приобретении лески. Data science — это обширная область, включающая в себя все процессы и технологии, помогающие создавать такие системы, и в особенности те, которые мы рассмотрим ниже.

Data mining обычно является частью конвейера data science. Однако в отличие от него, data mining больше связан с техниками и инструментами, используемыми для выявления ранее неизвестных паттернов данных и для преобразования данных, чтобы они были более удобны для анализа. Если вернуться к примеру с рыболовными снастями, то data mining будет заключаться в исследовании данных за последние два года для поиска корреляций между количеством продаж удочек до и во время сезонов рыбалки в магазинах, расположенных в разных регионах.

Машинное обучение предназначено для обучения машин на исторических данных, чтобы они могли обрабатывать новые входящие данные на основании изученных паттернов без программирования, то есть без создаваемых вручную команд для выполнения системой действий. Если бы машинного обучения не существовало, то движки рекомендаций было бы создать невозможно, ведь человеку сложно было бы обработать миллионы поисковых запросов, оценок и обзоров, чтобы определить, какие покупатели покупают удочки с прикормом, а какие покупают дополнительно и леску.

Глубокое обучение — это самая ажиотажная область машинного обучения, использующая сложные алгоритмы глубоких нейронных сетей, примером для создания которых стала работа человеческого мозга. Модели глубокого обучения могут получать точные результаты из больших объёмов входящих данных, без указания того, на какие характеристики данных нужно обращать внимание. Представьте, что вам нужно определить, какие удочки генерируют положительные онлайн-отзывы на вашем веб-сайте, а какие отрицательные. В таком случае глубокие нейронные сети могут извлекать важные характеристики из отзывов и выполнять анализ эмоциональной наполненности.

Искусственный интеллект — это сложная тема. Но для простоты скажем, что каждый продукт, работающий с данными в реальном времени, можно назвать ИИ. Давайте вернёмся к нашему примеру с рыбалкой. Вам нужно купить определённую модель удочки, но у вас есть только её фотография и вы не знаете название производителя. Система ИИ — это программный продукт, способный изучить фотографию и предложить варианты названия продукта и магазинов, в которых его можно купить. Для создания системы ИИ нужно использовать data mining, машинное обучение и иногда глубокое обучение.

Объяснение data science, машинного обучения, искусственного интеллекта и big data за шесть минут.

Итак, подведём итог. Data science — это общий термин. Это область исследований наподобие computer science или прикладной математики. Data mining — более узкий термин, связанный с техниками, применяемыми в процессах data science, однако такие аспекты, как распознавание паттернов, статистический анализ и запись потоков данных, применимы в обеих областях. Data science, а, следовательно, и data mining могут использоваться для создания базы знаний, необходимой для машинного обучения, глубокого обучения, а в дальнейшем и для искусственного интеллекта.

После этого краткого описания мы перейдём к более подробным определениям терминов, а также поговорим об их взаимосвязи.

Что такое data science?

Профессор Школы бизнеса Штерна Васант Дхар предложил следующее определение:

«Data science — это исследование обобщаемого извлечения знаний из данных».

Хотя это одно из самых популярных определений data science, оно требует более подробного объяснения.

Data science — это непрерывно эволюционирующая научная дисциплина, нацеленная на понимание данных (структурированных и неструктурированных) и на поиск выводов из них. Data science использует big data и обширное множество различных исследований, методов, технологий и инструментов, в том числе машинное обучение, ИИ, глубокое обучение и data mining. Эта научная сфера сильно зависит от анализа данных, статистики, математики и программирования, а также от визуализации и интерпретирования данных. Всё это помогает дата-саентистам принимать обоснованные решения на основании данных и определять, как извлекать из них ценность и полезные для бизнеса выводы.

Процесс и примеры применения data science

Дата-саентисты работают с огромными объёмами данных, пытаясь добиться их понимания. Благодаря использованию нужных инструментов анализа данных дата-саентисты могут собирать, обрабатывать и анализировать данные для того, чтобы делать суждения и прогнозы на основе полученных выводов.

Иллюстрация взаимосвязей между data science, машинным обучением, искусственным интеллектом, глубоким обучением и data mining.

Уже многие годы data science эффективно используется в различных отраслях для внедрения инноваций, оптимизации стратегического планирования и совершенствования производственных процессов. И огромные корпорации, и мелкие стартапы собирают, а затем анализируют данные для развития своих бизнесов и повышения прибылей. Логика проста ‒ чем больше данных вы можете собрать и обработать, тем больше вероятность того, что вы сделаете из этих данных важные выводы. При помощи предсказательной аналитики бизнесы могут выявлять паттерны данных, о которых они и не догадывались. Одним из примеров таких областей применения является предсказательная оценка лидов.

Например, финансовая компания может выяснить, что клиенты, правильно расставляющие в тексте заглавные буквы, более надёжны, когда дело касается выплаты кредитов онлайн.

Ещё одним популярным примером использования data science является прогнозирование спроса и предложения. Рассмотрим компанию, занимающуюся производством графических карт. Предположим, что компания знает о выпуске новых популярных видеоигр. Она знает приблизительные даты, а также то, каким из игр требуются мощные GPU. В наилучшем для компании случае она сможет выполнить точное предсказание спроса, чтобы спрогнозировать будущие продажи и оптимизировать прибыль. Дата-саентисты сначала собирают исторические данные, сравнивают схожие ситуации с ожидаемыми, производят вычисления, а затем планируют предложение, чтобы покрыть спрос.

Что такое data mining?

Data mining — это набор техник и инструментов, широко используемых учёными и исследователями для извлечения новой и потенциально полезной информации из больших массивов ранее неизвестных данных, а также преобразования их в легко воспринимаемые структуры для дальнейшего применения. В основе современных технологий data mining лежит концепция поиска сокрытых паттернов и аномалий, отражающих многогранные соотношения между сырыми данными.

Процесс data mining и примеры его использования

Процесс data mining состоит из двух частей, называемых предварительной обработкой данных (data pre-processing) и самим data mining. Первая включает в себя такие этапы, как очистка данных, интеграция данных и преобразование данных, в то время как data mining занимается выявлением паттернов и представлением данных в понятном для понимания виде. Data mining часто рассматривается как часть более обширной области под названием Knowledge Discovery in Databases (KDD).

Общая схема этапов процесса data mining.

Практическое применение data mining неограниченно, поскольку его методики полезны в любой отрасли, имеющей дело с данными. Но в первую очередь методики data mining используются организациями, реализующими проекты, основанные на data warehousing. Например, анализ схожести корзин, предназначенный для выявления продуктов, которые покупатели склонны покупать вместе, широко применяется в электронной коммерции и розничной торговле.

Раздел «Frequently bought together» сайта Amazon — пример трендов, выявленных при помощи data mining.

На скриншоте представлено три разных товара, продаваемых на Amazon; утверждается, что люди часто покупают эти товары вместе, и поначалу связи между ними не видно. Да, перчатки и шарф выглядят логично, однако обмотанная колючей проволокой бейсбольная бита кажется здесь неподходящей. На самом деле, такое сочетание товаров очень популярно из-за сериала «Ходячие мертвецы». Благодаря data mining можно выявлять даже такие сложные взаимосвязи и странные паттерны в поведении покупателей.

Что такое машинное обучение?

Машинное обучение — это набор методик, инструментов и компьютерных алгоритмов, используемый для обучения машин анализу, пониманию и нахождению сокрытых паттернов в данных, а также для создания прогнозов. Конечная цель машинного обучения заключается в использовании данных для самообучения, устраняющего необходимость программирования машин вручную. После обучения на массивах данных машины могут применять запомненные паттерны к новым данным, делая благодаря этому более точные прогнозы.

Машинное обучение бывает разных видов:

При обучении с учителем машины обучаются находить решение нужной задачи при помощи людей, собирающих размечающих данные, которые затем передаются системам. Машине указывают, на какие характеристики данных нужно обращать внимание, чтобы она могла выявлять паттерны, помещать объекты в соответствующие классы и оценивать правильность своих прогнозов.

При обучении без учителя машины учатся распознавать паттерны и тренды в неразмеченных данных обучения без надсмотра пользователей.

При обучении с частичных привлечением учителя модели обучаются на небольшом объёме размеченных данных и гораздо большем объёме неразмеченных данных, используя обучение с учителем и без учителя.

При обучении с подкреплением модели, помещённые в незнакомое им окружение, должны найти решение задачи путём последовательных проб и ошибок. Аналогично системе, используемой во многих играх, машины получают наказание за ошибку и вознаграждение за успешную попытку. Таким образом они учатся находить оптимальное решение.

Процесс машинного обучения и примеры его использования

Для демонстрации работы машинного обучения мы возьмём классический пример фильтрации спама в электронной почте. Если вы откроете папку спама в своём аккаунте электронной почты, то увидите множество ненужных и раздражающих сообщений. Системы распознавания спама помогают в отфильтровывании неуместных сообщений от важных пользователям.

Как работает машинное обучение в распознавании спама.

Системы анализируют содержимое электронных писем и классифицируют данные при помощи алгоритмов машинного обучения. Задача таких моделей — определять, является ли письмо спамом. Так как распознавание спама — задача для машинного обучения с учителем, модель сначала обучается на размеченных массивах данных — примерах спама и обычных сообщений, выбранных людьми. Подробнее о подготовке данных в машинном обучении можно узнать из нашей статьи или из видео:

Основы подготовки данных для машинного обучения

Один из популярных способов обучения модели — это наивный байесовский алгоритм, вычисляющий вероятность событий или результатов на основании полученных ранее знаний. Этот способ выполняет корреляцию одних признаков с спам-сообщениями и других признаков — с обычной почтой. Признаки — это слова или фразы, находящиеся в теле и заголовке письма. Затем он вычисляет вероятность того, что конкретное сообщение является спамом.

Вам известно, что сообщение с заголовком «Вы выиграли 1000000 долларов», скорее всего, является спамом, но машине сначала нужно этому научиться. В процессе изучения моделью паттернов она может точно присваивать каждому новому письму оценку. Письма, оценка которых превышает пороговое значение, попадают во входящие, а письма с более низкой оценкой помечаются как мусорные. При пользовании сервисами электронной почты люди вручную помечают некоторые входящие сообщения как спам, добавляя новые данные в массив данных обучения системы. Это часть конвейера машинного обучения называется переобучением модели, она гарантирует актуальность системы и обеспечение ею точных результатов.

Ещё одним примером машинного обучения является медицинское прогнозирование того, какие пациенты имеют повышенную вероятность заболевания, при помощи анализа их электронных медицинских записей и жалоб. Замечательный пример машинного обучения — это системы распознавания мошенничества. Они помогают сигнализировать о возможном мошенничестве, анализируя подозрительное поведение пользователей.

Что такое глубокое обучение?

Глубокое обучение — это подмножество машинного обучения, однако дополненное сложными нейронными сетями, источником для создания которых послужили биологические нейронные сети в человеческом мозге. Нейросети содержат узлы, находящиеся в нескольких взаимосвязанных слоях, выполняющие коммуникацию друг между другом для понимания объёмных входящих данных.

Существует множество видов нейросетей, например, свёрточные, рекурсивные и рекуррентные. Типичная нейронная сеть состоит из входного слоя, нескольких скрытых слоёв и выходного слоя, наложенных друг на друга.

Иллюстрация глубокой нейронной сети с тремя скрытыми слоями.

Процесс глубокого обучения и примеры его использования

На показанном ниже изображении мы с лёгкостью можем отличить корги и буханки хлеба. Машины не могут выполнять эту задачу столь же просто. Прежде чем понять, что находится на изображении, и выдать точные результаты, им нужно учиться на огромных объёмах данных, создавать алгоритмы и преобразовывать входящие данные в машинночитаемый вид.

Пример распознавания изображения «корги или буханка хлеба». Источник: Imgur

Допустим, нам нужно создать программу, распознающую на фотографиях корги, или, в более общем случае, распознающую на изображениях определённые объекты. Для распознавания изображений, а также других данных, которые можно преобразовать в визуальный формат (например, звуковых спектрограмм) лучше всего подходят модели глубокого обучения.

Давайте вернёмся к нашему примеру. Мы берём множество фотографий корги и буханок; каждое изображение имеет размер 30×30 пикселей. Группа нейронов будет соответствовать каждому пикселю входящего изображения (суммарно 900), а каждый нейрон обозначает свою активацию (число, обозначающее значение конкретного пикселя). Активации в одном слое определяют активации в следующем.

Нейроны соединены линиями, называемыми синапсами, и каждая из этих линий имеет вес, определяемый значениями активации. Чем больше вес, тем сильнее он будет доминировать в следующем слое нейросети.

В каждом слое есть нейроны смещения, перемещающие функции активации в разных направлениях. Сумма весов, значений активации и значений смещения называется взвешенной суммой слоя нейросети. Взвешенная сумма в одном слое создаёт входящие данные для другого, пока они не достигнут последнего выходного слоя.

Процесс глубокого обучения.

Активация нейронов в выходном слое обозначает величину того, насколько, по мнению системы, изображение соответствует задаче классификации. В нашем случае это вероятность того, что на конкретном фото представлен корги, а не буханка хлеба. Нейросеть считается успешно обученной, когда значение весов, создающих результат, ближе всего к реальности.

Работа алгоритмов глубокого обучения в задачах распознавания изображений

Глубокое обучение находит множество практических применений: от технологий распознавания речи, позволяющих преобразовывать устную речь в текстовый формат (это помогает тысячам людей, испытывающим трудности с вводом кнопками и клавишами), до систем поиска лекарств, способных прогнозировать фармакологические свойства лекарств в различных биологических условиях. Ещё одним примером успешной реализации алгоритмов глубокого обучения является Google Переводчик, создающий качественные переводы письменного текста на более чем ста языках.

Что такое искусственный интеллект?

В традиционной терминологии искусственный интеллект (ИИ) — это просто алгоритм, код или техника, позволяющая машинам имитировать, развивать и демонстрировать человеческое понимание или поведение. В мире бизнеса ИИ — это продукт для обработки данных в реальном времени, способный выполнять операции и решать задачи примерно так же, как это делает человек. В функции систем ИИ включены обучение, планирование, рассуждение, принятие решений и решение задач.

Проблема в том, что понятию ИИ сложно дать точное и недвусмысленное определение.

Мы живём в эпоху так называемого слабого ИИ, или узкого искусственного интеллекта (artificial narrow intelligence, ANI), то есть такие технологические продукты умеют делать только то, чему их научили. Сильный ИИ, или artificial general intelligence (AGI) встречается пока только в фильмах и книгах, где машины могут обобщённо решать различные задачи так, как это делают люди. Можно вспомнить такие фильмы, как «Я, робот» (2004 год) или «Чаппи» (2015 год). Также существует третий тип ИИ — искусственный сверхинтеллект (artificial superintelligence, ASI), обладающий более мощными способностями, чем человек. Естественно, до его реализации нам ещё далеко.

Слабый и сильный ИИ.

Не существует консенсуса о том, какие из открытий больше связаны с ИИ, чем остальные, как и нет согласия в том, чем же является ИИ — угрозой или спасением. Вот что говорил Билл Гейтс в одном из своих интервью:

«Google, Facebook, Apple, Microsoft — все они быстро совершенствуют своё ПО искусственного интеллекта […] искусственный интеллект будет чрезвычайно полезен, а риск того, что он станет сверхумным, далеко в будущем».

Чтобы спать спокойно, прочитайте нашу статью о том, захватит ли AGI мир.

Примеры использования искусственного интеллекта

Хотя от человекоподобного уровня ИИ роботов нас отделяет не менее нескольких десятков лет, учёные уже сегодня могут решать при помощи слабого ИИ кучу потрясающих задач. Возьмём для примера чат-ботов. Благодаря пониманию речи и текста на естественном языке системы ИИ общаются с людьми естественным образом. Другими замечательными примерами ИИ являются беспилотные автомобили, промышленные роботы и спам-фильтры.

Ключевые различия между ИИ, машинным обучением, глубоким обучением, Data Science и Data Mining

Подводя итоги, мы выделим ключевые различия между data science, data mining, искусственным интеллектом, машинным обучением и глубоким обучением.

  • Data science можно рассматривать как зонтичный термин для всех дисциплин, используемых для понимания больших объёмов данных. Исследования data science — основа для создания умных ИИ-продуктов с использованием машинного или глубокого обучения.
  • В отличие от data science, data mining — это набор техник и инструментов, используемых для сбора, очистки и анализа данных с целью извлечения из них интересных паттернов и трендов. Также data mining обычно используется при работе над проектами ИИ.
  • ИИ связан с процессом создания функционального продукта для обработки данных, который может самостоятельно решать поставленные задачи, что отдалённо напоминает решение задач человеком.
  • Машинное обучение — это система ИИ, которая может самообучаться на основании алгоритмов и ранее выученных паттернов.
  • Глубокое обучение — это разновидность машинного обучения, однако в нём используются нейронные сети для создания прогнозов на основе обработанных данных.
  • В большинстве проектов ИИ используется или машинное, или глубокое обучение, поскольку так называемое «интеллектуальное» поведение машин требует огромного количества данных, что, в свою очередь, требует исследований в сфере data science и data mining.
  • Data Mining
  • Обработка изображений
  • Big Data
  • Машинное обучение
  • Искусственный интеллект

Data science и Machine learning — отличие и сходства

Data science и Machine learning - отличие и сходства

В сфере работы с данными часто можно встретить два понятия – Data Science и Machine Learning. Первое связано с исследованием данных, второе – с машинным обучением (к написанию программ для станков эта деятельность не имеет отношения). Более подробный рассказ о том, в чем отличие Data Science от Machine Learning, ждет вас далее.

Что такое Machine Learning и Data Science

  1. сбор, очистка и визуализация данных;
  2. использование методов неструктурированного управления данными;
  3. разработка программного обеспечения для автоматизации обработки данных;
  4. построение моделей и создание прогнозов.

Machine Learning – это особая область работы с данными, которая помогает обрабатывать массивы с информацией в автоматическом режиме, без участия человека. Это становится возможным благодаря использованию целого набора методик и алгоритмов, помогающих машине находить закономерности в данных и использовать их при прогнозировании.

Специалист по машинному обучению – это инженер, который и создает программу или компьютерную модель для тестирования различных решений и поиска наилучшего из них. Алгоритмы, созданные для этих целей, могут создавать прогнозы даже для сложных вопросов.

Машинное обучение применяется при прогнозировании трафика, создании рекомендательных систем (например, для фильмов в онлайн-кинотеатре), для сегментации клиентов, ранжирования выдачи в поиске и других процессов.

Какие навыки нужны, чтобы стать специалистом по Data Science или Machine Learning

Для работы с данными в рамках Data Science необходимо знание языка программирования Python или R, хотя бы базовое понимание SQL, а также владение алгоритмами машинного обучения.

Языки программирования помогают исследователю получать из необработанных данных больше информации, выводов и закономерностей, чем при ручном изучении. Без них целостный анализ не получится, поэтому Python или R – основа основ.

Вся неструктурированная информация изначально представлена в виде огромного массива, который нужно перенести в базу данных, а потом уже обрабатывать. Для этого нужно уметь работать в системах на основе SQL: MySQL, Oracle SQL, PostgreSQL и другие.

Алгоритмы Machine Learning – неотъемлемая часть Data Science, ведь они помогают автоматизировать множество рутинных процессов. Поэтому каждый исследователь данных должен знать хотя бы основы машинного обучения.

Если машинное обучение – часть науки о данных, то какие навыки необходимы таким специалистам? В первую очередь, инженер Machine Learning должен:

  1. Знать основы информатики и статистики;
  2. Уметь оценивать данные и составлять на их основе модели;
  3. Понимать и успешно применять алгоритмы;
  4. Владеть методами обработки естественного языка;
  5. Уметь проектировать архитектуры данных.

Если исходных данных слишком мало, нужно уметь их генерировать или собирать из других источников, а если слишком много – автоматизировать их обработку. В обоих случаях инженер машинного обучения должен создать модель и научить ее действовать по выбранному алгоритму.

На первый взгляд, Data Science и Machine Learning можно представить как взаимозаменяемые сферы деятельности. Но на деле это не совсем так – наука данных и машинное обучение – это в чем-то пересекающиеся, но существующие независимо друг от друга области.

Кратко: Data Science и машинное обучение – чем отличается одно от другого

Чтобы наш заключительный раздел получился действительно кратким, представим отличия Data Science от Machine Learning в виде таблицы.

Data Science Machine Learning
Фокус на алгоритмах и статистических исследованиях Основное внимание уделяет разработке ПО и программированию
Работа с неконтролируемыми и контролируемыми алгоритмами Автоматизация сложных аналитических процессов
Использование регрессии и классификации Использует масштабирование разрозненных данных
Интерпретация результатов обязательна Обработка данных необходима для планирования
Презентует результаты анализа менеджерам и руководителям, чтобы те принимали управленческие решения Результаты работы включаются в таблицу или интегрируются в пользовательский интерфейс

Другими словами, Machine Learning – это алгоритмы и ПО для автоматизации анализа данных, а Data Science – это исследование массивов информации, которое проводится для получения практической пользы. Для последнего используются разные методы, в том числе машинного обучения. Если вы хотите освоить одну из этих профессий, пройдите онлайн-курсы, выбрать которые можно с помощью нашего сервиса.

Data Science vs. Machine Learning: What’s the Difference?

What is the difference between data science and machine learning? Which potential career path is right for you? Find out more here.

[Feature image] Person examining data on two separate computers

Data science and machine learning are two concepts that fall within the field of technology and using data to further how we create and innovate products, services, infrastructural systems, and more. Both correspond with career paths that are in-demand and high-earning.

The two relate to each other in a similar way that squares are rectangles, but rectangles are not squares. Data science is the all-encompassing rectangle, while machine learning is a square that is its own entity. They are both often used by data scientists in their work and are rapidly being adopted by nearly every industry.

Pursuing a career in either field can deliver high returns. According to US News, data scientists ranked as third-best among technology jobs, while a machine learning engineer was named the best job in 2019 [1, 2]. If you decide to learn programming and statistical skills, your knowledge will be useful in both careers.

Read on to learn the difference between data science and machine learning.

Data science vs. machine learning: What’s the difference?

Data science is a field that studies data and how to extract meaning from it, whereas machine learning is a field devoted to understanding and building methods that utilize data to improve performance or inform predictions. Machine learning is a branch of artificial intelligence.

[Featured image] Venn diagram comparing Data Science vs Machine Learning

In recent years, machine learning and artificial intelligence (AI) have dominated parts of data science, playing a critical role in data analytics and business intelligence. Machine learning automates the process of data analysis and goes further to make predictions based on collecting and analyzing large amounts of data on certain populations. Models and algorithms are built to make this happen.

What is data science?

Data science is a field that studies data and how to extract meaning from it, using a series of methods, algorithms, systems, and tools to extract insights from structured and unstructured data. That knowledge then gets applied to business, government, and other bodies to help drive profits, innovate products and services, build better infrastructure and public systems, and more.

To gain a better understanding of data science, watch this video:

Skills needed

To build a career in data science, such as becoming a data scientist, you’ll want to gain programming and data analytics skills.

  • Strong knowledge of programming languages Python, R, SAS, and more
  • Familiarity working with large amounts of structured and unstructured data
  • Comfortable with processing and analyzing data for business needs
  • Understanding of math, statistics, and probability
  • Data visualization and data wrangling skills
  • Knowledge of machine learning algorithms and models
  • Good communication and teamwork skills

I liked that the [IBM Data Science Professional Certificate] had introductory courses covering a wide range of topics with practical assignments, engaging and clear video lectures, and easy-to-understand explanations . this program strengthened my portfolio and helped me in my career.

— Mo R.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *