Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)
Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Наука о данных
Data Science
Наука о данных (Data Science) — профессиональная деятельность, связанная с эффективным и максимально достоверным поиском закономерностей в данных, извлечение знаний из данных в обобщённой форме, а также их оформление в виде, пригодном для обработки заинтересованными сторонами (людьми, программными системами, управляющими устройствами) в целях принятия обоснованных решений.
Что такое Data Science?
Математические и алгоритмические методы, оптимизированные для эффективного выявления сложных закономерностей. Наука о методах анализа данных, сформировавшаяся на стыке математики, компьютерных наук и бизнеса, включающая в себя построение сложных аналитических моделей на основе данных для извлечения новых знаний.
Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России) [1] .
Структура Data Science Проекта
Data Science — как это работает?
Традиционные риски Data Science проектов
- Высокая стоимость реализации проекта приведет к финансовым потерям (не окупится)
- Отсутствие подробной отчетности по проекту не позволит отчитаться о потраченных средствах или принять правильное решение о продолжении проекта
- Внедрение закрытого алгоритма или программы («Черный ящик») сделает невозможным дальнейшее изменение или модернизацию проекта внешними или внутренними ресурсами
Big Data≠Data Science
- ETL\ELT
- Технологии хранения больших объемов структурированных и не структурированных данных
- Технологии обработки таких данных
- Управление качеством данных
- Технологии предоставления данных потребителю
- Распознавание видео
- Распознавание текстов
- Распознавание речи
- Построение рекомендательных моделей
- Сегментация
- Кластеризация и т.д.
Data Science в реалиях производства
- Сложный и длительный во времени процесс
- Требуется глубокое понимание предметной области
- Разная частота съема данных и не все оцифровано
- Нет сквозного контроля и фиксации событий тех.процесса
- Доверие к модели со стороны технологов и операторов
- Для проверок модели требуются эксперименты с данными реального времени на производстве
Новости и основные тенденции в области данных
2023: Названы 5 трендов на рынке Data Science
Значительное влияние на мировую отрасль наук о данных и машинного обучения (Data Science and Machine Learning, DSML) окажут системы генеративного искусственного интеллекта. Об этом говорится в отчете Gartner, опубликованном 1 августа 2023 года.
Значительное влияние на мировую отрасль DSML окажут системы генеративного ИИ
Опрос Gartner, в котором приняли участие более 2500 руководителей различных организаций, показал, что 45% компаний увеличили инвестиции в ИИ после появления чат-бота ChatGPT. При этом 70% респондентов сообщили, что изучают возможность использования средств генеративного ИИ, тогда как 19% уже экспериментируют с такими системами. Gartner выделяет пять ключевых тенденций, которые определят дальнейшее развитие отрасли DSML.
Тренд 1. Экосистемы облачных данных
Решения по обработке данных преобразуются из автономного программного обеспечения или смешанных развертываний в полноценные облачные платформы. К 2024 году, полагает Gartner, 50% новых приложений в облаке будут основаны на целостной экосистеме данных, а не на точечных массивах, интегрированных вручную. Российский рынок мобильных приложений для бизнеса и госсектора: крупнейшие игроки, тенденции и перспективы. Обзор TAdviser
Растет потребность в ИИ-средствах на периферии (Edge AI). Такие инструменты позволяют обрабатывать данные в момент их создания, что помогает организациям получать ценную информацию в режиме реального времени и соблюдать строгие требования к конфиденциальности. Gartner прогнозирует, что к 2025 году более 55% всего анализа данных с помощью глубоких нейронных сетей будет происходить на периферии. Для сравнения: в 2021 году этот показатель составлял менее 10%.
Тренд 3. Ответственный ИИ
Подход, основанный на ответственном использовании, позволяет извлечь максимальную выгоду от внедрения технологий ИИ и обойти возможные проблемы, связанные с доверием и общественными рисками. Концепция ответственного ИИ охватывает многие деловые и этические аспекты. Gartner рекомендует организациям соблюдать осторожность при внедрении нейросетевых моделей и применять бизнес-стратегию на основе оценки рисков для обеспечения ценности ИИ. Это поможет защититься от финансовых потерь, судебных исков и репутационного ущерба.
45% компаний увеличили инвестиции в ИИ после появления ChatGPT
Тренд 4. Искусственный интеллект, ориентированный на данные
Применение подхода, ориентированного на данные, обеспечит возможность создания более совершенных ИИ-приложений и сервисов. Использование генеративного ИИ для формирования синтетических данных — это одна из быстрорастущих областей, способствующих эффективной тренировке моделей машинного обучения. Gartner прогнозирует, что к 2024 году 60% данных для моделирования реальности, новых сценариев применения ИИ и снижения рисков будут синтетическими. В 2021 году этот показатель равнялся только 1%.
Тренд 5. Ускорение инвестиций в ИИ
Финансовые вливания в технологии ИИ продолжат увеличиваться, чему будет способствовать расширение использования соответствующих инструментов. К 2026-му, полагают эксперты Gartner, более $10 млрд будет инвестировано в стартапы, которые применяют масштабные модели ИИ, обученные на огромных объемах данных. [3]
2020: Наука о данных: пять ключевых тенденций
1. Ускорение внедрения ИИ в бизнесе
В течение последних нескольких лет ИИ постепенно становится одной из основных технологий как для малых, так и для крупных предприятий, и есть все основания полагать, что это будет продолжаться в течение следующих нескольких лет. Сегодня мы находимся на начальных этапах применения ИИ, но вполне вероятно, что уже к концу 2020 г. мы увидим новые и более прогрессивные методы его задействования в научных областях и бизнесе. Движущей силой такого быстрого роста является тот факт, что ИИ позволяет компаниям любых размеров значительно повысить эффективность и результативность своих бизнес-процессов и операций. С его помощью можно также достичь огромных успехов в управлении клиентскими и пользовательскими данными [4] .
Многие предприятия столкнутся со сложностями при внедрении ИИ, что связано с ограниченными финансовыми ресурсами или недостатком квалифицированного персонала, но те, кто инвестирует в него средства, получат ощутимую отдачу в виде продвинутых приложений, разработанных с использованием ИИ, МО и других технологий, которые значительным образом изменят те методы работы, которые приняты сегодня.
Еще одна тенденция, которая в ближайшие месяцы примет видимые очертания — автоматизированное МО, которое помогает трансформировать науку о данных при помощи улучшенного управления данными. Это приведет к тому, что начинающим специалистам по данным потребуется пройти специализированные курсы, чтобы изучить методы глубокого обучения.
2. Быстрый рост IoT
Согласно IDC, к концу 2020 года инвестиции в технологии Интернета вещей достигнут 1 трлн. долл., что является очевидным свидетельством ожидаемого роста числа «умных» и подключенных устройств. Многие люди уже применяют приложения и устройства, чтобы с их помощью управлять своими бытовыми приборами — электропечами, холодильниками, кондиционерами и телевизорами. Все это примеры базовой технологии IoT, и пользователи часто могут не знать, что за ней скрывается. Смарт-устройства типа Google Assistant, Amazon Alexa и Microsoft Cortana позволяют людям легко автоматизировать повседневные задачи в домашних условиях. Это только вопрос времени, когда компании задействуют их в комбинации с бизнес-приложениями и начнут активнее инвестировать в эту технологию. Наиболее заметный прогресс от применения IoT ожидается на производстве — там она поможет оптимизировать работу заводских цехов.
3. Эволюция аналитики больших данных
Эффективный анализ больших данных, несомненно, помогает предприятиям получить значительное конкурентное преимущество и достичь основных целей. Сегодня они применяют для анализа своих скоплений данных различные инструменты и технологии, такие как Python. Все больше компаний сосредоточились на выявлении причин, стоящих за определенными событиями, которые происходят в настоящее время, и в этом случае на помощь приходит прогнозная аналитика — она позволяет выявлять тенденции и прогнозировать, что может произойти в будущем. К примеру, она пригодится для того, чтобы определить пользовательские привычки отталкиваясь от истории просмотров или покупок. Специалисты по продажам и маркетингу могут проанализировать эти модели, чтобы создать более целенаправленные стратегии для привлечения новых клиентов и удержания уже имеющихся. Amazon применяет прогностические модели для наполнения складских запасов исходя из спроса в том или ином регионе продаж.
4. Edge Computing на подъеме
Периферийные вычисления набирают популярность, и ответственность за это несут датчики. Наступление этой технологии продолжится в значительной степени благодаря популяризации IoT, которая захватывает основные вычислительные системы. Edge Computing предоставляет компаниям возможность хранить потоковые данные рядом с источниками и анализировать их в режиме реального времени. Периферийные вычисления также являются альтернативой аналитике больших данных, которая требует высокопроизводительных устройств хранения данных и гораздо большей пропускной способности сети. Число устройств и датчиков, собирающих данные, растет экспоненциально, поэтому все больше компаний внедряют Edge Computing благодаря его возможностям в плане решения проблем, связанных с пропускной способностью, задержкой и связью. Кроме того, сочетание периферийных и облачных технологий формирует синхронизированную инфраструктуру, которая может минимизировать риски, связанные с анализом и управлением данными.
5. Растущий спрос на специалистов по безопасности данных
Без сомнений, внедрение ИИ и МО приведет к появлению многих новых специальностей в ИТ- и высокотехнологичных отраслях. Одной из самых востребованных станет специалист в области безопасности данных. На рынке труда уже в достаточном количестве имеются эксперты в области ИИ, МО и специалисты по данным, но помимо них существует потребность в специалистах по безопасности данных, которые умеют так анализировать и обрабатывать данные, чтобы передавать их клиентам в безопасном виде. Для выполнения этих функций они должны хорошо разбираться в новейших технологиях, таких как Python и другие популярные языки, которые применяются в науке о данных и аналитике. Четкое понимание концепций Python поможет решить проблемы, связанные с безопасностью данных.
Обучение Data Science
2020: НИТУ «МИСиС», SkillFactory и Mail.ru Group запускают русскоязычную онлайн-магистратуру по Data Science
28 мая 2020 года компания VK (ранее Mail.ru Group) сообщила, что НИТУ «МИСиС» и образовательная платформа в области Data Science – SkillFactory – заключили соглашение о создании совместной онлайн-магистратуры «Наука о данных» и сотрудничестве в области развития образовательных технологий в высшем образовании. Это партнерство частной образовательной компании с государственным вузом по модели OPM (Online Program Management). Индустриальным партнером программы выступает Mail.ru Group. Программу также поддерживают Nvidia, Ростелеком и Университет НТИ «20.35».
Выпускники программы смогут работать в областях Big Data Engineering, Machine Learning Development и Artificial Intelligence Development. Цель программы – вовлечь в сферу науки о данных более 1 000 молодых специалистов к 2025 году в рамках федерального проекта «Кадры для цифровой экономики», задача которого подготовить не менее 120 000 выпускников вузов по ИТ-направлениям.
Занятия будут вести профессора НИТУ «МИСиС» и практикующие специалисты из Mail.ru Group, Яндекса, банков Тинькофф и ВТБ, компаний Lamoda, BIOCAD, АльфаСтрахование и др. Интенсивная программа онлайн-магистратуры позволит студентам овладеть знаниями и навыками, востребованными работодателями, получить фундамент для дальнейшего развития и построения карьеры, пройти стажировку в компаниях-партнерах программы.
отметила Алевтина Черникова, ректор НИТУ «МИСиС»
Ещё одна особенность программы – работа с менторами. Кроме преподавателей со студентами будет работать команда менторов – специалистов в области Data Science. Они будут помогать студентам с возникающими во время обучения сложностями, давать содержательную обратную связь по выполненным работам, делиться опытом и знаниями по профессии. Поддержка менторов будет доступна студентам в чате в режиме реального времени.
Технологическим партнером программы стала компания SkillFactory, обеспечивающая сопровождение образовательного процесса. Для каждого студента будет сформирован индивидуальный план обучения, что позволит управлять его образовательным опытом и мотивацией, что, в свою очередь, повышает результативность обучения. Студенты будут учиться на интерактивных тренажерах и решать практические задачи на реальных данных. Среди дисциплин в рамках программы: язык программирования Python, Machine Learning, Deep Learning, Big Data, Computer Vision.
Data science python что это
Data Science, то есть наука о работе с данными, это не просто новое модное слово в мире IT. Это то, что изменит мир программирования, бизнеса и даже потребителей не менее, чем в свое время его изменило изобретение парового двигателя и персонального компьютера. На самом деле, Data Science уже его меняет, свидетельство тому – множество стартапов в области больших данных и искусственного интеллекта.
Редакция AIN.UA объясняет на картинках, что же это такое и каким образом меняет наш мир. Помогает нам разобраться в этой теме Максим Орловский, ментор Cloud Business City (первый виртуальный бизнес-центр в облаке, который развивает Data Science проекты), PhD, MD, руководитель BICA Labs, CEO Кодрум, сооснователь BanQ Systems и спикер на грядущей конференции «Data Science, машинное обучение и нейросети». Максим изучает вопросы искусственного интеллекта и сопутствующих ему технологий с 1998 года.
Data Scientist – работа настоящего и будущего
Специалисты по данным последние годы становятся все востребованнее. А количество данных, с обработкой и визуализацией которых не справляется простой разработчик – все больше. Множество сервисов и программ собирают данные, которые можно использовать для поиска решений, составления прогнозов и аналитики. И для работы с ними нужны профильные специалисты. Разбираемся, кто такой Data Scientists, чем он занимается и как им стать.
Кто такой Data Scientist?
Давайте начнем наше знакомство с профессией с области, в которой работают Data Scientists. Data Science – это наука о данных, которая занимается изучением данных, их анализом различными методами и последующим преобразованием данных в полезные знания. Раньше обработать данные человек мог вручную, но сейчас их количество стало настолько огромным, что для обработки часто требуется искусственный интеллект. Поэтому наука активно взаимодействует с машинным обучением, математикой, статистикой и анализом данных.
Нас постоянно окружают результаты работы Data Scientists, например, мы ежедневно смотрим прогноз погоды, реклама предлагает нам определенные товары, авиасервисы прогнозируют стоимость билетов, врачи с помощью программ могут предсказать диагнозы, а голосовые помощники выполняют множество наших просьб. Всем этим и многими другими вещами управляет специалист по данным. Data Scientist – это специалист, который занимается поиском закономерностей в больших массивах данных, анализирует и хранит их. Профессия Data Scientist считается одной из самых высокооплачиваемых и сложных в мире ИТ.
Стоит обратить внимание на то, что Data Science стала неотъемлемой частью будущего. Сейчас ее активно используют в стартапах, IT компаниях, различных бизнесах, чтобы предоставлять наиболее точные данные и прогнозы, быть ближе к пользователю, автоматизировать свои решения и повысить маржинальность бизнеса.
Спрос на Data Scientists ежегодно растет. Например, по информации веб-сайта по поиску работы Indeed, за 2019 год вакансий Data Scientists стало на 29% больше.
Data Scientists постоянно ищут паттерны и тренды в огромных наборах данных, используя многообразные тулы, техники и критическое мышление, чтобы найти практическое решение для реальных data-centric проблем. Давайте подробнее поговорим о том, что входит в обязанности специалистов по данным.
Чем занимается специалист Data Science?
Задачи специалиста по данным:
- находит скрытые закономерности и связи во время изучения данных;
- анализирует данные по необходимому критерию, который покажет эффективность создаваемой модели;
- визуализирует данные;
- программирует и тренирует модель машинного обучения;
- оценивает с коллегами модель с точки зрения экономики;
- выявляет богатые источники данных, присоединяется к ним с другими потенциально неполными источниками данных и очищает полученный набор;
- анализирует риски;
- анализирует внутренние процессы;
- занимается внедрением моделей в существующие инфраструктуры;
- дорабатывает модель и следит за процессами;
- предлагает новые направления для развития бизнеса клиента;
- занимается разработкой отчетов и прогнозированием;
- консультирует руководителей и менеджера по продукту, основываясь на полученных данных.
Благодаря работе Data Scientist бизнес принимает правильные решения и опережает своих конкурентов, продукты становятся ближе к пользователям, а жизнь людей становится удобнее.
Чтобы специалистам по обработке и управлению данными преуспеть в этой области, им часто недостаточно быть эффективными просто в преобразовании массы неструктурированных данных в форму, удобную для анализа. Желательно также уметь анализировать сами обработанные объемы данных, проводить фактический анализ.
Data Scientist не равно Data Engineer
Часто в разговорах о Data Scientist упоминают и Data Engineer? Нужно понимать, что это не одно и тоже.
Data Engineers обеспечивают на проектах качественную инфраструктуру данных и уделяют внимание интеграции, моделированию, оптимизации и качеству данных. Эти специалисты влияют и на прикладные программы в оперативном контексте в области аналитики, микросервисной архитектуры и операционной аналитики. Получается, что Data Engineers разрабатывают, тестируют и поддерживают инфраструктуру данных, а также занимаются данными: их очисткой, обработкой и трансформацией. Уже очищенные данные попадают к аналитикам и Data Scientists.
У двух специалистов разные цели: Data Engineers работают над созданием пайплайна обслуживания алгоритма машинного обучения. А Data Scientists проверяют гипотезы в системе данных, и пишут алгоритмы. Оба специалиста хотят сделать данные доступными и качественными и часто работают вместе. Отсюда и постоянная путаница в их обязанностях и ответственности.
Так, Data Scientists извлекают инсайты из данных для стратегии компании, принятия решений и внедрения алгоритмов. А Data Engineers работают в команде над тем, чтобы повысить продуктивность аналитиков и быть связующим звеном между разными участниками разработки ПО.
Говорят, чтобы стать Data Science специалистом нужно постоянно учиться, но так можно сказать про многие профессии. Давайте разберемся, какие знания вам пригодятся в этой профессии, если вы только в нее попали, а также если вы уже работаете на позиции junior и планируете расти.
Что должен знать начинающий Data Scientist?
Data scientist должен уметь писать код. Специалист по данным занимается написанием модели для оценки гипотез, аналитики или оценки данных. Этого никак не сделать без знаний основных языков программирования, применяемых в области Data Science. Вам пригодятся знания:
- Java, Hive для работы с Hadoop;
- Python – его основы и понимание того, как работать с ним в анализе данных. Также познакомьтесь с инструментами Matplotlib, Numpy, Scikit, Skipy;
- SQL – для извлечения данных;
- C++ с инструментами BigARTM, Vowpel Wabbit, XGBoost;
- языка R, который пригодится для расчетов статистики.
- Математика.
Аналитик данных должен пройти курсы математического анализа, математической статистики, линейной алгебры, а также знать, что такое теория вероятности. Эти знания пригодятся, для того чтобы составлять прогнозы, работать над поиском закономерностей и построением математических моделей.
В математическом анализе вам понадобятся производные, правило дифференцирования сложной функции и градиенты. Описательная статистика, планирование эксперимента и машинное обучение нужно будет изучить в курсе математической статистики. Линейная алгебра нужна для понимания механизмов машинного обучения, там обратите внимание на векторы и пространства, матричные преобразования.
Без него в вашей работе никуда. Машинное обучение нужно для создания новых моделей и переобучения существующих. Также оно связано не только с искусственным интеллектом, но и с генетическими, эволюционными алгоритмами, кластерными задачами и так далее. Благодаря машинному обучению работа Data Scientist с большими объемами данных становится эффективной.
Чтобы руководить проектами машинного обучения, вам нужно будет разобраться, как устроены нейронные сети и изучить основы глубокого обучения.
Для того чтобы понимать, как работает продукт и создавать подходящую модель, необходимы знания о домене, в котором вы работаете. Data Scientists трудятся во всевозможных отраслях, самыми популярными из которых являются маркетинг, здравоохранение и экономика. Если у вас нет нужных профильных знаний заранее, не переживайте, вы точно приобретете их на проекте.
Обязательный пункт для любой специальности в ИТ. Английский пригодится вам в работе при общении с зарубежными клиентами и коллегами в многонациональной команде. Также вы столкнетесь с английским во время работы с различными фреймворками и технологиями, и в своем развитии: много технической литературы выпускается только на английском языке.
Если вы уже работаете в Data Science, то наверняка знакомы со всеми этими требованиями. Для опытных аналитиков данных они, конечно же, другие.
Требования к опытному специалисту по данным
Некоторые специалисты описывают успешного Data Scientist как хакера, аналитика, коммуникатора или доверенного консультанта. Давайте разберемся, какие скиллы вам пригодятся.
Кроме hard skills, которые мы описывали выше, вам нужно иметь:
- Опыт разработки моделей машинного и глубинного обучения с фреймворками Hadoop, TensorFlow, Keras, PyTorch, Scikit-Learn, Pytorch, MLLib и другими;
- Глубокие знания одной из областей обучения по прецедентам Machine Learning;
- Опыт работы с SQL и инструментами BigData, как Spark/Hive;
- Опыт работы с инструментами визуализации Pandas, Matplotlib, Seaborne.
Конечно, работа в команде требует развитых гибких навыков для Data Scientist. Давайте рассмотрим, какие навыки вам помогут.
Soft skills для Data Scientist
- Ассоциативное мышление.
- Способность излагать свои мысли так, чтобы их понял другой человек.
- Любопытство для погружения в проблему и дальнейшей работы с гипотезами.
- Умение находить эффективные решения проблем.
- Внимательность.
- Умение работать в команде и находить подход к каждому.
- Умение задавать хорошие вопросы.
- Дотошность.
- Умение визуализировать данные.
С требованиями и навыками разобрались. А теперь давайте узнаем, какие нам пригодятся курсы, видео и материалы, чтобы развиваться в Data Science?
Полезные для развития материалы
Книги:
- Учебник “Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных”, Петер Флах. Книг на русском языке мало, учебник достойный вариант для погружения в машинное обучение.
- Тем, кто только погружается в тему, пригодится книга “Математический анализ” Липмана Берса.
- “Наука о данных. Базовый курс”, Джон Келлехер, Брендан Тирни. Книга Массачусетского технологического института познакомит вас с базой науки о данных.
- Книга “Machine Learning: A Bayesian and Optimization Perspective” Сергиос Теодоридис.
Онлайн-ресурсы:
- UCI ML-репозиторий. Там вы найдете много публичных дата-сетов, которые грех не опробовать в домашней практике по машинному обучению.
- Плейлист с лекциями по машинному обучению профессора Меллона университета Карнеги. Можно включить русские субтитры.
- На Хабре можно найти много интересных материалов по тегам Data Mining, Data Science и Big Data. Советуем, заглянуть и почитать.
- Плейлист Deep Learning Семена Козлова, разработчика стартапа Instrumental, бывшего сотрудника Dropbox и Microsoft.
- Лекции курса по машинному обучению с Юрием Кашницким.
- YouTube-курс машинного обучения от Яндекса.
- Майнинг массивных наборов данных. Внутри есть главы, можно скачать pdf, посмотреть презентации, видео и сделать упражнения.
Курсы:
- Coursera. На ресурсе много курсов по анализу данных, в котором есть подразделение на теорию вероятности, статистику и машинное обучение.
- Google. У платформы есть сайт, который полностью посвятили машинному обучению и искусственному интеллекту. Там вы найдете много полезного. Также предлагаем обратить внимание на курс Machine Learning Crash Course от Google.
- EdX. Образовательная платформа предлагает несколько десятков программ по машинному обучению, например.
- Введение в Data Science и машинное обучение. Бесплатный курс от Stepik.
- Introduction to Probability and Statistics – курс, который поможет разобраться в статистике.
Возможно ли, изучив все материалы и требования, найти работу как junior Data scientist? Как стать Data Scientist и нужно ли на него учиться в вузе? Разберемся дальше.
Где учиться на Data Scientist?
Для того чтобы работать Data Scientist, желательно иметь высшее техническое образование. Мы уже говорили, что для освоения профессии пригодятся математика и программирование, а на гуманитарных специальностям эти дисциплины, увы, не изучают. Но не стоит опускать руки, на самом деле в мире много известных профессиональных Data Scientists, которые оканчивали вуз с гуманитарным уклоном. Поэтому при большом желании можно пойти на специализированные курсы, где вас сначала познакомят с математикой, затем с программированием, и все получится.
В вузах Беларуси нет факультета, который целенаправленно готовит Data Science специалистов, но многие из них приходят в профессию с прикладной математики и информатики. На ФПМИ БГУ однако есть магистратура по профилю “Алгоритмы и системы обработки больших данных”. Поэтому советуем вам обучиться на одном из математических факультетов, чтобы дальше вам было проще вливаться в профессию.
Не стоит забывать о практике. Благо такая возможность есть у всех на платформе Kaggle. Там регулярно проводятся соревнования по машинному обучению. Информацию об участии в таких соревнованиях можно смело вносить в резюме. Также рекомендуем вам присоединиться к сообществу Open Data Science, у которого есть свои проекты, конференции, курсы и соревнования.
Как пройти собеседование специалиста Data Science?
Даже если вы начинающий Data Scientist, вы должны показать, что уже умеете работать с данными и участвовали в соревнованиях, делали что-то сами и принимали участие в хакатонах. Так работодатель поймет, что вы увлечены профессией, готовы развиваться, уже умеете работать в команде и применять знания.
- Вы должны будете ответить на вопросы про машинное обучение и статистику.
- Разработка ПО: массивы, хэш-таблицы, всевозможные алгоритмы, связные списки, бинарный поиск, рекурсия.
- Прикладная статистика: теория вероятности, описательная статистика, регрессии, проверка гипотез, байесовский вывод.
- Машинное обучение: метрики классификации, регрессии, выбор статистической модели, переобучение, смещение-дисперсия, сэмплирование, проверка гипотез, модели классификации, модели кластеризации, регрессионные модели.
- Обработка и визуализация данных: организация, профайлинг, визуализация, обработка, стандартизация, нормализация.
- Глубинное обучение.
- Языки программирования.
- Записывайте, что вы изучали и приходите уверенным в своих знаниях.
Надеемся, что профессия Data Scientist стала вам ближе и интереснее, а наш материал поможет вам стать лучше и ближе к своей цели. Желаем, успехов! А также приглашаем на собеседование в департамент Data & Analytics ISsoft. Если вы начинающий специалист без опыта работы, приглашаем на курсы IT, организованные на базе нашей компании.