Самообучение в Data science, с нуля до Senior за два года
Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли (отдельно планирую потом детальные статьи по отдельным темам).
Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился.
Думаю, многим будут полезны «мета» материалы о том, как выбирать курсы и статьи, по которым учиться. Например, я пересмотрел десятки статей и книг, пробовал много разных он-лайн курсов, но полезной оказалась лишь малая часть всего доступного. Надеюсь, что смогу серьезно сэкономить вам время и помочь достигнуть большего, показав более эффективный путь самообучения.
И важно сказать сразу: я верю, что любой человек с аналитическими способностями и структурным мышлением может стать специалистом по машинному обучению/data science. Еще 4 года назад я сомневался, потеряв веру в свои математические способности из-за преподавателей университета. Теперь верю: основы машинного обучения и минимально необходимую математику сможет выучить любой сильно замотивированный человек.
- Когда я понял, что скоро мне стукнет 30 лет, решил уйти в другую сферу и переехать из РФ. В своей сфере (1С) я был карьерно успешен, но стало ясно, что дальнейший рост очень затруднителен и требует выполнять работу, которая мне неинтересна и почти противна.
- Через полгода перебора вариантов решил, что Data science мне интереснее всего.
- Ещё через год имел достаточную квалификацию и прошёл собеседование на работу в Чехии (оговорка: у меня еще до этого было неплохое знание английского).
- Ещё через год стал Senior Data scientist в Vodafone (мой LinkedIn).
Цель — учиться эффективнее и бесплатно
Мне помогло то, что до этого я сформировал привычки к самообразованию, а экономность не позволила мне пойти по самому простому пути: найти онлайн курс с именитыми преподами, заплатить им много денег и довериться, что они всему научат лучше всего. В итоге я перебирал много бесплатно доступных книг и курсов (книги часто были найдены на b-ok.org). Из всех курсов и книг отбирал самые лучшие, забрасывая то, что казалось слишком теоретизированными или плохо структурированным.
На основе этих десятков книг и курсов я и сформировал то мнение, которым хочу поделить. Вероятно, существует еще более эффективный и быстрый способ научится этому всему. То, как учился я, было всего-лишь быстрее большинства платных программ, которые я видел, и заодно бесплатным (на многие лучшие англоязычные курсы всегда можно записаться бесплатно; покупал я только книги русских авторов и пару книг, которые иначе не смог найти).
Сначала надо понять, что такое Data science/машинное обучение и подойдет ли оно вам
Потому что если это просто модное слово и вы хотите получать много денег или работать в Гугл, то легче заработать на позиции маркетолога или веб-аналитика, и это тоже достаточно аналитичная работа.
Возможно, вы технарь-интроверт, желающий делать что-то своими руками и не желающий много общаться с другими людьми или вникать в бизнес (потому что DS очень прикладная штука, требующая погруженная в предметную область). Тогда есть варианты: или «просто программирование» вам будет интереснее (Не хочется разрабатывать сайты? — Нужны разработчики бэкенд приложений и дата-инженеры, в больших количествах), или если всё-таки хочется заниматься машинным обучением, то изучать все методы data science и знать их лучше всех, чтобы пойти сразу в более крупную компанию, где достаточно чисто-технических задач.
Если вы человек творческий, возможно, разработка интерфейсов (фронтенд, мобильные приложения) вам подойдёт больше.
Если вы от природы аналитик и любите разбираться в данных, но программирование вас не заинтересует, а на изучение всей математики вам не хватает времени, стоит выбрать тот же самый учебный путь! Просто сделать акцент на менее математических задачах, и не лезть в программироване сложных систем. Аналитики, знающие основы data science, тоже нужны в компаниях.
Важно, чтобы работа зажигала. Без искреннего интереса «грызть» Data science будет тяжело, потому что надо разобраться в куче нюансов, особенно если у вас нет за плечами хороших знаний в статистике, линейной алгебре и мат.анализе.
Как понять, будет ли вам интересно заниматься именно data science?
Лучший способ — прочитать что-то лёгкое, но дающее представление о широтие используемых методов.
Мне кажется, что идеально эту роль выполняет книга Datasmart (выше писал сайт, на котором я нашёл её бесплатно). На русский она тоже переведена: «Много цифр. Анализ больших данных при помощи Excel, Джон Форман». Хотя, если вы хотите работать в data science, знание английского необходимо (технический английский выучить намного легче разговорного, и это будет очень полезно для любой работы в ИТ).
Эта книга показывет многие из технических методов Data science на уровне интуиции и даёт сразу достаточно детальное представление о решаемых задачах и где в бизнесе можно применить данные модели.
Если эта книга не вызовет интерес разобраться во всех указанных алгоритмах детальнее, вероятно, работа в data science не для вас.
Если книга интересн вызовет, но вам также хочется больше программировать, скорее всего, вам интересно будет стать machine learning engineer. Разница между data scientist и machine learning engineer в том, что первый должен общаться с людьми и понимать, какую задачу имеет смысл решать, а второй должен уметь состыковать программы с «искусственным интеллектом» с другими ИТ системами, мобильными телефонами или требованиями обрабатывать огромные объемы данных.
Кстати, подобная книга для тех, кто хочет понять стоит ли ему заниматься визуализацией данных (PowerBI, Tableau и т.п.) — «Storytelling with data». Если эта книга тоже вдохновила, вместе с предыдущей, вероятно вы data scientist, способный выполнять и роль аналитика. Если же заниматься объяснением данных вам неинтересно, вам стоит нацелеваться на позицию machine learning engineer или подумать, не легче ли быть «обычным» программистом.
Что учить
Если вы решили, что готовы «грызть гранит науки», то в образовании специалиста data science есть два кита:
- Непосредственные методы Data science, которые стоят на трёх математических черепахах: теории вероятностей и статистике, линейной алгебре и основах мат.анализа (только основах, там требуется минимум сверх школьного курса «алегбра и начало анализа»). Кстати, вся эта математика далеко не так сложна. Проблема в том, что её плохо и неинтересно объясняют во многих вузах. Позже поделюсь советами, как её можно легче освоить.
- Программирование на Python (+SQL и подобные), которое позволит применить все изученные методы с помощью логичных и простых в своей сути библиотек готовых функций. Каждый data scientist немного программист. При этом именно python является стандартом де-факто для нашей сферы. Вероятно, этот язык занял своё положение благодаря тому, что он очень простой и логичный. Если вы программировали на чём угодно, и слова «цикл» или «if-then-else» вас не пугают, то вам не будет очень сложно освоить Пайтон. Если вы никогда не программировали, но считаете, что структурное и математическое мышление — ваш конёк, с программированием у вас не будет проблем. Даже если вы «конченный гуманитарий», освоить Python значительно легче, чем выучить многие иностранные языки (но, внимание! для людей без предыдущего опыта программирования обучаться ему эффективнее по-другому, не так, как для тех, кто уже имеет опыт программирования)
Даже примерный учебный план для изучения методов Data science требует отдельного поста. Ниже напишу чуть подробнее про Python и SQL
Английский необходим!
Как минимум, технический английский, на уровне чтения документации и профессиональных книг, — абсолютная необходимость. В этой сфере особенно: всё слишком быстро меняется. На русский язык все важные книги просто не будут успевать переводить, а многие критически важные библиотеки — даже и не будут пытаться. Поэтому, пока вы не способны читать упомянутые книги в оригинале, у вас вряд ли получится эффективно изучать data science. Хорошая новость: техническая терминология намного уже нормального разговорного языка и слэнга. Поэтому выучить английский на необходимом уровне не так уж и сложно. К тому же, знания языка могут пригодиться во многих других сферах, и даже в отпуске.
Принципы эффективного обучения
- Эффективный учебный план. Хороший план позволяет вам учить вещи в таком порядке, чтобы каждая новая вещь базировалась на уже полученных знаниях. И, в идеале, он идёт по спирали, постепенно углубляя знания во всех аспектах. Потому что учить теоретически математику, без интересных примеров применения — неэффективно. Именно это является одной из проблем плохого усваивания материалов в школе и институте. Учебный план — это именно та вещь, которую без опыта составить труднее всего. И именно с этим я стараюсь помочь.
- Следует концентрироваться на понимании главных принципов — это легче, чем запоминать отдельные детали (они часто оказываются не нужны). Особенно важно это становится, когда вы учите язык программирования, тем более свой первый: не стоит зубрить правильное написание команд («синтаксис») или заучивать API библиотек. Это вторая вещь, с которой я хочу помочь — разобраться, что важно, а на что не следует тратить много времени.
Программирование: что и как учить?
Что такое SQL и зачем его учить?
SQL является стандартом для получения данных в нужном виде из разных баз данных. Это тоже своеобразный язык программирования, который дополнительно к своему основному языку используют многие программисты. Большинство самых разных баз данных использует один и тот же язык с относительно небольшими вариациями.
SQL простой, потому что он «декларативный»: нужно точно описать «запрос» как должен выглядеть финальный результат, и всё! — база данных сама покажет вам данные в нужной форме. В обычных «императивных» языках программирования нужно описывать шаги, как вы хотите чтобы компьютер выполнил вашу инструкцию. C SQL намного легче, потому что достаточно только точно понять что вы хотите получить на выходе.
Сам язык программирования — это ограниченный набор команд.
Когда вы будете работать с данными — даже аналитиком, даже необязательно со знанием data science, — самой первой задачей всегда будет получить данные из базы данных. Поэтому SQL надо знать всем. Даже веб-аналитики и маркетологи зачастую его используют.
Как учить SQL:
Наберите в Гугле «sql tutorial» и начните учиться по первой же ссылке. Если она вдруг окажется платной, выберете другую. По SQL полно качественных бесплатных курсов.
На русском языке тоже полно курсов. Выбирайте бесплатные.
Главное — выбирайте курсы, в которых вы можете сразу начать прямо в браузере пробовать писать простейшие запросы к данным. Только так, тренируясь на разных примерах, действительно можно выучить SQL.
На изучение достаточно всего лишь от 10 часов (общее понимание), до 20 часов (уверенное владение большей частью всего необходимого).
Почему именно Python?
В первую очередь, зачем учить Python. Возможно, вы слышали что R (другой популярный язык программирования) тоже умеет очень многое, и это действительно так. Но Python намного универсальнее. Мало сфер и мест работы, где Python вам не сможет заменить R, но в большинстве компаний, где Data Science можно делать с помощью Python, у вас возникнут проблемы при попытке использования R. Поэтому — точно учите Python. Если вы где-то услышите другое мнение, скорее всего, оно устарело на несколько лет (в 2015г было совершенно неясно какой язык перспективнее, но сейчас это уже очевидно).
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Как учить Python
Прочитать основы и пройти все упражнения с этого сайта можно за 5-40 часов, в зависимости от вашего предыдущего опыта.
После этого варианты (все эти книги есть и на русском):
- Learning Python, by Mark Lutz (5 издание). Существует и на русском. Есть много книг, которые сразу обучают использованию языка в практических задачах, но не дают полного представления о детальных возможностях языка. Эта книга, наоборот, разбирает Python досконально. Поэтому по началу её чтение будет идти медленнее, чем аналоги. Но зато, прочтя её, вы будете способны разобраться во всём. Я прочёл её почти целиком в поездах в метро за месяц. А потом сразу был готов писать целые программы, потому что самые основы были заложены в pythontutor.ru, а эта книга детально разжевывает всё. В качестве практики берите, что угодно, когда дочитаете эту книгу до 32 главы, и решайте реальные примеры (кстати, главы 21-31 не надо стараться с первого раза запоминать детально. Просто пробежите глазами, чтобы вы понимали что вообще Python умеет). Не надо эту книгу (и никакую другую) стараться вызубрить и запомнить все детали сразу. Просто позже держите её под рукой и обращайтесь к ней при необходимости. Прочитав эту книгу, и придя на первую работу с кучей опытных коллег, я обнаружил, что некоторые вещи знаю лучше них.
- Python Crash Course, by Eric Matthes Эта книга проще написана и отсеивает те вещи, которые всё-таки реже используются. Если вы не претендуете быстрее стать высоко-классным знатоком Python — её будет достаточно.
- Automate the Boring Stuff with Python Книга хороша примерами того, что можно делать с помощью Python. Рекомендую просмотреть их все, т.к. они уже похожи на реальные задачи, с которыми приходится сталкиваться на практике, в том числе специалисту по анализу данных.
Какие трудозатраты?
Путь с нуля до уровня владения Python, на котором я что-то уже мог, занял порядка 100ч. Через 200ч я уже чувствовал себя уверенно и мог работать над проектом вместе с коллегами.
(есть бесплатные программы — трекеры времени, некоторым это помогает для самоконтроля)
Следующие статьи по данной теме
Стоит ли смотреть в сторону дата сайенс? — показывает альтернативные специализации, куда можно и, вероятно, стоит целиться, если вы планируете начать путь в дата сайенс без знаний математики и опыта в программировании.
Для желающих могу выступить в роли ментора
Если после прочтения всех моих статей у вас остались вопросы, т.к. ваша ситуация специфична — могу помочь вам индивидуально. Пишите:
self.development.mentor в домене gmail.com, Олег
Специалист по Data Science
Сертифицированная программа национального проекта «Цифровая экономика». Изучение всех направлений современного анализа данных: от основ программирования и дискретной математики до машинного обучения, прикладной статистики, Big Data и не только.
Расписание занятий: по понедельникам и средам (19:00 — 22:00)
Подать заявку Задать вопрос
- Старт курса 08.11.2023
- Продолжительность 18 месяцев
- Формат обучения Очный
- Документ Диплом о профессиональной переподготовке НИУ ВШЭ
О профессии
Специалист по Data Science — тот, кто разрабатывает алгоритмы для работы с данными. Например, придумывает рекомендательную систему для музыкального сервиса, строит модель ценообразования для сети магазинов или создает бота-помощника.
Наш курс по анализу данных и машинному обучению охватывает все разделы современной науки о данных, в том числе Deep Learning и его применение в технологиях искусственного интеллекта.
Вы начнете с самых основ — изучения программирования и базовых разделов математики — и перейдете к теме Machine Learning, прикладной статистике и практическому использованию фреймворков для проведения распределительных операций неструктурированных данных. Получите опыт решения прикладных задач в области дата-анализа и обработки Big Data, сможете применять навыки дата-сайентиста в работе с изображениями, текстами, сигналами и нейросетями.
По итогам обучения вы получите актуальные знания по Data Science, проекты в портфолио и диплом о профессиональной переподготовке установленного НИУ ВШЭ образца.
Для кого
Очная программа «Специалист по Data Science» предназначена слушателям, желающим разобраться в анализе данных
- Начинающим Изучите основы программирования, математики, машинного обучения и работы с Big Data
- Специалистам не из IT Освоите новые методы и инструменты для работы с данными в своей области
- Программистам Освежите в памяти алгоритмы и структуры данных и научитесь обучать нейронные сети
Программа обучения
За 18 месяцев профессиональной переподготовки в НИУ ВШЭ вы изучите Python и SQL, прикладную математику и статистику, алгоритмы и структуры данных, Machine Learning и другие темы.
Python для автоматизации и анализа данных 18 занятий
- Введение в Python, Jupyter. Ввод-вывод, основные типы данных (int, float, str). Первые функции;
- Логические переменные, операции и операторы сравнения. Условия if-elif-else. Условный цикл while. Списки, кортежи, последовательности;
- Множества. Словари. Вложенные структуры данных. Методы строк, списков. Срезы;
- Цикл for. Вложенный цикл for;
- Функции. Рекурсия. О-нотация; Текстовые файлы и таблицы;
- Регулярные выражения; Классы и основы ООП. Декораторы;
- Телеграм-бот на Python. Работа с SQL и базами данных с помощью Python;
- Введение в numpy. Работа с векторами и матрицами. Введение в pandas;
- Pandas продолжение. Разведочный анализ данных (EDA);
- Сбор данных: скрейпинг, requests, BeautifulSoup;
- Сбор данных: requests, BeautifulSoup — продолжение;
- Сбор данных: работа с сервисами через API;
- Сбор данных: Selenium, работа с сервисами через API;
- Визуализация для презентации данных: matplotlib, seaborn;
- EDA особенности;
- Предобработка текстов: лемматизация, удаление стоп-слов.
SQL 5 занятий
- Введение в базы данных. Обращение к базе данных. Типы данных. Фильтрация данных;
- Агрегирующие функции. Функции работы с датами. Функции работы со строками;
- Взаимоотношения между таблицами. Операторы JOIN и UNION;
- Подзапросы и временные таблицы;
- Оконные функции.
Алгоритмы и структуры данных 10 занятий
- Асимптотика. Нотация О-большое. Измерение времени работы программы;
- Базовые структуры данных (список, стек, дек, очередь);
- Базовые структуры данных (сет, мэп, хэш-таблицы);
- Сортировки: итеративные, линейные, рекурсивные. Поиск;
- Динамическое программирование;
- Алгоритмы на строках. Сравнение строк. Расстояние редактирования;
- Теория графов. Введение. Алгоритмы обхода графов;
- Поиск кратчайших путей в графе;
- Минимальное остовное дерево;
- Эвристические и приближенные алгоритмы.
Математика для анализа данных 19 занятий
- Множества и логика;
- Комбинаторика и вероятность;
- Неориентированные графы;
- Ориентированные графы и алгоритмы на графах.
- Функции одной переменной, пределы, производные;
- Касательные, критические точки, поиск минимумов и максимумов;
- Интегралы, введение в вычисление интегралов;
- Функции нескольких переменных, градиент, производная по направлению, линии уровня, касательная плоскости, критические точки, поиск минимумов и максимумов;
- Оптимизационные задачи, лагранжиан и его геометрический смысл, нахождение минимума или максимума с заданными ограничениями.
- Системы линейных уравнений, матрицы, обратимость и невырожденность;
- Определитель, обратная матрица;
- Векторные пространства и подпространства, размерности, ранги матриц;
- Линейные отображения и их матричное описание. Собственные значения и векторы, связь со спектром;
- Билинейные и квадратичные формы. Скалярные произведения, углы и расстояния. Ортогонализация и QR-разложение. Линейные многообразия и линейные классификаторы, отступы;
- Операторы в евклидовых пространствах. Сингулярное разложение (SVD).
- Пространство элементарных исходов. События. Вероятность и её свойства. Условная вероятность. Формула полной вероятности. Формула Байеса;
- Дискретные случайные величины и их распределения. Независимость случайных величин. Распределение функции от дискретной случайной величины. Математическое ожидание и дисперсия;
- Случайные величины, имеющие плотности. Математическое ожидание случайной величины, имеющей плотность. Равномерное, экспоненциальное, нормальное распределения;
- Функция распределения. Распределение функции от случайной величины, имеющей плотность. Многомерные случайные величины. Ковариация и корреляция;
- Условное распределение. Неравенства концентрации (неравенства Маркова и Чебышёва). Распределение суммы случайных величин. Закон больших чисел. Центральная предельная теорема. Неравенство Чернова.
Прикладная статистика для машинного обучения 10 занятий
- Основы теории вероятностей. Описательные статистики;
- Взаимосвязи между случайными величинами. Взаимосвязи в данных;
- Методы оценивания параметров распределения. Свойства статистических оценок;
- Предельные теоремы. Асимптотические и точные доверительные интервалы;
- Процедура проверки гипотез. Параметрические критерии;
- Непараметрические критерии. Критерии согласия. Бутстрап, множественное тестирование;
- Введение в А/Б тестирование: постановка задачи, особенности сбора данных, взаимосвязь размера выборки, уровня значимости, мощности теста и MDE. Особенности метрик;
- Основные методы А/Б тестирования: стратификация, бакетное преобразование, линеаризация, CUPED;
- Статистический взгляд на линейную регрессию;
- Основы анализа временных рядов. Модель SARIMA и её подгонка.
Машинное обучение 14 занятий
- Введение в машинное обучение. Основные понятия. Типы задач;
- Разбиение на train и test. Обучение и оценка качества модели;
- Линейные методы регрессии. Функционал ошибки. Метрики качества. Переобучение;
- Градиентный спуск; Регуляризация в линейной регрессии. Кросс-валидация. Кодирование категориальных признаков;
- Линейные методы классификации (бинарная). Логистическая регрессия. Метрики качества;
- SVM. Многоклассовая классификация;
- Нелинейные методы классификации. Байесовский классификатор. KNN. Kernel SVM;
- Деревья решений. Критерии информативности;
- Ансамблевые методы. Случайный лес, бэггинг. Разложение ошибки на bias, variance;
- Градиентный бустинг. XGBoost, CatBoost, LIghtGBM;
- Обучение без учителя. Кластеризация и визуализация данных. Метрики качества;
- Понижение размерности. PCA. Детектирование аномалий;
- Рекомендательные системы;
- Статистический взгляд на модели МО. Анализ временных рядов.
Промышленное машинное обучение на Spark 8 занятий
- Введение в Big Data: как работают и где находятся большие данные;
- Среда Spark. Spark RDD / Spark SQL;
- Advanced SQL;
- Spark ML /Spark TimeSeries;
- Advanced ML и проверка результатов качества моделей;
- Spark GraphX /Spark Streaming;
- Экосистема Spark (MLFlow, AirFlow,H2O AutoML);
- Spark в архитектуре проекта / Spark CI/CD.
Глубинное обучение 10 занятий
- Введение в глубокое обучение. От линейной регрессии к нейронной сети. Смотрим на базовые возможности tensorflow/pytorch, собираем первую нейросеть;
- Обучение нейронных сетей. Алгоритм обратного распространения ошибки;
- Сверточные нейронные сети. Классификация изображений;
- Оптимизация. Эвристики для обучения нейронных сетей. Нормализация по батчам, инициализация и другое;
- Архитектуры сверточных сетей. Что видят сверточные сети. Transfer learning;
- Обзор задач компьютерного зрения. Детекция, сегментация, перенос стиля, распознавание лиц;
- Автокодировщики и генеративные модели (Generative Adversarial Networks);
- Глубокое обучение для NLP. Векторные представления текстов: word2vec, fasttext;
- Рекуррентные нейронные сети, работа с последовательностями. ELMO-эмбеддинг; Sequence-to-sequence, архитектуры с механизмом внимания. Трансформеры. BERT.
Прикладные задачи анализа данных | онлайн с преподавателем 10 занятий
- Введение в цифровую обработку сигналов и классификация звуков. Автоматическое распознавание речи;
- Преобразование текста в речь;
- Введение в обработку текстов и классификация текстов; Языковое моделирование;
- Машинный перевод;
- Распознавание лиц и метрическое обучение;
- Семантическая сегментация изображений;
- Детекция объектов на изображениях;
- Глубинное обучение в производстве: обслуживание и ускорение.
Финальный проект
Формат обучения
Продолжительность общая в часах: 714 часов
Условия приема: высшее или среднее профессиональное образование; лица, получающие высшее образование.
Формат обучения: очный
Состав группы: группа до 30 человек
Результаты обучения
-
РАЗБЕРЕТЕСЬ В НАПРАВЛЕНИЯХ DATA SCIENCE
Изучите программирование на Python, математику для анализа данных, прикладную статистику, классические модели машинного обучения и нейронные сети, а также основы обработки текстов, звука и изображений
Освоите SQL, Python, Jupyter Notebook, Spark, Tensorflow, Pytorch и другие инструменты
Напишете чат-бота, программу для машинного обучения и защитите финальный проект. Это хорошая возможность пополнить портфолио, особенно для начинающих
Получите самые актуальные знания по специальности и сможете работать специалистом по Data Science в крупных IT-компаниях
Подать заявку Задать вопрос
Преимущества программы
- 01 В декабре 2019 г. обучающий курс «Специалист по Data Science» стал сертифицированной программой нацпроекта «Цифровая экономика» и победил в номинации «Подготовка профессионалов цифровой индустрии»
- 02 Наши преподаватели работают в ведущих IT-корпорациях, банках и инновационных стартапах. На каждом занятии они учат применять теорию к реальным задачам, которые решают в индустрии
- 03 Мы выкладываем видеозаписи и материалы занятий, доступ сохраняется за вами в течение 2 месяцев после завершения
- 04 Вы можете общаться с другими студентами и преподавателями очно или в закрытом Telegram-канале. Доступ к чатам открыт навсегда — если у вас возникают вопросы, вы можете задать их даже после окончания обучения
Документ об окончании
Диплом о профессиональной переподготовке при успешном завершении обучения.
У нас есть лицензия на образовательную деятельность.
Подать заявку Задать вопрос
Преподаватели
Касьяненко Дарья Алексеевна
Пиле Ян Эрнестович
Кантонистова Елена Олеговна
Карпов Максим Евгеньевич
Максаев Артём
Промыслов Валентин Валерьевич
Горденко Мария Константиновна
Мылзенова Дарима
Балдицын Владимир
Хуракай Долма
Матвеева Анна
Соловей Владислав
Промыслов Платон
Кириллова Екатерина
Рахимов Руслан
Овчинников Кирилл
Находнов Максим
Костоев Руслан
Касьяненко Дарья Алексеевна
- С 2023 года – эксперт, преподаватель Центра непрерывного образования факультета компьютерных наук.
- С 2021 года ведет курсы на проекте Data Culture, направленного на внедрение курсов по анализу данных во все бакалаврские программы НИУ ВШЭ.
- Бакалавр журналистики и магистр медиакоммуникаций НИУ ВШЭ.
- В 2018-2023 годах работала менеджером проектов факультета коммуникаций, медиа и дизайна, где самостоятельно освоила Python и автоматизировала back office, слепое рецензирование и олимпиады.
- 2020-2023 – старший преподаватель Института медиа: ведет курсы «Программирование на Python», «Обработка и автоматизация данных в Google таблицах», «Введение в открытые данные», «Sustainability and ICT (Information and Communication Technologies)».
Пиле Ян Эрнестович
- Строил скоринговые модели в банках (Тинькофф, ОТП БАнк, UniCredit); в рисках и маркетинге. Далее работал аналитиком в Яндекс.Маркете. С августа 2020 руководит группой аналитики в VK.
- Принимает участие в разработке и доработке программ Центра непрерывного образования с 2020 года. Преподает Python и SQL для начинающих.
- Закончил физфак МГУ. Сейчас продолжает занятия физикой в Лаборатории вычислительной физики МИЭМ НИУ ВШЭ.
Кантонистова Елена Олеговна
- Академический руководитель онлайн-магистратуры «Машинное обучение и высоконагруженные системы», Доцент
- С 2016 года преподает на курсах по глубинному обучению открытых и корпоративных программ Центра непрерывного образования.
- С 2020 года — академический руководитель онлайн-магистратуры «Машинное обучение и высоконагруженные системы» ФКН ВШЭ.
- С 2016 по 2018 год работала на позиции Data Scientist в компании Raxel Telematics.
- C 2017 по 2018 годы была консультантом в WorldQuant LLC.
- С 2018 по 2019 год занимала должность ведущего Data Scientist’а в компании United Consulting Group.
Карпов Максим Евгеньевич
Cтарший преподаватель, младший научный сотрудник лаборатории LAMBDA
- Преподаватель курсов по Python Центра непрерывного образования ФКН.
- Имеет большой опыт преподавания программирования студентам непрофильных специальностей на проекте Data Culture. Ведет курсы «Анализ данных на Python», «Анализ данных в Excel», «Data Analysis in Politics and Journalism», «Machine Learning», «Основы глубинного обучения».
- После специалитета по международным отношениям закончил магистратуру по наукам о данных.
Максаев Артём
Доцент, заместитель руководителя департамента больших данных и информационного поиска
- Ведет блоки по линейной алгебре, математическому анализу и теории графов на открытых и корпоративных программах Центра непрерывного образования ФКН.
- Преподавал в лицее «Вторая школа», Сириусе.
Промыслов Валентин Валерьевич
Старший преподаватель, академический руководитель онлайн-бакалавриата «Компьютерные науки и анализ данных»
- Преподаватель дискретной математики курсов Центра непрерывного образования;
- Ведет курсы по математическому анализу, линейной алгебре и теории вероятностей факультета компьютерных наук с 2019 года.
- С 2022 года — академический руководитель онлайн-бакалавриата «Компьютерные науки и анализ данных».
- Выпускник специалитета и аспирант механико-математического факультета МГУ.
- С 2011 года преподавал математику школьникам.
Горденко Мария Константиновна
Академический руководитель магистратуры «Анализ данных в девелопменте»
- С 2019 года — старший преподаватель факультета компьютерных наук НИУ ВШЭ.
- Преподаватель открытых и корпоративных курсов Центра непрерывного образования по программированию на C#, Java, алгоритмам и структурам данных.
- С 2023 года – академический руководитель магистерской программы «Анализ данных в девелопменте» НИУ ВШЭ.
- С 2014 работала в международной лаборатории интеллектуальных систем и структурного анализа, где стала младшим научным сотрудником. С 2022 года – ведущий эксперт Института статистических исследований и экономики знаний НИУ ВШЭ.
- Окончила бакалавриат и магистратуру ФКН по специальности «Программная инженерия». Продолжает обучение в аспирантуре факультета компьютерных наук.
Мылзенова Дарима
- С 2021 по 2023 год – инженер по исследованиям и разработке в Just AI
- С 2018 по 2020 год — аналитик данных в компании Газпром Нефть.
- С 2017 по 2018 работала на позиции аналитика данных в Департаменте информационных технологий города Москвы.
- Выпускница мехмата МГУ им. М.В. Ломоносова и совместной магистратуры «Науки о данных» ФКН НИУ ВШЭ и Школы анализа данных Яндекса.
- Разрабатывала программу и обучала машинному обучению студентов старших курсов в Digital Banana.
Балдицын Владимир
ML-разработчик в Яндексе. Ведет курсы по Прикладной статистике.
Образование: Московский физико-технический институт, специальность «Информатика и вычислительная техника».
Профессиональные интересы: машинное обучение, прикладная статистика, дискретная математика, когнитивные науки, лингвистика.
Хуракай Долма
С июня 2021 года – бизнес-аналитик в «Самокате». Работала бизнес-аналитиком в X5 Retail Group.Ведет курсы по математике.
Образование:
Российский университет дружбы народов, специальность «Бизнес-информатика»;
Национальный исследовательский университет «Высшая школа экономики», специальность «Электронный бизнес».
Профессиональные интересы: математика, анализ данных, продуктовая аналитика.
Матвеева Анна
В настоящее время – ведущий аналитик данных и дата-инженер в компании Деметра-Холдинг, направление деятельности – внедрении аналитики данных в сельскохозяйственном секторе.
Профессиональный опыт: приглашенный преподаватель дисциплины «Базы данных» на факультете компьютерных наук НИУ ВШЭ в течение двух последних лет, опыт работы в качестве приглашенного преподавателя модуля «SQL» программы «Аналитик данных» центра непрерывного образования ФКН НИУ ВШЭ.
Образование: выпускница бакалаврской программы двойного диплома «Прикладной анализ данных» ПМИ ФКН НИУ ВШЭ и UOL LSE, в настоящее время – обучение на магистерской программе «Анализ данных в девелопменте» ФКН НИУ ВШЭ.
Промыслов Платон
Преподаватель Центра непрерывного образования ФКН НИУ ВШЭ.
Профессиональный опыт: работал преподавателем кружка по олимпиадной математике на Малом мехмате МГУ, с августа 2020 по январь 2021 года являлся HR-аналитиком в СПАО «Ингосстрах», с 2022 года – приглашенный преподаватель на программах Центра непрерывного образования ФКН НИУ ВШЭ, был инструктором курса «Введение в машинное обучение» в Фонде «Институт Вега», семинаристом курса «Теория вероятностей» пилотного и основного потоков ПМИ ФКН НИУ ВШЭ.
Образование: механико-математический факультет МГУ им. М.В. Ломоносова.
Рахимов Руслан
Инженер-исследователь в Сколтехе. Лауреат премии им. И. Сегаловича. Ведет курсы по Прикладным задачам анализа данных.
Образование: Московский физико-технический университет.
Профессиональные интересы: нейронная визуализация, компьютерное зрение и глубинное обучение.
Овчинников Кирилл
Руководитель направления в Сбере. Ведет курсы по прикладным задачам анализа данных.
Образование: Московский физико-технический институт, специальность «Прикладная математика и физика».
Костоев Руслан
Ведущий исследователь в Аiri.
Работал в компаниях: Digital Petroleum, Google, Яндекс. Занимался исследованиями в Сколтехе и ИППИ РАН.
Образование: ВМК МГУ им. М.В. Ломоносова, Школа анализа данных Яндекса, магистратура Сколковского института науки и технологий.
Эксперты
Соколов Евгений Андреевич
Теванян Элен Арамовна
Иосипой Леонид Сергеевич
Пиле Ян Эрнестович
Соколов Евгений Андреевич
Научный руководитель Центра непрерывного образования ФКН, Доцент
- С 2016 года работает в НИУ ВШЭ, где разработал и ведет курсы «Машинное обучение», «Основы глубинного обучения»; «Введение в анализ данных».
- Академический руководитель бакалавриата «Прикладная математика и информатика». Ведущий эксперт проекта Data Culture, направленного на внедрение курсов по анализу данных во все бакалаврские программы ВШЭ.
- Преподает корпоративным клиентам НИУ ВШЭ на курсах для специалистов и топ-менеджмента.
- С 2014 по 2019 год работал в Яндексе, где руководил группой анализа неструктурированных данных Yandex Data Factory, а затем был руководителем группы качества рекомендаций в Яндекс.Дзене.
- С 2019 года — консультант в Яндексе.
Теванян Элен Арамовна
Руководитель команды развития алгоритмов диспатча, Яндекс
- С 2019 года по 2023 работала в Х5 Retail Group: начинала в команде ad hoc со специализацией в A/B-тестах, руководила командой data scientist’ов продукта CVM TCX.
- С 2023 года занимает должность руководителя команды развития алгоритмов диспатча в Яндексе.
- Ведет лекции и тренинги для руководителей и менеджеров организаций по Data Science и машинному обучению. Центра непрерывного образования факультета компьютерных наук.
- Окончила бакалавриат факультета компьютерных наук НИУ ВШЭ по специальности «Прикладная математика и информатика» в 2015 году. В 2018 году получила магистерскую степень НИУ ВШЭ по направлению «Анализ данных в биологии и медицине».
Иосипой Леонид Сергеевич
Академический руководитель программ по математике Центра непрерывного образования ФКН
- В 2021-2022 руководил направлением по исследованию данных в Sber AI Lab.
- В 2018-2021 работал старшим научным сотрудником лаборатории HDI Lab.
- Академический руководитель и преподаватель программ по математике Центра непрерывного образования ФКН.
- Получил степень кандидата наук по математике в НИУ ВШЭ в 2021.
Пиле Ян Эрнестович
- Строил скоринговые модели в банках (Тинькофф, ОТП БАнк, UniCredit); в рисках и маркетинге. Далее работал аналитиком в Яндекс.Маркете. С августа 2020 руководит группой аналитики в VK.
- Принимает участие в разработке и доработке программ Центра непрерывного образования с 2020 года. Преподает Python и SQL для начинающих.
- Закончил физфак МГУ. Сейчас продолжает занятия физикой в Лаборатории вычислительной физики МИЭМ НИУ ВШЭ.
Стоимость и условия
58 125 ₽
или 465 000 ₽ за весь курс
Как поступить на программу
- 01 Оставить заявку на программу. В заявке важно указать актуальные номер и e-mail.
- 02 Подтвердить обучение. Менеджер свяжется с вами по указанным в заявке контактам, чтобы вы могли подтвердить участие в обучении.
- 03 Отправить сканкопии документов для зачисления (паспорт, снилс, диплом, справка из вуза, свидетельство о смене фамилии).
- 04 Заключить договор. Менеджер отправит вам договор на ознакомление и ссылку на оплату, по которой нужно будет оплатить обучение.
- 05 Начать обучение. За несколько дней до начала обучения менеджер отправит организационное письмо со всей важной информацией о программе и ссылкой на чат в Telegram.
Отзывы выпускников
Уже в процессе работы я узнала об обработке естественных языков как о направлении Data Science. Решила пройти обучение, так как появилось желание понимать больше о том, как все устроено. Сейчас использую полученные навыки на прошлом месте работы — недавно стала руководителем отдела.
После защиты диплома я перешел с позиции эксперта в нефтегазовой компании на позицию инженера-разработчика по интерпретации данных.
Понравился удобный формат обучения: очные занятия с трансляцией онлайн. Можно подключиться из любой точки мира, экономить время на дороге, при необходимости можно посмотреть, пересмотреть занятия в записи. При этом всегда есть возможность задать вопросы преподавателям. Что важно: сбалансированы теория и практика. Пройденный материал осознаешь и закрепляешь через домашние задания, а домашние задания разбираются на факультативах.
Когда я выбирал программу по Data Science, я изучил несколько вариантов в разных учебных заведениях Москвы. «Специалист по Data Science» во ВШЭ показалась мне наиболее полной: она включает в себя курс алгоритмов, дискретки, линала, теории вероятностей и матстата — все, что необходимо было освежить перед погружением в машинное обучение. Престиж университета тоже сыграл свою роль при выборе.
Где проходят занятия?
- Вы будете учиться в главном корпусе Вышки – на Покровском бульваре, в компьютерных классах.
- На время обучения получите пластиковый пропуск с доступом во все корпуса ВШЭ. В любое время вы можете зайти в библиотеку, чтобы поучиться или поработать.
- Можете приезжать на занятия в корпус, а можете подключаться по Zoom.
FAQ
Почему я должен выбрать вашу программу?
В наших программах в коротком формате упакован опыт бакалаврских и магистерских программ факультета компьютерных наук Вышки. Опираясь на наши знания об отрасли, мы дадим Вам необходимую базу, чтобы войти в профессию или перейти на новый уровень на вашей текущей работе. К тому же, большинство наши программы — очные. Это означает, что вы сможете еженедельно общаться с преподавателями, получать поддержку ассистентов и одногруппников, это поможет сохранять мотивацию. Обучаясь на наших курсах, вы получаете возможность интегрироваться в сообщество Вышки, общаться с нашими преподавателями и участвовать в мероприятиях факультета и университета: например, мы проводили «Ночь анализа данных», у нас регулярно проходят IT-лекторий и научный коллоквиум ФКН. У нас есть лицензия на образовательную деятельность, поэтому по результатам обучения мы выдаем удостоверения о повышении квалификации и дипломы о профессиональной переподготовке установленного в НИУ ВШЭ образца.
Чем специалист по Data Science отличается от аналитика данных?
Приведем пример. Менеджер интересуется, какие товары пользователи интернет-магазина покупают вместе, с этим вопросом он пойдет к продуктовому аналитику. Аналитик поможет выявить такие категории товаров и предложит идеи для прототипа системы рекомендаций. Для многих интернет-магазинов таких рекомендаций может оказаться достаточно, чтобы повысить средний чек. Но далее может возникнуть потребность автоматизировать рекомендации и построить модель. Этим уже займется специалист по Data Science. Еще больше об этом рассказал Сергей Юдин в интервью «Аналитик данных и data scientist: в чем отличие?»
Если я студент, могу ли я поступить на программу «Специалист по Data Science»?
Да, но диплом о профессиональной переподготовке можно получить только после окончания вуза при предоставлении диплома.
Могу ли я заниматься на своем ноутбуке?
Да, вы можете приходить со своим ноутбуком. Также можно использовать компьютеры университета — все занятия проходят в компьютерных классах.
Контакты
- Основной адрес Москва, Покровский бульвар, 11
- Телефон +7 (495) 623-21-65
- Электронная почта cs-courses@hse.ru
Как обучиться Data Science и стать Дата Сайентистом с нуля
Здравствуйте! В статье расскажем, как обучиться на Data Scientist. Разберемся, кому подойдет профессия, как освоить ее с нуля, где учиться и с чего лучше начинать карьеру в Дата Сайенс.
Кому подходит профессия
Обычно специалистами по Data Science становятся по следующим причинам:
- Есть желание освоить перспективную и высокооплачиваемую профессию.
- Имеется опыт в смежной отрасли, но хочется перейти в новое, более востребованное направление. Дата Сайентистами часто становятся программисты, маркетологи, финансисты и бизнес-аналитики.
- В профессиональной деятельности или научных исследованиях необходимо применять инновационные технологии: большие данные, нейросети, искусственный интеллект.
Для работы в Дата Сайенс нужны навыки программирования и знание математики за рамками школьной программы. Поэтому на старте гуманитариям будет сложнее учиться и работать, чем людям с техническим складом ума или образованием.
Чтобы стать Data Scientist, потребуется высокая мотивация и определенные личностные качества:
- Развитое аналитическое и критическое мышление, чтобы выявлять закономерности, а не мнимые связи.
- Широкий кругозор и любознательность, чтобы понимать, как работают бизнес-процессы.
- Коммуникабельность, готовность к командной работе, умение налаживать контакты как с коллегами, так и с заказчиками.
- Усидчивость, высокая работоспособность, целеустремленность, нацеленность на результат.
- Ответственность, внимательность к деталям.
Как обучиться Data Science с нуля
При желании профессию можно освоить с нуля, независимо от возраста или бэкграунда. Более того, некоторые компании готовы брать специалистов без опыта, но с профильным образованием.
Обучаться можно в государственном учебном заведении или онлайн-школе. Среди вузов, где можно учиться на Data Scientist, стоит отметить МГУ им. Ломоносова, Высшую школу экономики и Санкт-Петербургский государственный университет. Для изучения Дата Сайенс подойдут такие факультеты, как «Прикладная математика и информатика» или «Компьютерные науки и анализ данных».
Более быстрый и удобный способ стать специалистом по Data Science – пройти онлайн-обучение. Получить новую профессию можно дистанционно в среднем за 1-2 года.
На нашем сайте собраны лучшие курсы по Data Science на русском языке. С помощью удобного фильтра вы можете подобрать обучающую программу по стоимости, формату занятий, продолжительности, с рассрочкой или скидкой, а также с гарантией трудоустройства.
Почему стоит выбрать online-курс:
- Занятия ведут опытные программисты и аналитики, которые объясняют сложный материал, например, теорию вероятности или математический анализ доступным языком с примерами.
- Записи всех уроков хранятся в личном кабинете. У вас не будет пробелов в знаниях, потому что вебинары можно смотреть неоднократно в любое время. Видео останутся у вас навсегда.
- После каждой темы есть практическое задание. Задачи постепенно усложняются, и к концу курса вы построите нейросеть или рекомендательную систему. То есть у вас будут готовы проекты для портфолио.
- Если вы не можете справиться с вопросом самостоятельно, вам поможет куратор. Он укажет на ошибки и даст рекомендации.
- Многие школы бесплатно помогают с поиском работы, а также приглашают студентов на стажировку, поэтому у вас будет возможность получить опыт в реальном проекте.
Подборка курсов Все онлайн-курсы по Data Science в 2023 году
Посмотреть подборку
Что нужно, чтобы стать Data Scientist
Расскажем подробнее, какие шаги нужно пройти, чтобы стать специалистом по Data Science:
- Изучить математику и линейную алгебру. Если у вас есть знания в рамках школьной программы, можно начать с книг, в которых простым языком разбирают основные понятия: производную, дифференциал, матрицу и пр.
- В любой аналитике используется математическая статистика и теория вероятности – это следующие большие темы, с которыми необходимо ознакомиться.
- Работа в Дата Сайенс невозможна без знания языков программирования. Новичку подойдет Python – он относительно простой, гибкий и многофункциональный.
- Следующий шаг – изучение алгоритмов машинного обучения: «с учителем», «без учителя», «с подкреплением». Вам нужно научиться собирать данные для анализа и визуализировать их.
- Разобравшись с теорией, переходите к практике. К примеру, можно поискать должность помощника или стажировку в крупных IT-компаниях.
Советы и книги для начинающих
ТОП-5 рекомендаций от экспертов в Data Science для новичков:
- Получите качественное профильное образование, если хотите стать профессионалом и работать по специальности. Лучше выбрать одну из ведущих онлайн-школ – вы узнаете максимум полезной информации и закрепите знания на реальных практических кейсах.
- Изучайте учебники не только российских, но и зарубежных авторов. Направление относительно новое, поэтому обязательно нужно ознакомиться с работами западных специалистов.
- Учите технический английский – без него будет сложно разобраться в терминологии, документации и профессиональной литературе.
- Больше практикуйтесь. Например, на платформе Kaggle можно принять участие в соревнованиях среди Дата Сайентистов, а также посмотреть скрипты более опытных участников.
- Работайте над своим портфолио. К примеру, программы анализа данных можно публиковать на GitHub.
Подборка полезных книг для начинающих специалистов по Дата Сайенс:
- «Наука о данных», Б. Тирни, Д. Келлехер.
- «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных», П. Флах.
- «Python и анализ данных», У. Маккинни.
- «Работа с данными в любой сфере», К. Еременко.
- «Вероятностное программирование на Python: байесовский вывод и алгоритмы», К. Дэвидсон-Пайлон.
- «Big Data, Data Mining, and Machine Learning», J. Dean.
- «Data Mining and Analysis: Fundamental Concepts and Algorithms», Mohammed J. Zaki, Wagner Meria Jr.
Кто такой Data Scientist, чем он занимается и сколько зарабатывает
Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.
Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:
- Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
- Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
- Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
- Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.
Аналитик данных — с нуля до трудоустройства за 9 месяцев
- Постоянная поддержка от наставника и учебного центра
- Помощь с трудоустройством
- Готовое портфолио к концу обучения
- Практика с первого урока
Вы получите именно те инструменты и навыки, которые позволят вам найти работу
Где нужен Data Scientist
Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.
В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.
Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.
Какие задачи решает Data Scientist: разбираем на примере
Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.
Для этого нужно:
Собрать данные
Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.
Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.
Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.
Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».
Выбрать модель и подготовить данные
На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.
Оценить результат
Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.
Чем Data Scientist отличается от Data Analyst и Data Engineer
В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.
А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.
На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:
Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.
Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.
Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает
Что нужно знать и уметь, чтобы стать Data Scientist
Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.
Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.
Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.
Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.
Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.
Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.
Сколько зарабатывает Data Scientist
Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.
Junior Data Scientist может зарабатывать до 100 тысяч рублей.
Специалист со средним опытом — от 170 до 250 тысяч рублей.
Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.
Плюсы и минусы работы Data Scientist
Плюсы
Востребованная профессия
По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.
Высокая зарплата
У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.
Динамичный карьерный рост
В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.
Интересная работа
DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.
Минусы
Высокий порог входа
Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.
Непонимание со стороны бизнеса
Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.
Кто такой Data Scientist и как им стать — итоги
- Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
- Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
- Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
- Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.
Профессия «Аналитик данных»
- Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
- Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
- Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python