Кто такой Data Scientist, чем он занимается и сколько зарабатывает
Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.
Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:
- Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
- Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
- Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
- Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.
Аналитик данных — с нуля до трудоустройства за 9 месяцев
- Постоянная поддержка от наставника и учебного центра
- Помощь с трудоустройством
- Готовое портфолио к концу обучения
- Практика с первого урока
Вы получите именно те инструменты и навыки, которые позволят вам найти работу
Где нужен Data Scientist
Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.
В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.
Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.
Какие задачи решает Data Scientist: разбираем на примере
Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.
Для этого нужно:
Собрать данные
Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.
Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.
Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.
Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».
Выбрать модель и подготовить данные
На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.
Оценить результат
Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.
Чем Data Scientist отличается от Data Analyst и Data Engineer
В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.
А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.
На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:
Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.
Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.
Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает
Что нужно знать и уметь, чтобы стать Data Scientist
Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.
Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.
Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.
Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.
Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.
Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.
Сколько зарабатывает Data Scientist
Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.
Junior Data Scientist может зарабатывать до 100 тысяч рублей.
Специалист со средним опытом — от 170 до 250 тысяч рублей.
Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.
Плюсы и минусы работы Data Scientist
Плюсы
Востребованная профессия
По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.
Высокая зарплата
У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.
Динамичный карьерный рост
В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.
Интересная работа
DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.
Минусы
Высокий порог входа
Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.
Непонимание со стороны бизнеса
Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.
Кто такой Data Scientist и как им стать — итоги
- Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
- Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
- Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
- Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.
Профессия «Аналитик данных»
- Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
- Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
- Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python
Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)
Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Что нужно знать на позицию junior Data Science и как подготовиться к собеседованию
Data Science является одной из самых востребованных, высокооплачиваемых и перспективных профессий в современном мире. Как следствие, конкуренция за вакансии в этой области очень высока. Если вы ищете работу в качестве Data Science Junior, подготовка к собеседованию — это один из самых важных этапов. В этой статье мы рассмотрим, что нужно изучить к собеседованию на Data Science Junior и что ждут работодатели.
Что такое Data Science и кем там можно работать
Data Science — это широкий спектр компетенций, включающих в себя сбор, хранение, обработку и анализ данных с целью выявления закономерностей, прогнозирования и оптимизации бизнес‑процессов. В связи с этим в области Data Science существует множество профессий:
Data Scientist — специалист, который создаёт инструменты для решения задач бизнеса. Для этого он использует навыки анализа данных и построения моделей машинного обучения (англ. Machine Learning). Data Scientist работает на стыке трёх областей знания: статистики, машинного обучения и программирования.
Data Analyst — аналитик данных, который занимается извлечением информации из больших объёмов данных, проведением анализа и подготовкой отчетов. Он использует методы статистики и визуализации данных для того, чтобы сделать выводы и рекомендации на основе данных.
Data Engineer — специалист, который отвечает за сбор, обработку и хранение данных. В процессе работы с данными он занимается задачами, которые обозначают аббревиатурой ETL: достает данные (Extract), трансформирует и обрабатывает (Transform), загружает (Load). Его задача — организовать эти процессы в пайплайн, по которому будут двигаться потоки данных, чтобы их можно было использовать для принятия решений в компании. На заключительном этапе работы с данными дата‑инженер организует базу данных так, чтобы нужную информацию в любой момент можно было поднять и использовать снова.
Machine Learning Engineer — инженер машинного обучения, который занимается разработкой, оптимизацией и реализацией моделей машинного обучения. Его задачи носят практический характер, он учит компьютер находить взаимосвязи в большом количестве данных и на их основе принимать решения.
Хоть каждая должность и кажется уникальной, на деле их обязанности часто пересекаются. В реальной работе, в зависимости от состава команды и потребностей бизнеса, часто приходится выполнять обязанности нескольких должностей (это обычно встречается в небольших компаниях). Так же, как и в работе, подготовка к собеседованию на junior позицию во многом схожа для вышеперечисленных направлений.
Какие ожидания и реалии у работодателей
Каждый работодатель хотел бы, чтобы junior мог работать без постоянного контроля и развивался под руководством тимлида. Для этого новичок должен владеть необходимыми знаниями, инструментами для выполнения текущих задач и обладать достаточной теоретической базой, чтобы постепенно предлагать собственные решения и подступаться к более сложным задачам.
На деле у кандидатов всё довольно неплохо с инструментами: большинство из них заканчивают онлайн‑курсы, которых появилось бесчисленное множество на хайпе данной профессии. Они обладают неплохими знаниями SQL, Python, пробовали работать с несколькими библиотеками, умеют работать с Git и Linux. Могут решать задачи с чётко поставленным ТЗ и используют стандартные методы.
А вот фундаментальных теоретических знаний по алгебре, статистике, теории вероятностей и алгоритмам машинного обучения часто не хватает. Любой шаг в сторону является проблемой для большинства кандидатов. Хотя именно гибкости и нестандартного мышления ждут работодатели от кандидатов.
Что же делать?
Если вы хотите выгодно отличаться от основной массы кандидатов, следует уделить достаточно времени, чтобы прокачать и систематизировать свои знания по математике, машинному обучению, алгоритмам и в целом по данной профессии. Имея более глубокое понимание, вы сможете решать нестандартные и более сложные задачи, научитесь понимать, с чем вы работаете, а не просто использовать инструменты.
Процесс такого обучения занимает гораздо больше времени, но это того стоит. С высокой вероятностью вы сможете ответить почти на все вопросы вашего интервьюера и получите заветную работу в Data Science.
Как готовиться и что учить?
Наша статья направлена в основном на выпускников онлайн‑школ, которые уже обладают начальными знаниями профессии и способны решать несложные задачи. Как говорилось ранее, нужно систематизировать свои знания, подтянуть теорию.
В первую очередь ключ к успеху в любом деле — это самоорганизация. Чтобы хорошо подготовиться, ведите записи того, что изучаете и решаете. Для этой задачи идеально подходит notion. Перед собеседованием будет полезно пролистать свои записи и освежить материал в памяти. Ещё один совет, связанный с записями — научитесь Tex»ать задачи по математике, это позволит держать свои записи в удобном читаемом формате. Ещё одним фактором успешной подготовки является регулярность: обязательно занимайтесь каждый день.
Для начала стоит изучить основы математического анализа, линейной алгебры и теории вероятностей. Если у вас есть бэкграунд технического ВУЗа — это уже половина успеха. Вспомнить то, что вы изучали в университете, вам будет намного проще, чем изучить математику с нуля людям, которые кардинально решили сменить профессию и с математикой не были связаны.
После изучения основ можно переходить к более сложным вещам: таким, как математическая статистика и алгоритмы машинного обучения.
Математический анализ
Математический анализ является фундаментом почти всех прикладных областей математики. Например, в основе нейронных сетей лежит понятие градиента, при оптимизации нелинейной функции вам понадобится гессиан, и, наконец, чтобы исследовать и обосновывать сходимость алгоритма обучения, понятие предела абсолютно необходимо.
Какие разделы стоит изучать:
- Множества.
- Комплексные числа.
- Пределы и производные.
- Функции одной и нескольких переменных.
- Интегралы (неопределённые и определённые).
- Дифференциальные уравнения.
- Ряды (числовые, функциональные, степенные, Тейлора, Маклорена, Фурье).
- Преобразование Фурье.
Какую литературу использовать для изучения математического анализа?
Ниже приведен список учебников, который отлично подойдет для изучения и используется на математических факультетах в университетах.
1. Архипов Г.И. Лекции по математическому анализу / Г.И.Архипов, В.А.Садовничий, В.Н.Чубариков — Москва: 1999., 695 с.
2. Зорич В.А. Математический анализ Часть 1 / В.А.Зорич — Москва: 2019., 576 с.
3. Зорич В.А. Математический анализ Часть 2 / В.А.Зорич — Москва: 2019., 688 с.
4. Кудрявцев Л.Д. Курс математического анализа Том 1 / Л.Д.Кудрявцев — Москва: 2003., 703 с.
5. Кудрявцев Л.Д. Курс математического анализа Том 2 / Л.Д.Кудрявцев — Москва: 2004., 720 с.
6. Кудрявцев Л.Д. Курс математического анализа Том 3 / Л.Д.Кудрявцев — Москва: 2006., 351 с.
Внесём небольшое уточнение: не стоит хвататься за все учебники сразу и пытаться изучить тему в каждом из них. У каждого автора есть своё видение и стиль изложения, стоит выбрать одного или двух, чьё изложение вам больше по душе.
Помимо учебников нужно использовать и задачники. Два столпа, на которых держится матанализ:
1. Демидович Б.П. Сборник задач и упражнений по математическому анализу / Б.П.Демидович — Москва: 2005., 454 с.
2.Садовничий В.А. Задачи студенческих олимпиад по математике / В.А.Садовничий, А.С. Подкозлин — Москва: 1978., 208 с.
Линейная алгебра
Уже один из первых и простейших методов анализа данных — линейная регрессия — оперирует с понятиями вектора и матрицы. После освоения нижеперечисленных тем вы сможете уверенно двигаться в сторону освоения профессии аналитика данных, не делая остановок на «неизвестных» разделах алгебры. Задачи с собеседований по алгебре у вас будут производить впечатления детских ребусов.
Какие разделы стоит изучать?
- Векторы и операции над ними.
- Системы координат.
- Матрицы, их ранги и определители.
- Системы линейных уравнений.
- Пространства (линейное, евклидово, аффинное) и их преобразования.
- Линейные операторы.
- Собственные векторы и значения.
- Билинейные и квадратичные формы.
- Самосопряжённые и ортогональные операторы.
Какую литературу использовать для освоения линейной алгебры?
Рекомендуем учебник Винберга «Курс алгебры», он покроет все темы и разделы.
1. Кострикин А.И. Сборник задач по алгебре
2. Кряквин В.Д. ЛИНЕЙНАЯ АЛГЕБРА. Пособие к решению задач. и большая коллекция вариантов заданий
Теория вероятностей
Теория вероятностей пронизывает всю науку о данных. Вероятностные модели и конструкции присутствуют почти по всех алгоритмах машинного обучения. Функция штрафа в задаче регрессии или ошибка классификации опираются на понятие математического ожидания, закон больших чисел и центральная предельная теорема служат обоснованием сходимости и состоятельности многих алгоритмов и методов анализа данных.
Какие темы стоит изучить?
- Комбинаторика.
- Условная вероятность, формула полной вероятности, теорема Байеса.
- Дискретные случайные величины.
- Геометрические вероятности.
- Случайные величины, распределение случайных величин.
- Математическое ожидание непрерывных случайных величин.
- Случайные векторы.
Литература для изучения теории вероятностей:
1. А. Н. Ширяев. «Вероятность». МЦНМО, 2004. Том 1.
2. В.Феллер. ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ
3. Н. Я. Виленкин, А. Н. Виленкин, П. А. Виленкин. «Комбинаторика». МЦНМО, 2007
4. В. А. Малышев. «Кратчайшее введение в современные вероятностные модели»
Математическая статистика
Математическая статистика является основополагающей дисциплиной в прикладных областях, имеющих дело с обработкой и анализом данных. Часто её рассматривают как прикладную часть теории вероятностей. Анализ многих реальных данных начинается с применения методов математической статистики и затем (если в этом остаётся необходимость) продолжается методами машинного обучения.
Какие темы стоит изучить?
- Выборочное пространство, выборка и выборочное распределение. Виды статистик.
- Оценки и их свойства.
- Метод моментов и метод максимального правдоподобия.
- Эффективные оценки. Доверительные интервалы.
- Визуальные методы анализа. Основы проверки гипотез.
- Критерий Вальда, критерии, основанные на нормальности данных, корреляционный анализ.
- Регрессионный анализ. Метод наименьших квадратов.
- Проверка гипотез о параметрах регрессионной модели.
Список литературы: Отличным вариантом будет книга Гмурмана «Теория вероятностей и математическая статистика». Еще одна неплохая книга, которая идеально подойдет для введения в статистику — «Наглядная математическая статистика», Лагутин М.Б.
Что делать с таким объёмом информации?
Как вы могли заметить, объём информации для освоения огромный. Но не стоит этого бояться, надо просто начать читать учебники и разбираться в материале. Кому‑то будет проще, кому‑то — сложнее, главное — не переставать учиться и тренироваться, и тогда у вас всё получится.
Но не для всех подойдёт формат самостоятельного обучения, это может завести человека в тупик, из которого он не выйдет и забросит подготовку. В таком случае на помощь приходят всё те же онлайн‑курсы, но уже по математике. В интернете можно найти курсы по высшей математике, но их не очень много.
При выборе стоит обращать внимание на преподавательский состав (огромным плюсом будет наличие практики в университете и учёные степени), а также на программу курса. Есть отличный курс от Shad Helper, который идеально подойдёт для подготовки в Data Science. В нём сочетаются преподаватели из топовых университетов страны и программа, составленная специально под подготовку в Data Science, что уже звучит как успех. Пройдя такой курс, вы быстрее освоите математику и получите свой первый оффер.
В заключение скажем, что подготовка к собеседованию на Data Science Junior требует усилий и времени, но это вложение окупится в будущем. Изучив основы математики, статистики и алгоритмов машинного обучения, вы с легкостью пройдёте интервью и закрепитесь в профессии, где при должных усилиях вас ждёт большой рост.
- подготовка к собеседованию
- data science
- Shad Helper
- Математика
- Учебный процесс в IT
- Карьера в IT-индустрии
Войти в IT. 7 способов освоить Data Science и получить работу c Big Data
Научиться профессии, которая бы позволяла работать удаленно, быть в тренде мировых перспектив и открывать новые возможности в IT — реально. Сегодня говорим о том, как стать Data Science-специалистом.
Текст: Марія Бровінська Теги: data science, af, big data, it-курси, data scientist
Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».