Как стать data scientist
Перейти к содержимому

Как стать data scientist

  • автор:

Кто такой Data Scientist, чем он занимается и сколько зарабатывает

Кто такой Data Scientist, чем он занимается и сколько зарабатывает главное изображение

Data Scientist — это специалист, который работает с данными компании: анализирует, ищет в них зависимости и на основе этой информации делает выводы.

Data Scientist создает алгоритмы, которые решают разные бизнес-задачи и улучшают процессы: показывают пользователям интересный контент и повышают их вовлеченность, предсказывают пики и падения продаж, повышают качество производства. Например, с помощью таких алгоритмов Data Scientist может:

  • Предсказывать продажи, поведение покупателей и спрос на отдельные группы товаров для того, чтобы бизнес мог скорректировать стратегию или эффективнее управлять запасами.
  • Анализировать поведение посетителей на сайте, чтобы улучшать маркетинговые кампании и делать ставку на наиболее интересный потребителю контент.
  • Анализировать текстовые данные, чтобы выявлять тренды в соцсетях.
  • Анализировать большие данные, чтобы выявлять закономерности и на их основе делать научные прогнозы или целые открытия, как в случае с нейросетью AlphaFold , которая смогла расшифровать механизм сворачивания белка.

Аналитик данных — с нуля до трудоустройства за 9 месяцев

  • Постоянная поддержка от наставника и учебного центра
  • Помощь с трудоустройством
  • Готовое портфолио к концу обучения
  • Практика с первого урока

Вы получите именно те инструменты и навыки, которые позволят вам найти работу

Где нужен Data Scientist

Дата-сайентист может найти работу практически в любой отрасли, где генерируется подходящая для обработки и анализа информация: данные о клиентах, научных или производственных процессах, цифры, метрики, статистика.

В банках такие специалисты создают модели банковского скоринга — именно они определяют, под какой процент вам одобрить ипотеку. В промышленности с помощью анализа данных предсказывают поломки оборудования, занимаются георазведкой и следят за безопасностью. В e-commerce и ретейле повышают продажи благодаря рекомендательным системам и персональным подборкам для покупателей.

Чаще всего таких экспертов нанимают в крупные компании или стартапы. Первые — потому, что Data Science требует немалого бюджета на сбор и анализ данных. Вторые — из-за того, что Data Science является частью инновационной идеи и может стать драйвером роста компании.

Какие задачи решает Data Scientist: разбираем на примере

Допустим, дата-сайентисту нужно построить модель для сотового оператора, чтобы находить абонентов в «группе риска» — тех, кто собирается отказаться от услуг или сменить тариф.

Для этого нужно:

Собрать данные

Это значит определить, есть ли выборка данных и целевая переменная — описание признака, который будет предсказывать модель. Например, если для выборки из 100 человек точно известно, кто отказался от услуг, а кто остался с оператором — переменная есть, и можно строить эффективную модель. Если же из 100 участников кто-то ушел, кто-то остался, но кто — неизвестно, модель может давать сбой.

Сбором данных обычно занимается ML-engineer или дата-инженер. Его задача — передать data scientist релевантные, подготовленные и очищенные данные.

Так выглядит тренировочный датасет в задании Мегафона на Kaggle – в нем представлены обезличенные данные по использованию абонентами различных телеком-услуг.

Важно не только понять, какие данные есть по каждому объекту, но и оценить их надежность. Например, в каждой выборке есть ложные данные, когда человек указал о себе неверную информацию: скажем, в графе возраст написал «900 лет».

Выбрать модель и подготовить данные

На этом этапе важно обеспечить качество информации, на которой будет обучаться модель. Без этого алгоритм может выдать неправильный, ошибочный результат. Подготовить данные – значит трансформировать в удобную форму, которая называется матрицей объектов и признаков. Она и выглядит как таблица со всеми признаками — атрибутами — обучающих данных.

Оценить результат

Один из ключевых этапов — когда аналитик data science на основе опыта, интуиции и профессиональных навыков решает, насколько эффективной получилась модель. Сможет ли она работать не на обучающих, а на реальных данных — или алгоритм переобучился, то есть «вызубрил» ответы для этой выборки и будет бесполезен при анализе новой информации.

Чем Data Scientist отличается от Data Analyst и Data Engineer

В задачах, требующих анализа данных, может участвовать не только Data Scientist, но и другие специалисты. Например, выше мы упомянули Data Engineer, который собирает и готовит данные для Data Scientist.

А еще есть Data Analyst — специалист, который анализирует и визуализирует данные, чтобы помогать руководителям бизнеса принимать решения.

На первый взгляд эти профессии похожи, их часто путают. Но в действительности это разные специалисты:

Data Engineer собирает и готовит данные для аналитиков и специалистов по Data Science. Он не обучает модели, но много программирует, работает с базами данных: выгружает оттуда информацию, обрабатывает и создает для них хранилища.

Data Scientist и Data Engineer часто работают в связке: один готовит данные, другой использует их для экспериментов с моделями. А вот Data Analyst решает совсем другие задачи: он изучает статистику, ищет инсайты — выводы на основе данных — и подбирает для них визуально понятную форму. Задача дата-аналитика — найти ответ на конкретный вопрос бизнеса. Например, предсказать, какие товары будут пользоваться спросом или определить, в какие направления работы компании стоит инвестировать, а какие, напротив, сократить.

Читайте также: Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает

Что нужно знать и уметь, чтобы стать Data Scientist

Такому специалисту нужно хорошо знать математику: линейную алгебру, теорию вероятности, статистику, математический анализ. Придется разобраться с теорией машинного обучения, овладеть базовыми навыками программирования на Python, изучить фреймворки для машинного и глубокого обучения, а также научиться работать с языком SQL, который позволяет получать информацию из баз данных.

Это — базовые необходимые знания для начинающего специалиста. От опытного data scientist ждут умения решать сложные задачи: строить высоконагруженные модели — такие, которые смогут запускаться, скажем, сотни раз в секунду для каждого отдельного клиента. Или предотвращать неочевидные ошибки, когда модель переобучается из-за того, что в обучающую выборку попало лишнее поле.

Такие навыки получаются только с опытом, поэтому, помимо теории, в Data Science очень важна практика. И здесь у профессии есть преимущество: набивать руку можно практически с начала обучения, участвуя в открытых конкурсах по машинному обучению. Например, самое известное сообщество специалистов по Data Science — платформа Kaggle, где есть много обучающих материалов, но главное — соревнования от компаний.

Одно из самых известных соревнований Kaggle — задача на построение модели, которая определит, кто из пассажиров Титаника выживет в катастрофе.

Участие, и тем более победа в таких соревнованиях — это готовое портфолио, которое можно показать заказчику, и реальный опыт решения ML-задач.

Kaggle и другие соревнования могут стать для начинающего Data Science трамплином из джуниор в сеньор-специалиста. Практический опыт можно получить «в боевых условиях» и, доказав свою способность решать сложные задачи, претендовать на более высокую позицию.

Сколько зарабатывает Data Scientist

Уровень зарплаты зависит от опыта специалиста, региона и размера компании. Ниже – примеры вакансий для Москвы.

Junior Data Scientist может зарабатывать до 100 тысяч рублей.

Специалист со средним опытом — от 170 до 250 тысяч рублей.

Head of Data Science с опытом более 6 лет и большим стеком технологий — от 300 тысяч рублей.

Плюсы и минусы работы Data Scientist

Плюсы

Востребованная профессия

По данным Всемирного экономического форума , Data Analysts & Scientists — лидеры списка самых актуальных профессий до 2025 года.

Высокая зарплата

У разработчиков и Data Science-специалистов сопоставимые гонорары: по данным из вакансий hh.ru на май 2023, мидл Data Scientist в среднем может претендовать на ту же зарплату, что и мидл Python-разработчик.

Динамичный карьерный рост

В Data Science проще с практическим опытом: можно решать задачи на конкурсах, участвовать в Kaggle или хакатонах, собирать портфолио и быстрее расти в карьере.

Интересная работа

DataScience — одна из самых молодых и динамично развивающихся отраслей. Здесь много интересного. Например, можно автоматизировать задачи и отрасли, развивать науку, прокачиваться в глубинном обучении — области, где искусственный интеллект решает очень сложные задачи.

Минусы

Высокий порог входа

Специалисты Data Scientist должны хорошо знать математику, теорию машинного обучения. А еще — постоянно учиться, чтобы успевать за инновациями в сфере AI, которая меняется буквально на глазах.

Непонимание со стороны бизнеса

Несмотря на то, что машинное обучение находит применение практически во всех сферах, есть много областей, где построение моделей неэффективно: нет достаточного количества данных или четкой целевой переменной. В этом случае от Data Scientist могут ждать невозможного или нагружать нерелевантными задачами.

Кто такой Data Scientist и как им стать — итоги

  1. Data scientist создает модели машинного обучения — математические алгоритмы, которые на основе большого количества информации ищут закономерности и делают прогнозы.
  2. Специалисты по данным или Data Scientists работают практически во всех отраслях и сферах, чаще всего — в крупных компаниях или стартапах.
  3. Чтобы стать Data scientist, нужно изучить теорию: повторить или углубить знания в математике, разобраться с теорией машинного обучения.
  4. Получить практический опыт можно на соревнованиях и открытых конкурсах — это шанс разобраться в тонкостях профессии, получить хороший опыт и стать востребованным специалистом.

Профессия «Аналитик данных»

  • Изучите востребованную в каждой компании профессию и помогайте бизнесам расти и развиваться
  • Научитесь собирать, обрабатывать, изучать и интерпретировать данные с помощью SQL и Google Sheets
  • Освойте когортный анализ и визуализацию данных с помощью Superset и библиотек Python

Ни за что не становись Data Scientist’ом!

Cовет, который я даю, когда кто-то спрашивает меня, как стать Data Scientist’ом. Вместо этого, лучше стань программистом.

Сейчас очень многие рвутся стать специалистами по данным. Но в то время, как data science является, возможно, самой желанной профессией 21 века, обесценивается другая не менее полезная и высокооплачиваемая специальность — программист.

Я часто получаю сообщения от выпускников и людей, собирающихся поменять профессию, которые спрашивают меня о том, с чего начать изучение науки о данных. Вместо этого, я советую им стать программистами.

Имея опыт того и другого, я постараюсь убедить вас стать именно разработчиком программного обеспечения.

1. В области программирования больше рабочих мест

В программной инженерии на порядок больше рабочих мест по сравнению с наукой о данных.

Ниже приведено несколько снимков экрана после поиска в Google «специалист по данным» и «программист».

7616 рабочих мест в data science по сравнению с 53 8893 рабочими местами в программировании. Это рабочие места в США, но другие страны показали аналогичные результаты.

Согласно Glassdoor, специалисты по данным зарабатывают больше, но моя гипотеза также гласит, что работа в data science требует и больше знаний.

Тем не менее, если вам предложат зарплату 1 млн долларов в области искусственного интеллекта — соглашайтесь!)

2. Нет единого мнения, что означает «Data Science»

У руководства часто нет единого мнения о том, что означает наука о данных. Также опыт показывает, что, учитывая ограничения в бизнесе, у них нет возможности строго следовать структуре распределения ролей.

Это означает, что обязанности «data scientist’а» в разных компаниях сильно различаются.

Хотя идеальный спектр должностей между программистом и специалистом по данным может существовать, маловероятно, что он будет реализован на самом деле. Это особенно касается стартапов, создающих основу инфраструктуры.

Наемные кандидаты в конечном итоге работают над проблемами, которые на самом деле необходимо решать силами компании, а не силами сотрудника, который только что был принят на должность data scientist.

Один из смешных случаев среди коллег в данной области заключался в том, что многие специалисты по данным писали бэкэнд-код, как разработчики программного обеспечения. Я знаю и других data scientist’ов, которые сидели в Excel и ломали головы над финансовыми вопросами.

Это резко контрастирует с тем, что вы ожидаете, если вы выросли на соревнованиях Kaggle.

3. Изолированность Data Science

Большинству компаний не нужно столько специалистов по данным, сколько программистов. Другие компании только еще нанимают своего первого data scientist’а прямо сейчас.

По этой причине многие специалисты по данным работают в одиночку, даже если они сидят за одним столом с разработчиками.

Тут возникают сложности с получением обратной связи и мнения со стороны. Программисты либо не разбираются в прогнозном моделировании, либо слишком заняты работой над совершенно другими проблемами.

Напротив, одним из преимуществ наличия целой команды разработчиков является возможность сказать коллегам: «Я думаю, что мы должны внедрить ABC в XYZ. Что вы думаете на этот счет?»

Будьте готовы поговорить с самим собой . или с резиновой уткой (прим.пер. Метод тестирования ПО).

4. Data Science — это исследование

Будьте готовы к неловким разговорам с руководством о том, почему то, на что вы потратили 2 недели, не может быть использовано.

Работа над решенными и нерешенными проблемами — одно из фундаментальных отличий между разработкой программного обеспечения и ИИ.

Помимо ошибок и ограничений, вы уже знаете, возможно ли реализовать большинство проектов по разработке программного обеспечения еще до начала самой работы. Чего нельзя сказать о ML, когда вы не знаете, будет ли модель эффективной до тех пор, пока вы ее не построите.

5. Компании не готовы к AI

Даже в эпоху, когда каждая компания внедрила искусственный интеллект, у большинства из них нет инфраструктуры для ее поддержки.

Глава Data Science за чашечкой кофе недавно поделился советами для быстро растущего стартапа:

Сначала вы определяете проблему, затем создаете инфраструктуру и только потом привлекаете специалистов по данным. Это не быстрый процесс.

Еще один крупный специалист по Data Science в известной компании недавно высказался мне. Она была вынуждена обучать модели искусственного интеллекта на больших данных на своем ноутбуке, а не в облаке.

Если перед компанией не стоит специфичная проблема, которая решается только силами Data Science, или инфраструктура компании не подготовлена к решению таких вопросов, то вы, скорее всего, столкнетесь с трудностями, доказывая свою значимость, как специалиста.

6. Программирование учит общим навыкам

Стать младшим инженером-программистом — все равно, что получить степень MBA в области технологий. Вы узнаете всего понемногу.

Вы изучите базы данных, облачные технологии, развертывание, безопасность и написание чистого кода.

Вы научитесь создавать программное обеспечение, наблюдая за лидером отдела, старшим разработчиком или руководителем проекта.

Вы получите наставничество через обзоры кода.

Если вы окажетесь в компании с устоявшейся командой разработчиков, почти гарантировано, что вы быстро улучшите свои навыки и обретете колоссальный опыт.

7. Программная инженерия более передаваема

Предоставляя более комплексный опыт в области технологии, разработка программного обеспечения дает лучшие возможности выхода, когда вы решили, что пришло время перемен.

DevOps, безопасность, интерфейс, бэкэнд, распределенные системы, бизнес-аналитика, инженерия данных, наука о данных…

Я знаю ряд разработчиков, которые перешли от программирования к науке о данных. Если вы пробежитесь глазами по требованиям к специалисту в Data Science, то сразу заметите там массу требуемых навыков программиста:

  • Опыт работы с SQL и Python, R или SAS;
  • Знание AWS;
  • Знание Linux;
  • Знание экспериментального дизайна для бизнес-экспериментов;
  • Знание систем DevOps, таких как GitLab;

Если вы можете создавать сквозные проекты, то вы также можете сделать как минимум модель для Kaggle. Вы можете взять эту модель, произвести ее, настроить авторизацию и Stripe, а затем начать взимать плату с пользователей за доступ. Это ваш собственный стартап.

Я бы никогда не стал утверждать, что наука о данных не подлежит передаче. Принятие решений на основе данных является по истине убойным навыком. Но это также становится чем-то большим, чем когда-либо, поскольку мы все больше ориентируемся на данные.

8. Машинное обучение станет инструментом для разработчиков программного обеспечения

По мере того, как ИИ становится удобнее и проще в использовании, разработчики программного обеспечения начинают использовать его для решения своих задач.

Я могу научить разработчика создавать классификаторы Sklearn. Это не значит, что он сможет построить следующий Alphago, но это дает ему альтернативу жестко запрограммированной условной логике, основанной на пользовательском вводе.

Data scientist’ы имеют специальные знания, такие как статистика и интуиция, о том, как работают модели. Но инженеры DevOps и Security также имеют свои специальные знания.

Я бы сказал, что они больше общие, чем разные. Опытный специалист по программному обеспечению может очень быстро перемещаться между специальностями.

Хотя я не думаю, что мы увидим полное слияние науки о данных с разработкой программного обеспечения, но похоже, что наука о данных может стать еще одной специальностью программирования.

9. AI не заменит программистов

Как бы глупо это ни звучало, я занялся разработкой программного обеспечения в 2014 году, потому что боялся, что ИИ изживет любую другую профессию.

Но дело в том, что внедрение технологий происходит медленно, а ИИ намного Уже, чем вы можете себе представить.

По сравнению с другими профессиями, машинное обучение очень далеко от автоматизации разработки программного обеспечения. Хотя у нас есть стартапы, создающие классные продукты, такие как автозавершение кода с поддержкой AI , написание кода — не специальность. Суть профессии все же заключается в решении задач с использованием технологий. А это то, что останется ценным и высокооплачиваемым навыком.

Заключение

Во-первых, это слегка нелепо. Во-вторых, я понимаю, что я объединил специалистов по данным, инженеров ML и исследователей ИИ. Но я думаю, что эти аргументы все же стоит рассмотреть, учитывая, что это ваша карьера.

Не воспринимайте это слишком серьезно. Я бы предпочел, чтобы вы прочли это и приняли собственное решение. Это часть того, чтобы стать data scientist’ом в конечном итоге 🙂

В конце концов, нам платят за решение проблем.

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)

Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.

Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.

С. Мальцева, В. Корнилов. НИУ ВШЭ

Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.

Войти в IT. 7 способов освоить Data Science и получить работу c Big Data

Научиться профессии, которая бы позволяла работать удаленно, быть в тренде мировых перспектив и открывать новые возможности в IT — реально. Сегодня говорим о том, как стать Data Science-специалистом.

Войти в IT. 7 способов освоить Data Science и получить работу c Big Data

Войти в IT. Стать продакт менеджером может каждый: 13 полезных курсов для получения новой профессии Войти в IT. Семь реальных способов освоить профессию UX/UI дизайнера и стать творческим айтишником Читайте главные ИТ-новости страны в нашем Telegram

Текст: Марія Бровінська Теги: data science, af, big data, it-курси, data scientist

Нашли ошибку в тексте — выделите её и нажмите Ctrl+Enter. Нашли ошибку в тексте — выделите её и нажмите кнопку «Сообщить об ошибке».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *