Data Scientist (Специалист по обработке, анализу и хранению больших массивов данных)
Data Scientist (дата-сайентист или датасаентист) обрабатывает и анализирует массивы больших данных (Big Data), чтобы с использованием алгоритмов машинного обучения найти в них новые связи и закономерности и построить прогнозную алгоритмическую модель, которую можно использовать для решения задач бизнеса, науки, повседневной жизни. Профессия подходит людям с аналитическим складом ума и способностями к математике. Кстати, недавно центр профориентации ПрофГид разработал точный тест на профориентацию, который сам расскажет, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Data Science – наука о данных на стыке разных дисциплин: математика и статистика; информатика и компьютерные науки; бизнес и экономика.
С. Мальцева, В. Корнилов. НИУ ВШЭ
Профессия новая, актуальная и чрезвычайно перспективная. Термин Big Data появился в 2008 году. А профессия Data Scientist – «учёный по данным» официально зарегистрирована как академическая и межотраслевая в начале 2010 г. Хотя первое упоминание термина data science было отмечено в книге Петера Наура 1974 г., но в ином контексте.
Почему так много специалистов по данным бросают свою работу
Да, я занимаюсь данными. И да, вы правильно прочитали название, но все таки кто-то должен был это сказать. Мы так много читаем о безумной привлекательности науки о данных (ее называют самой сексуальной работой XXI века и о внушительных суммах денег, которые data scientist может заработать, что это занятие может показаться работой мечты. Прибавьте к тому, что в индустрии уже есть множество высококвалифицированных людей, заморачивающихся со сложными проблемами ( и да, заморачиваться — это хорошо), и в эту работу можно будет влюбиться.
Но правда в том, что data scientists обычно «проводят 1-2 часа в неделю в поисках новой работы», как указано в этой статье Financial Times. Кроме того, в статье также говорится, что «… специалисты по машинному обучению возглавили список разработчиков, которые заявили, что ищут новую работу (14,3%). Data scientists оказались на втором месте (13,2%)». Stack Overflow собрали эти данные из опроса 64 000 разработчиков.
Я сам недавно был в подобном положении и только что сменил работу в области data science.
Так почему же так много data scientists ищут новые рабочие места?
Прежде чем ответить на этот вопрос, я должен уточнить, что до сих пор являюсь data scientist. В целом, я люблю работу, и я не хочу мешать тем, кто хочет стать data scientists, потому что это классная работа, она приносит хорошие деньги и весьма увлекательна. Цель этой статьи — сыграть адвоката дьявола и выявить некоторые негативные аспекты работы.
С моей точки зрения, существует 4 важные причины почему многие data scientist могут быть недовольны своей работой.
1. Ожидание не соответствует действительности
“Большие данные похожи на подростковый секс: все об этом говорят, никто не знает, как это делается, все думают, что все им занимаются, поэтому все утверждают, что они им тоже занимаются” — Дэн Ариэли
Эта цитата очень к месту. Многие junior data scientists, которых я знаю (и я в их числе), хотели попасть в науку о данных, потому что речь шла о решении сложных проблем с применением новых алгоритмов машинного обучения, и оказывают огромное влияние на бизнес. Это был шанс почувствовать, что работа, которую мы делали, важнее всего, что мы делали раньше. Однако это часто бывает не так.
На мой взгляд, тот факт, что ожидание не соответствует действительности, является истинной причиной ухода многих ученых. Есть много факторов, я не могу здесь привести полный список, но этот пост по сути является перечнем некоторых причин, с которыми я столкнулся.
Все компании — разные, поэтому я не могу говорить за всех, но многие компании нанимают ученых-специалистов без подходящей инфраструктуры, желая начать получать выгоду от ИИ. Это вызывает проблему холодного запуска ИИ. Прибавьте сюда то, что эти компании не нанимают опытных senior data scientists до найма джуниоров, и у вас получится рецепт разочарования и плохих взаимоотношений. Data scientist, скорее всего приходит создавать алгоритмы машинного обучения и выдавать результат, но не может это делать, поскольку его первой задачей является сортировка инфраструктуры данных и / или создание аналитических отчетов. А компания всего лишь хочет получить красивый график чтобы показывать его каждый день на совещаниях. Затем компания разочаровывается, не видя быстрой отдачи, и все это приводит к тому, что data scientist несчастлив в своей роли.
Важно оценить, насколько наши стремления совпадают с основным направлением нашей сферы. Найдите проекты, команды и компании, чье основное направление наилучшим образом соответствует вашим требованиям.
Здесь подчеркиваются двухсторонние отношения между работодателем и data scientist. Если компания занимается не тем, или имеет цели, отличные от целей data scientists, то становится только вопросом времени, когда data scientist найдет что-то еще.
Еще одна причина, по которой data scientists разочаровываются — это та же самая причина, по которой я разочаровался в академических кругах: я полагал, что смогу оказать огромное влияние на людей во всем мире, а не только внутри компании. На самом деле, если основной бизнес компании не является машинным обучением (мой предыдущий работодатель — издательская компания для СМИ), то вы скорее всего будете заниматься data science только для того, чтобы немного увеличить прибыли компании. Может быть, это выльется во что-то более серьезное, вы можете даже наткнуться на золотую жилу, но я бы на это не рассчитывал.
2. Политика превыше всего
О политике уже есть блестящая статья The most difficult thing in data science: politics, и я призываю вас ее прочитать. Первые несколько предложений из этой статьи в значительной степени подытоживают то, что я хочу сказать:
Когда я просыпался в 6 часов утра и садился изучать курс по методам опорных векторов, я думал: «Это слишком сложно… Так, стоп! Я же могу стать очень ценным для своего будущего работодателя!». Если бы у меня был DeLorean с машиной времени, я бы вернулся назад во времени и сам себе сказал бы: “Ни фига подобного!”.
Если вы серьезно думаете, что знание множества алгоритмов машинного обучения сделает вас самым ценным data scientist, вернитесь к моему первому пункту: ожидание не соответствует действительности.
Истина заключается в том, что самые влиятельные люди бизнеса должны хорошо воспринимать вас. Это может означать, что вам приходится постоянно выполнять специфическую работу. Например, доставать данные из базы данных, чтобы дать нужным людям в нужное время, делать простые проекты, чтобы нужные люди имели правильное представление о вас. Мне много приходилось этим заниматься на моем предыдущем месте. Это бесило ровно настолько, насколько вы может себе представить, но от этого было некуда деться.
3. Вы будете тем человеком, которому задают любые вопросы о данных
Разобравшись с необходимостью постоянно удовлетворять важных людей, нужно сказать, что те же самые важные люди часто не понимают, что подразумевается под data scientist. Это означает, что именно вы будет заниматься аналитикой, а также писать отчеты, и давайте не будем забывать, что вы еще будете и экспертом по базам данных.
Не только управленцы будут переоценивать ваши навыки. Другие коллеги по цеху предполагают, что вы знаете все о данных. Вы знакомы со Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A / B Testing, NLP, всем, что связано с машинным обучением, а еще всем, что приходит в голову при слове “данные”. Кстати, если вы видите вакансию, где указаны все эти навыки, бегите! Дело попахивает тем, что компания не знает свою стратегию по данным, и они хотят нанять хоть кого-нибудь, поскольку считают, что найм любого специалиста устранит все проблемы с их данными.
Но это еще не конец. Поскольку вы все это знаете, и вы, очевидно, имеете доступ ко всем данным то, вы должны предоставить ответы на ВСЕ вопросы через . ну, ответы уже пять минут назад должны были придти на почту всем заинтересованным лицам.
Может быть сложно рассказать всем, что вы на самом деле знаете, и контролировать их. Не потому, что кто-то на самом деле думает о вас меньше, а потому, что, будучи junior scientist с небольшим опытом работы в отрасли, вы будете беспокоиться, что люди будут думать о вас плохо. Ситуация не из простых!
4. Работа в изолированной команде
Когда мы видим успешные data продукты, мы часто имеем дело с умело разработанными интеллектуальными пользовательскими интерфейсами и, самое главное, c практически применимыми результатами. Эти результаты воспринимаются пользователями, как минимум, как пригодные для решения определенных проблем. Теперь, если data scientist тратит свое время только на изучение того, как писать и выполнять алгоритмы машинного обучения, он может быть только небольшой (хотя и необходимой) частью команды, создающей потенциально успешный продукт. Это означает, что data science коллективам, работающим изолированно, будет трудно обеспечить продуктивность.
Несмотря на это, во многих компаниях все еще есть data science команды, которые придумывают свои собственные проекты и пишут код для решения проблем. В некоторых случаях этого может быть достаточно. Например, если требуемый результат является электронной таблицей, создаваемой один раз в квартал, то команда может быть продуктивной. С другой стороны, если целью является оптимизация, обеспечивающая интеллектуальные предложения в специализированном продукте для создания веб-сайтов, то от команды потребуется множество разных навыков, которых нельзя ожидать от подавляющего большинства data scientists (только магический волшебник из мира данных может решить эту проблему в одиночестве). Поэтому, если проект будет проводиться изолированной data science командой, то он, скорее всего, потерпит неудачу (или займет очень много времени, потому что в больших компаниях сложно координировать работу изолированных команд над единым проектом).
Поэтому, чтобы быть эффективным специалистом в прикладной науке о данных, недостаточно делать успехи в соревнованиях Kaggle и закончить какие-нибудь онлайн-курсы. К счастью, или к сожалению (в зависимости от того, каким образом вы смотрите на ситуацию), от вас ожидается понимание того, как иерархия и политика работают в бизнесе. Поиск компании, которая соответствует вашему критическому пути, должна быть ключевой целью при поиске такой работы в науке о данных, которая будет удовлетворять ваши потребностям. Тем не менее, вам все равно полезно изменить свои ожидания от работы в сфере данных.
Если у кого-то есть дополнительные комментарии, вопросы или возражения, пожалуйста, не стесняйтесь комментировать, потому что конструктивное обсуждение необходимо , чтобы помочь специалистам в сфере данных сделать обоснованные решения относительно их карьерного пути.
Профессия Data Scientist
Data Scientist структурирует данные для бизнеса и разрабатывает перспективные решения. Вместе со специалистами выясним все тонкости профессии и узнаем, сколько зарабатывают эти специалисты в 2023 году
Data Scientist способен отыскать себе работу в любой отрасли: от розничных продаж до ядерной физики. Поэтому такого специалиста порою называют повелителем больших данных. Data Scientist трудится на стыке 3-х областей знаний: программирования, статистики и машинного обучения.
Кто такой Data Scientist
Data Scientist работает с данными компании, занимается их анализом, ищет потенциальные зависимости, на этой основе делает выводы и при надобности строит визуализации. Для решения таких задач специалист пользуется математическими алгоритмами, инструментами разработки и специальными программами. Data Scientist понимает, как выстроить прогноз и помогает принимать правильные решения.
Полезная информация о профессии Data Scientist
Мы собрали полезные данные об этой профессии в одну таблицу.
Срок обучения | От 6 месяцев |
Средняя зарплата | 170 000 рублей |
Где можно получить профессию | На курсах и в вузах |
Необходимые качества | Дальновидность, широкий кругозор, наблюдательность, аналитический склад ума |
Востребованность профессии | Высокая |
Где работать | На фрилансе, в штате различных компаний |
Чем занимается Data Scientist
Этот специалист использует методы Data Science, чтобы обрабатывать большие объемы информации. Он выстраивает и тестирует модели поведения данных. Так он находит в них закономерности и прогнозирует будущие значения. К примеру, зная всё о спросе на продукт раньше, Data Scientist помогает компании сделать прогноз о продажах на ближайшее будущее. Все модели выстраиваются благодаря алгоритмам машинного обучения.
Плюсы работы Data Scientist
В этой профессии достаточно плюсов:
- можно научиться решению нестандартных задач;
- реальное влияние на рабочие процессы в компании;
- высокая зарплата;
- получится работать в тех отраслях, в которых интересно лично вам;
- можно сотрудничать с зарубежными компаниями.
Минусы работы Data Scientist
В этой профессии есть и минусы:
- приходится постоянно заниматься самообучением, так как знания быстро устаревают;
- нужно знать математику;
- многозадачность.
Где учиться в 2023 году
Эту профессию можно получить в университетах. Программировать, работать со статистикой и пользоваться аналитическими данными вас научат на программах IT-направлений: «Прикладной анализ данных и искусственный интеллект», «Математическое моделирование», «Аналитика и управление данными». Также можно отучиться на онлайн-курсах.
Вузы
В Санкт-Петербургском государственном университете (СПбГУ) получить профессию можно на программе «Исследование операций и системный анализ». Для поступления обязательно надо знать информатику и прикладную математику. Предусмотрена только очная форма. Обучение проходит на базе бакалавриата и длится 2 года.
В Дальневосточном федеральном университете (ДВФУ) открыт профиль «Сквозные цифровые технологии». За 4 года обучения вы не только получите мощную теоретическую базу, но и пройдете практику в ведущих IT-компаниях Дальневосточного региона. Студенты этой образовательной программы разрабатывают проекты, которые проходят экспертизу у бизнес-партнеров ДВФУ. Впоследствии эти проекты-стартапы защищаются в качестве дипломной работы.
это интересно
Профессия стример
О востребованности, зарплате, плюсах и минусах своей работы рассказывают представители профессии
Курсы
Курс «Data Scientist с нуля до middle» от «Нетологии» длится 20 месяцев. За все время обучения вы сделаете с десяток интересных проектов, получите диплом о профессиональной переподготовке и пройдете почти 800 часов теории и практики. Еще во время курса вы сможете найти первую работу по профессии. Кураторы оказывают полное содействие в трудоустройстве.
Курс «Специалист по Data Science плюс» от Яндекс Практикум рассчитан на 16 месяцев. Вы с нуля дорастете до востребованного специалиста. За 1,5 года у вас в портфолио появится 2 реальных и 22 учебных проекта. Курс отлично подходит даже тем, кто раньше никак не был связан с IT-сферой.
Курс «Математика для Data Science» от SkillFactory — это 2 месяца интенсивного обучения. Вы изучите математическую базу, чтобы быстро войти в сферу науки о данных. Выпускники курса отмечают, что информация подается доступно и структурировано. В план образовательной программы включено выполнение практических заданий.
Востребованность Data Scientist
Согласно данным Центра компетенций Национальной технологической инициативы на базе МФТИ, в 2021 году рынок больших данных оценивался в 46 миллиардов долларов. Бюро статистики труда США сообщает, что к 2026 году по объему вакансий сфера Data Science увеличится на 28%. За последние годы количество вакансий в разных странах увеличилось почти на 500%. Ожидается, что профессия станет еще востребованней в ближайшие 5 лет.
Павел Думин, кандидат технических наук, преподаватель Data Science в Elbrus Bootcamp, высказался о трендах на 2023 год:
— Наметился серьезный тренд на генерацию изображений. Только за последние полгода появилось много сильных моделей, которые работают с иллюстрациями и с текстом. Анализ текста — тоже мощная область, многие компании сейчас автоматизируют общение с помощью чат-ботов.
Устройство на работу
В России Data Scientist преимущественно ищут финансовые и IT-компании. И чаще всего специалистам требуется знать язык программирования Python. В вакансиях по машинному обучению этот навык требуется в 51% случаев, по аналитике данных в — 45%. Больше всего такие кадры нужны в Санкт-Петербурге и Москве.
Найти работу можно и на фрилансе. Вакансии выкладывают на каналах в Telegram, а также на соответствующих сайтах.
Построение карьеры
Карьера Data Scientist выглядит обычно так:
Обычно на эту позицию ставят человека после прохождения коротких курсов. Но нужно понимать, что стажеры чаще всего не нужны. Об этом говорит количество вакансий на HeadHunter: на начало ноября 2022 года их было всего 14.
Такой начинающий специалист решает в основном простые детализированные задачи: подготавливает данные к обработке, ищет ошибки, выстраивает таблицы. Всех тонкостей профессии Джун не знает, поэтому ему приходится полагаться на наставника. Новички тоже сейчас нужны редко, поэтому надо стараться выбраться из этой категории как можно скорее.
Он отлично ориентируется в Big Data, самостоятельно решает многие задачи, хорошо знает математику, разбирается в Python, умеет проводить эксперименты. Middle понимает, как создавать алгоритмы. Специалисты этого уровня — одни из самых востребованных.
Способен одновременно работать над несколькими крупными проектами, глубоко знает статистику и математику, умеет качественно визуализировать результаты. Он отлично разбирается в Python и SQL и является экспертом в Data Science. На этой позиции аналитик обучает младших специалистов. Вакансий для Сеньоров больше всего.
Специалистам без опыта и с минимальными знаниями следует искать вакансии в компаниях с опытными наставниками. Только так можно познать базовые основы профессии и впоследствии стать востребованным экспертом.
Уровень зарплаты
На уровень зарплаты специалиста по работе с Big Data влияют несколько факторов.
Стажерам обычно платят самый минимум на рынке. Профессионалы зарабатывают за счет своего опыта.
- Страна проживания
Data Scientist в США или Канаде получает в разы больше, чем в России.
- Прокаченные soft skills и hard skills
Отличное знание математики, статистики, языков программирования, английского языка, а также креативность, коммуникабельность и развитое критическое мышление: специалистам с таким набором навыков работодатели готовы платить больше.
Анализ данных HeadHunter показывает, что в России стажёрам платят в среднем 25 000-40 000 рублей; Junior получает от 45 000 до 145 000. Заработок Middle составляет от 150 000 до 250 000 рублей; Senior зарабатывает от 250 000 до 500 000 рублей.
Перспективы Data Scientist в будущем
Чтобы быть востребованным на рынке и хорошо зарабатывать, следуйте приведенным ниже рекомендациям.
- Найдите свою нишу и активно в ней развивайтесь.
- Изучайте смежные направления — например, научитесь создавать голосовые помощники с помощью NLP или освойте машинное обучение на основании текстовых данных.
- Переквалифицируйтесь в ментора или откройте собственный бизнес.
Отзывы специалистов о работе Data Scientist
Сергей Гатауллин, декан факультета цифровой экономики и массовых коммуникации МТУСИ:
— Войти с нуля в профессию достаточно сложно. Надо понимать, что дата-сайентист, в отличие от аналитика данных, создает математические модели и модели машинного обучения, пусть и используя существующие алгоритмы. Для этого необходимо обладать продвинутым, а не базовым пониманием и умением применять сложный математический аппарат для решения прикладных задач бизнеса.
Никита Пестров, ведущий специалист по анализу данных ООО «Хабидатум Лаб»:
— Для инновационных компаний важно желание сотрудников расти в сфере деятельности компании, иногда даже важнее его знаний в рамках предметной должности. Поэтому при собеседовании кандидатов на позицию Data Scientist я смотрю на интерес к городской тематике, опыт командной работы. В резюме это можно увидеть по участию в релевантных стажировках или в проектах на важных для компании темы.
Популярные вопросы и ответы
Отвечает Павел Думин, кандидат технических наук, преподаватель Data Science в Elbrus Bootcamp.
Какие навыки должны быть у Data Scientist?
— Очень важна усидчивость. Во время работы приходится думать над множеством деталей, иногда возникают какие-то ошибки и нужно уметь их методично анализировать. Полезно научиться быстро разбираться в новом подходе, сходу попробовать его применить, чтобы оценить, работает он для твоих задач или нет.
Можно ли выучиться на Data Scientist бесплатно?
— Да, в интернете много открытых курсов от хороших университетов. Главное — понять, в каком формате вам удобно получать навыки. Практика показывает, что обучение в группе повышает эффективность обучения. И наоборот: в процессе самостоятельной подготовки люди теряют мотивацию и не доходят до результата.
Как начинающему Data Scientist откликаться на вакансии?
— Никто не любит собеседования, но их полезно проходить, даже если работать в конкретную компанию не хочется. Это хорошая тренировка коммуникативных навыков, отработка устойчивости в стрессовых ситуациях. С каждым новым интервью к собеседованиям начинаешь относиться не так трепетно. Впоследствии готовиться к действительно интересным вакансиям будет значительно проще, ведь вы будете опираться в том числе и на опыт «тренировочных» собеседований.
Стоит ли смотреть в сторону Data science?
Очень много людей с самым разным бэкграундом, и не всегда даже техническим, в последнее время пытаются перейти в data science. И такой ажиотажный интерес — проблема для всех, кто рассматривает переквалификацию в эту сферу. Потому что рынок труда может оказаться наводнён соискателям без опыта.
С точки зрения потенциального работодателя: вы скорее возьмёте выпускника технического вуза, или человека за 40, без профильного опыта, решившего изменить свою жизнь? Ведь вузы тоже ведут активную подготовку профильных специалистов (пусть и не всегда высокого уровня). На рынке явный недостаток специалистов с профильным опытом. Но среди людей с непрофильным опытом — вероятно, больше шансов найти работу у выпускников с профильным образованием.
Написать этот пост меня натолкнуло то, что полгода назад я начал писать цикл статей о самообучении и переквалификации в data sceince. В итоге, за 5 месяцев мне написало больше сотни людей с разными вопросами по такой переквалификации. И, вероятно, многие недооценивают объем знаний, который необходимо получить для этого. В этом, наверное, виноваты и заголовки моих постов «с нуля до senior data scientist за 2 года». Как мне подсказали в комментариях к тому посту — мой начальный уровень был отнюдь не нулевой (был топовым разработчиком 1С).
Почему в data science сложно попасть
Это очень много учебы и практики
Идеальный data scientist — специалист максимально высокой квалификации, знающий, одновременно:
- всё что должны знать «простые аналитики» (SQL+визуализация данных)
- хороший Python программист
- с неплохим владением английским (подавляющее большинство инструментов имеют документацию только на английском языке; многие книги и курсы не переведены, или переводятся с большой задержкой)
- с отличным знанием хотя бы основ теории вероятностей (в идеале — значительно глубже + линал, мат.анализ)
- хорошие коммуникативные навыки и понимание бизнеса (невозможно эффективно обрабатывать данные из предметной области, если вы её не понимаете)
По большому счету, это несколько лет профильного (само)образования + опыт работы.
Это дорого
Даже с большим опытом работы в ИТ я потратил 8 месяцев, не работая и проедая все свои накопления, только на учебу, оставаясь без работы. Мой уровень ЗП в первый год после того как я нашёл работу, был ниже, чем до этого. Только спустя 2 года я вышел на тот же уровень дохода. И это всё было достаточно страшновато, при том что у меня были своя квартира, большая финансовая подушка, и отсутствие финансово зависимых родственников. Большая часть людей, желающих поменять свою жизнь, не могут себе позволить такую траекторию переобучения, по её финансовым ограничениям.
Аналитика — сестра Data science
Когда говорят о дата сайенс обычно имеют в виду высшую квалификацию человека, способного работать аналитиком данных. Но квалификации промежуточных уровней тоже ценны.
Отличие аналитика: нет нужды хорошо знать статистику, нет нужны заниматься машинным обучением.
Статистика нужна тогда, когда ценность небольшого улучшения так огромна, что важно научиться различать небольшие отличия в эффективности, разделяя реальные различия, от случайных колебания.
Машинное обучение нужно тогда, когда какой-то процесс принятия решения, основанных на данных, нужно автоматизировать. По сути, это значит подменить работу аналитика, в решении отдельной типовой задачи. Обычно это требует намного больше времени, чем одноразовый анализ. За то же время аналитик может решить множество разных задач. Но когда какой-то тип анализа нужно проводить постоянно или для тысяч объектов (клиентов, товаров) — целесообразно это делать автоматически.
То есть аналитик нужен тогда, когда не нужно различать колебания эффективности, измеряемые в процентах, и когда не нужно анализ делать полностью автоматическим. Требуется меньше точность/автоматизированность. Ценны: скорость проведения анализа, его правильность, умение понятно и убедительно объяснить свои результаты. При этом, ценность аналитика может быть очень высока, т.к. подобные разовые анализы данных могут использоваться для принятия различных стратегических решений.
Суть решаемых задач аналитка: разобраться в данных, понять их и найти интересные закономерности, представить результаты в удобном и понятном для коллег виде (обычно, графики и презентации).
Ключевой набор навыков для подобной работы: это прирожденные «аналитические способности» + знания базовых инструментов (SQL+Excel) + инструменты визуализации данных (Tableau, PowerBI).
Можно с этим набором знаний + знания специфичные для определенных областей, уже найти большое число вакансий, с хорошими зарплатами и интересными задачами.
Знаний SQL + инструмента визуализации достаточно чтобы работать на позиции специалиста по отчетности, создающего необходимые отчеты и графики, для принятия каждодневных решений. Такая работа, обычно, требует большей усидчивости и чуть меньше креативности.
На позиции «аналитика» нужно будет создавать точно такие же отчеты. Но, чаще, задачей аналитика будет самому в чём-то разобраться и самому решить какими графиками эту информацию представить. Эта работа более творческая, требующая большей самоотдачи. По уровню зарплат оба типа позиций сопоставими. Но с позиций аналитика талантливные специалисты чаще могут вырасти в менеджеров и отвественных за какие-то большие объемы задач. Надо помнить, что данное деление не всегда видно из названия позиций, т.к. «аналатиком» могут назвать и человека, не занимающегося самостоятельным анализом данных, и толького готовящим их для других людей (в виде отчетов и графиков).
Кстати, позиции специалистов, занимающихся статистическим анализом, тоже называются «аналитик», и есть еще совсем другой тип позиций, которые называют «бизнес-аналитики». Поэтому, надо по описанию вакансии «аналитика» разбираться что под ней имеется в виду.
Рекомендуемый набор знаний для аналитика:
- SQL + Excel
- Tableau / PowerBI
- Когортный анализ (принципы)
- Понимать парадокс симпсона, чтобы не делать ошибок, к которым он приводит
- Нужно знать основы теории вероятностей:
- вероятности зависимых и независимых событий, условные вероятности
- разные статистики: среднее, медиана, мода, стандартное отклонение.
Аналитики нужны везде. Ниже типы аналитиков, востребованные в изначально «цифровых» бизнесах (связанных с интернет продуктами и услугами)
Маркетинговая/веб аналитика
Анализ и визуализация даных по продажам — огромная сфера. Большая часть подобных вакансий, с интересными и более творческими задачами — в онлайн компаниях.
Знания специфические для веб-маркетинга (помимо обще-аналитических):
- Понимание принципов работы контекстной рекламы (основные метрики и схемы оплаты).
- Знание как работают UTM метки.
- Понимание основных принципов юнит-экономики.
- Желательно знание основ HTML
- Популярные инструменты: Google Analytics, Яндекс.Метрика (эти инструменты можно учить уже выйдя на первую работу)
Продуктовая аналитика
Это близко к маркетинговой аналитике. Пример задачи: понять паттерны по которым пользователи взаимодействуют с каким-то он-лайн продуктом (например, приложением интернет-банка).
По сути, тут могут быть достаточны только базовые знания, стандартные для любых аналитиков.Data engineer — брат для Data scientist
Огромная часть задач в анализе данных, особенно в более продвинутом (статистический анализ, машинное обучение) требует хорошо организованных данных.
Задачи по организации данных занимают более половины всех усилий по работе с данными. Часть данных задач традиционная и решается специалистами по базам данных. Другая часть требует подготовки данных для обеспечения большего удобства и скорости анализа данных. Данными задачами занимаются дата инжененеры. Т.к. часто данная часть задач не решается ими полностью — квалифицированный дата сайентист должен уметь решать подобные задачи.Но, потенциально, дата инженер, это не урезанный дата сайентист. К инженерам предъявляется больше требований по полной автоматизации процесса, по обеспечению высокого качества данных (без пропадания их кусков), высокой скорости их подготовки и доступности, настройке систем, способных обрабатывать данные о миллионах операций, товаров и клиентов за считанные секунды/минуты.
По сути, это позиция программиста, с акцентом на технологии и инструменты, позволяющие разрабывать системы работы с данными. И вместо создания интерфейса (как у фронтенд разработчиков, или разработчиков для андройд/ iOS), или какой-то бизнес-логики (бэкенд) — их продукт это система, автоматизировано готовящая данные для анализа. И поддержание это системы для работы коллег, занимающихся анализом данных.Набор знаний в этой сфере очень сильно варьируется. Наверное, наиболее популярные навыки выглядят так:
- SQL
- Python (Java, Kotlin)
- bash
- Docker, Kubernets
Эта сфера отлично подходит для людей, которым интересно писать системы обработки больших данных (big data) и которым менее интересно придумывать как повысить эффективность бизнеса, стараясь убедить в этом каких-то коллег.
Ищете работу, которая вам подходит
Цель этого поста — показать что есть море вариантов интересной работы.
Многим, желающим попасть в дата сайенс — будет интересно работать на позициях аналитиков и дата инженеров. Найти такую работу может быть проще, и финансовое вознаграждение, в итоге, может быть на том же или очень близком уровне.
Идти в дата сайенс без опыта работы в ИТ, примерно как захотеть стать нейрохирургом, без опыта работы в медицине. Разумнее получить хотя бы часть более простых смежных навыков, начать работать в этой сфере, и далее расти в ней «естествнным путём», получая релевантный опыт не только из теории, но и из регулярной практики работы.
- переквалификация
- самообразование
- Big Data
- Машинное обучение
- Карьера в IT-индустрии