Гид по профессии аналитик данных: кто это, чем занимается и сколько зарабатывает
Дата-аналитик — это специалист, который анализирует данные компании, сферу ее работы и рынка в целом, чтобы использовать их для принятия решений. Каждый день он изучает информацию о предпочтениях клиентов, рассчитывает метрики работы компании, формулирует и проверяет гипотезы. Все это нужно, чтобы получить так называемые actionable insights — выводы, на основе которых бизнес сможет принять правильное решение и улучшить продукт.
На практике это выглядит так. Допустим, компании нужно распределить бюджет между двумя продуктами: увеличить инвестиции в один — закупить рекламу, увеличить производство — и сократить вложения в другой. Как понять, какой из них принесет большую прибыль?
Интуитивно кажется, что нужно вкладываться в продукт, который больше покупают. Но не все так просто. Спрос может быть волнообразным: расти, а потом падать. Данные о продажах и состоянии рынка часто распределены по разным системам: CRM, сервисам для управления заказами, рекламой или маркетинговыми коммуникациями.
Аналитик данных — с нуля до трудоустройства за 9 месяцев
- Постоянная поддержка от наставника и учебного центра
- Помощь с трудоустройством
- Готовое портфолио к концу обучения
- Практика с первого урока
Вы получите именно те инструменты и навыки, которые позволят вам найти работу
Задачи аналитика данных и инструменты, которыми он пользуется
Главная задача аналитика данных — объединить имеющиеся данные, собрать недостающие и интерпретировать полученный массив информации.
Основные рабочие инструменты аналитика — Sublime Text, Jupyter Notebook, Google Sheets или Excel. Насчет последнего: в интернете можно встретить шутки на тему того, что считать таблицы в Excel «большими данными» уже не модно.
Это не так: огромное количество компаний по всему миру строят мощную аналитику на базе таблиц в Excel. Даже несмотря на то, что в их распоряжении есть самые продвинутые технологии. В первую очередь потому, что это доступные и простые инструменты, которые позволяют решать самые сложные задачи. Например, автоматизировать обработку данных в сводных таблицах, формировать листы прогноза, чтобы планировать бизнес-процессы, и даже строить 3D-карты.
Аналитикам данных также приходится писать запросы в базы данных SQL, чтобы получить точечную информацию о процессах или клиентах. Еще нужно работать с BI-системами Tableau, Power BI, Looker Studio, которые агрегируют данные из различных источников. А иногда приходится даже программировать на языках Python, R или Java, чтобы, например, автоматизировать поиск по таблицам, сегментировать их или выявить закономерности.
Вот конкретный кейс: аналитику нужно преобразовать видеопортал, такой как YouTube, в стриминговую платформу — площадку для проведения прямых эфиров. Для этого он:
- Собирает информацию, как пользователи взаимодействуют с платформой — проводит исследования, опросы и объединяет полученные данные, устраняя невалидные и повторяющиеся.
- Описывают модели данных и сценарии использования — собирают фокус-группы, прорабатывают данные и предлагают варианты действий.
- Формируют предложения по архитектуре и потокам данных.
Результат работы аналитика — графики, таблицы, данные. То есть артефакты с готовыми результатами. При этом сами специалисты по дата-анализу не принимают решения по итогам своей работы. Их задача — найти лучший способ представления информации, так, чтобы руководитель, опираясь на него, сам смог быстро принять решение.
Например, результатом работы может быть вот такой график с данными по выручке и продажам, собранный в Tableau — распространенном сервисе визуализации данных:
Приведем другой пример — тепловую карту. Это такой способ визуализации данных, в котором их значения отображаются разными цветами. Ниже тепловая карта c данными по объему спроса в различных геолокациях, собранная в визуальном элементе Azure Maps для Power BI:
Читайте также: Иллюзия больших данных: как работает социология и что делать, чтобы тебе верили
Где нужен аналитик данных
Аналитик данных нужен фактически любой компании, где принимаются решения. Дата-аналитики востребованы везде, где есть диджитал-маркетинг: в ретейле, IT, телекоме, здравоохранении. Такие специалисты превращают маркетинг в эффективный инструмент — они помогают точно понять, куда уходят деньги, и получить максимальную прибыль при минимальных вложениях.
Но есть отрасли и направления, где работа аналитика данных особенно важна. Например, банки — сфера, где всегда очень много информации: пользовательские данные, личные и финансовые. При этом управленческие ошибки в банковском секторе очень дороги. Например, если создать неправильную скоринг-модель — алгоритм, который оценивает, стоит ли выдавать клиенту кредит, — можно потерять и деньги, и доверие клиентов.
А еще с помощью аналитики данных можно:
- Привлечь и удержать инвестора в стартапе
- Бороться с кассовыми разрывами, сопоставляя доходы и расходы компании
- Прогнозировать динамику спроса предложения и точно знать, каких товаров запасти впрок перед Новым годом или Черной пятницей
- Изучать рынок труда, собирать эффективную команду — например, приглашать только определенных кандидатов на основе статистики найма и увольнения.
Что нужно знать, чтобы стать аналитиком данных
Стать аналитиком можно, даже если всю жизнь до этого вы работали ученым, журналистом или госслужащим. Специальных талантов для этого не нужно. Но вот что точно может пригодиться всем новичкам:
- Интерес к цифрам и систематизации данных. Без него аналитику может быть тяжело, ведь ежедневно ему приходится обрабатывать много разной информации.
- Усидчивость. Аналитика — это про спокойствие, внимание и дотошность. С импульсивным характером и склонностью принимать спонтанные решения, будет сложно.
- Аккуратность. Суперсила аналитика данных в том, что он обращает внимание на неочевидные вещи и видит то, что упускают из внимания другие.
Аналитик данных: с чего начать обучение
На старте нужно знать, как работать с Excel и Google Sheet, обрабатывать данные с помощью языка SQL и писать сложные SQL запросы, представлять информацию в виде графиков и диаграмм.
После изучения основ аналитики стоит выбрать конкретную отрасль. Здесь может пригодиться прошлый опыт. Если вы были HR-специалистом, можно искать вакансии в сфере HR-аналитики. Работали бухгалтером — выбирайте экономическую и финансовую специфику, основные термины и процессы вам уже будут знакомы.
Аналитик данных и дата-сайентист: в чем разница
Чтобы начать работать аналитиком, не нужно глубоко знать программирование. Но если вы интересуетесь разработкой, есть еще одно возможное направление роста — Data Science.
Дата-сайентист — это эксперт, работающий на стыке бизнес-анализа и машинного обучения. Он обучает нейронные сети и создает прогнозные алгоритмические модели для сложных вычислений: оптимизации бизнес-процессов, научных расчетов. С помощью таких моделей можно, например, предсказывать эффективность рекламных кампаний, создавать новые формулы лекарств и даже изучать космос. Но здесь без знания Python или основ ML уже не обойтись.
Сколько зарабатывает аналитик данных
Если заглянуть на HeadHunter, то разброс зарплат окажется довольно большим. В первую очередь, это связано с опытом работы специалистов и спецификой каждой вакансии.
Например, начинающим специалистам в среднем предлагают от 100 до 150 тыс. рублей.
Мидл- и сеньор-аналитики могут рассчитывать на зарплату от 200 до 400 тыс. рублей в зависимости от опыта и навыков.
На уровень зарплат влияет и регион работы. В Москве специалист уровня мидл, скорее всего, будет получать не меньше 200 тыс. рублей на руки. А в Тюменской области, например, для аналогичной вакансии установлена вилка от 100 до 130 тыс. рублей.
В чем сложности профессии аналитика данных
Хороший аналитик должен не просто собирать данные, но и понимать, для чего он это делает. Его работа поставлять не графики, а то, что следует за ними. Инсайты — вспышки озарения, которые двигают бизнес вперед. Без инсайтов графики остаются просто красивыми картинками.
Для того, чтобы этому научиться, недостаточно просто пройти курсы. Нужно наработать опыт, научиться глубоко погружаться в бизнес и уметь работать с собой — избегать простых обобщений, легких выводов и поверхностных решений. Тогда действительно получится стать не просто специалистом, а настоящим экспертом: ценным, конкурентоспособным и востребованным.
Николай Голов, Head of Data Engineering в ManyChat — о профессии аналитика данных
На первый взгляд, аналитик похож на оператора прибора. Его главная задача — снимать объективные показания и передавать их руководителям для принятия решений. Но, в отличие от оператора, аналитик делает это не механически, а вдумчиво, четко понимая, для чего это нужно и как данные помогут бизнесу.
Очень важно правильно визуализировать информацию, чтобы, глядя на график, можно легко принять решение: развивать направление, сфокусироваться на продукте, закрыть отделение или готовиться к кризису.
У этой профессии много сфер применения, а у специалистов — много возможностей для роста и развития. Если аналитик умеет работать с базами данных и инструментами визуализации, по уровню зарплаты его можно поставить на полступени ниже разработчика. А если знает Python и умеет работать с моделями — возможно, даже на ступень выше.
При этом для работы с основными задачами не обязательно глубоко погружаться в программирование и работу с моделями. В отличие от дата-сайентиста, для аналитика данных работа с моделями — не обязанность, а приятная опция. Хотя многие этой опцией пользуются. Сейчас очень много готовых библиотек для моделей, поэтому машинное обучение постепенно используется даже в рутинных задачах: классификации, А/В тестах, прогнозировании. Поэтому развиваться и строить карьеру можно в любом направлении.
Что почитать, посмотреть и послушать будущему аналитику данных
Чтобы начать учиться на аналитика данных, действительно не нужны специальные знания или навыки. Но можно заранее подготовиться, чтобы процесс погружения прошел легче: почитать книги, изучить особенности профессии и разобраться с базовыми терминами. Собрали книги, курсы и видео, которые в этом помогут:
- « Python и анализ данных », Уэс Маккинни
- « Говори на языке диаграмм », Джин Желязны
- « Статистика для всех », Сара Бослаф
- Подборка курсов по системе Microsoft Power BI
- Основы Microsoft Excel
- Методы прогнозирования и анализ данных с R
- Руководство по анализу данных для начинающих
Кто такой аналитик данных и как им стать
Спец собирает и обрабатывает данные, проводит тесты, строит модели и делает выводы.
Анастасия Хамидулина
Автор статьи
20 января 2023 в 20:02
Фактически любой бизнес — от ретейла до IT-гигантов — собирает разные данные: о покупках, продажах, кредитах, налогах, производительности, скачиваниях ПО. Всё ради того, чтобы проверить, как обстоят дела в компании, и принять стратегическое решение. Например, выгодно ли выводить на рынок новый продукт, что популярнее: приложение или сайт, где открыть новую точку продаж.
Данных много, разобраться в них непросто. Обычный менеджер без навыков не справится. Зато справится data analyst — аналитик данных. Он делает так, чтобы данные приносили бизнесу пользу.
На курсе Skypro «Аналитик данных» студентов учат обрабатывать данные о продажах и поведении клиентов на сайте. А еще соотносить их с данными о работе сервиса доставки, изменением цен, запуском рекламных кампаний. Все практические задания потом можно положить в портфолио.
Кто такой аналитик данных
Аналитик данных, или data analyst — специалист, который анализирует большие данные. То есть всевозможные и никак не систематизированные данные, которые создает или получает бизнес.
Аналитик обрабатывает данные, строит гипотезы и прогнозы. А компания на базе данных и выводов принимает важные решения: например, какое обновление выкатить для приложения.
Специалиста обычно нанимают крупные компании, которые не могут существовать без анализа данных. Но аналитик полезен любому бизнесу — даже цветочному магазину у дома. Например, чтобы выяснить, когда больше покупателей — утром, днем или вечером или на какие букеты выше спрос.
А вот чем занимается аналитик данных на рабочем месте:
Собирает данные. У аналитика есть цель: например, понять, какой продукт самый продаваемый. Прежде чем анализировать, специалист определяет, какие данные потребуются и из каких источников.
Очищает данные. Любые данные приходят в беспорядке: некоторые с ошибками, другие неполные, а третьи — лишние. Задача аналитика — их очистить: удалить те, что не нужны, а остальные исправить, упорядочить и систематизировать.
Настраивает данные. На этом шаге аналитик собирает данные из нескольких таблиц в одну, чтобы можно было составить отчеты и построить графики.
Создает отчеты. Аналитик находит закономерности и создает на базе данных отчеты, графики, диаграммы. Он либо делает их с нуля, либо дополняет те, которые уже есть. Отчеты и визуализацию изучает руководитель, чтобы сделать выводы по самому популярному продукту. Иногда выводы делает сам аналитик
Если знать основы SQL и Python, можно автоматизировать часть работы. На курсе Skypro «Аналитик данных» учат настраивать визуализации так, чтобы данные из таблиц подгружались при обновлении.
Основные специализации аналитика данных: какие бывают
Продуктовый аналитик. Работает в продуктовых компаниях, которым важно анализировать спрос, предложения, производственные нормативы. Специалист изучает данные по продажам, производству, конкурентам и всего рынка в целом.
Типичная задача продуктового аналитика — выяснить, какие сложности возникли у потребителей после того, как они купили продукт и пользуются им. По результатам работы бизнес либо оставит продукт таким, какой есть, либо улучшит — выпустит новую модель.
Маркетинговый аналитик. Выясняет, откуда приходит больше клиентов, сколько должен стоить клик, какой рекламный бюджет понадобится на маркетинговую кампанию и есть ли смысл ее запускать. Итог работы аналитика — эффективные объявления, дешевые лиды и высокая окупаемость маркетинговых инвестиций.
Гейм-аналитик. Нанимают компании по разработке игр. Задача аналитика — изучать игровые данные и делать выводы, интересна ли игра геймерам, что в нее добавить, что убрать, какое обновление выкатить. Еще аналитик может искать ошибки до и после релиза, выяснять, почему они появились и что предпринять, чтобы всё исправить.
BI-аналитик. Автоматизирует работу с источниками данных, строит отчеты и сводит на едином графике — дашборде. Работает с любыми данными организации: хоть производственными, хоть по продажам. В итоге компания больше зарабатывает, снижает затраты, обходит конкурентов.
«Наибольшим спросом пользуются аналитики, которые умеют программировать и рассчитывать результаты АБ-тестов с помощью математической статистики. То есть продуктовые аналитики. Специалистов с подобными умениями не так уж и много, даже по сравнению с бизнес- и BI-аналитиками. Но направление для себя предлагаю не определять, а сперва овладеть базисом профессии, который позволит вам перейти в любое из этих направлений».
Данил Елистратов
Tech Lead факультета «Аналитики данных» в Skypro
Какие навыки и знания нужны, чтобы работать в сфере
Аналитика данных существует на пересечении математики и программирования, но иногда специалист занимается анализом бизнес-процессов и моделированием.
Математика. Data analyst должен разбираться в алгебре, статистике, логике. Иметь диплом математика не надо: большую часть данных обрабатывают с помощью скриптов. Но базовые знания помогут просчитать вероятность, найти тенденции и закономерности.
Программирование. Аналитик собирает терабайты данных, упорядочивает их и анализирует. Если делать это руками, уйдет много времени. Удобнее написать скрипт — программу, которая сделает всё сама. Но для этого надо уметь программировать на Python или R, а еще знать SQL.
Анализ бизнес-процессов. Результаты работы аналитика влияют на весь бизнес, поэтому специалист должен понимать, как работает вся компания и каждый отдел. Иначе не сможет сделать выводы: подсказать, на что влияют данные, как могут помочь или навредить.
Моделирование или машинное обучение. Бывает, что с моделированием работает специалист по data science, но иногда и аналитик данных. Задача аналитика — создать модель: файл, который умеет находить закономерности. Потом предоставить ему набор данных, обучить эти данные анализировать, а дальше использовать обученную модель для реальной работы.
Какие личностные качества помогают в работе
Аналитический склад ума. Специалист склонен анализировать информацию, вычленять главное из второстепенного и делать последовательные выводы. Если человек привык полагаться на интуицию или шестое чувство, в анализе будет сложно.
Внимательность. Потерять цифру, забыть часть данных или не перепроверить отчет — недопустимо для аналитика. Внимательный человек будет кропотливо искать закономерности и ошибки по несколько часов.
Деловой подход. Аналитик данных должен уметь концентрироваться на важном, а остальное игнорировать. Например, если в процессе анализа он пришел к второстепенным выводам, отвлекаться нельзя. Нужно делать только значимую работу.
Умение аргументировать. Когда аналитик сдает результат компании, то подсказывает, какое решение принять. Даже если решение не нравится начальнику, толковый специалист не отступит перед авторитетом, а приведет конструктивные аргументы.
О сборе данных. Как собирать данные, анализировать их и грабить корованы
В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.
Собирайте всё
Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.
Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.
Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее — вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.
Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.
Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».
Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:
Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.
Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали — разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.
Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США — благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.
Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными — ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.
Приоритеты и выбор источников данных
При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?
Главная цель работы аналитиков — давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.
У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга — история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.
Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных — ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:
Список параметров для расстановки приоритетов
Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.
Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.
Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.
Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.
Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.
Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.
Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто — вперед.
Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.
Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.
Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.
Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.
Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы!
Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.
Взаимосвязь данных
Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.
Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла — поисковая выдача.
Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.
Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.
Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.
Предложение скидок за приглашение друга из соцсети даст нам доступ к ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.
Сбор и покупка данных
Сегодня существует множество способов сбора данных, один из самых распространенных — API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.
Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.
Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка», но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.
Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.
Но если есть возможность собирать сырые данные, то лучше выбрать их — они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.
Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:
Цена
Все любят бесплатные данные — и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.
Качество
Данные чисты, им можно доверять?
Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?
Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?
Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?
Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?
Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.
Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?
Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?
Документация
Если вам предоставляют документацию — хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.
Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.
Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?
Это далеко не все, но основные и несомненно важные вопросы, которыми стоит задаться перед приобретением данных у поставщиков.
На этом я закончу статью по сбору данных.
Если информация была для вас полезна, то я буду рад обратной связи.
Возможно, вы с чем-то не согласны или хотите поделиться своими методами и наработками — приглашаю в комментарии, и надеюсь на увлекательное и полезное обсуждение.
Всем спасибо за внимание и хорошего дня!
Источник информации
Автор: Карл Андерсон
Аналитическая культура. От сбора данных до бизнес-результатов
Creating a Data-Driven Organization
ISBN: 978-5-00100-781-4
Издательство: Манн, Иванов и Фербер
Как стать аналитиком данных: какие навыки нужно получить и где искать первые проекты
Аналитика — идеальная сфера для тех, кто любит решать головоломки. Влада Савина, специалист по машинному обучению департамента аналитических решений в ГК «КОРУС Консалтинг», рассказывает, как стартовать в ней с нуля.
- Кто такой аналитик данных
- Чем занимается аналитик данных
- Сколько он зарабатывает
- Что знает и умеет аналитик данных
- Как стать аналитиком данных
- Где искать работу новичку
Кто такой аналитик данных
Аналитик данных (data analyst) — это специалист, который работает с данными: собирает, обрабатывает их и делает выводы на их основе. Эти выводы помогают принимать бизнес-решения.
Аналитик ищет закономерности в данных — а они бывают как довольно очевидные, так и неявные. Когда аналитик обнаруживает неявные закономерности, это называют инсайтом — от английского insight, что значит «понимание», «интуиция».
Вот пример закономерностей, с которыми работает аналитик. Компания продаёт товары на маркетплейсе. Руководитель ставит аналитику задачу: нужно понять, как изменить цены на товары, чтобы продавать больше.
Аналитик изучает данные и замечает, что некоторые товары охотнее покупают перед выходными. Он делает вывод: возможно, это значит, что перед выходными цены на такие товары стоит повышать. Или аналитик находит другую закономерность: молодые люди покупают товары определённой категории чаще, чем старшее поколение. Аналитик делает вывод: возможно, необходимо снизить цены на эти товары, чтобы привлечь новых клиентов.
Аналитик может работать как в офисе, так и удалённо. Но чем ближе он к бизнес-процессам, тем больше ему нужно общаться с сотрудниками компании. Поэтому аналитиков чаще нанимают на работу в офисе.
Также аналитик данных может работать на фрилансе и вести несколько проектов одновременно. Но искать задачи на фрилансе сложнее — в основном компании ищут сотрудников в штат.
Чем занимается аналитик данных
Все аналитики данных решают следующие задачи:
- Сбор данных. Аналитику нужно понять, какие данные могут потребоваться для решения задачи и где их можно найти. Он берёт данные из внутренних и внешних источников — онлайн-сервисов, документов и баз — и объединяет их для дальнейшей работы.
- Обработка данных. Аналитик удаляет ненужные данные, очищает их от ошибок и повторов. Решает, как их можно отсортировать, и упорядочивает.
- Интерпретация. Аналитик ищет закономерности в данных и выявляет аномалии. Выясняет, как метрики влияют друг на друга, и рассчитывает необходимые для бизнеса показатели.
- Построение отчётов. Аналитик готовит отчёты и визуализирует их: делает графики и диаграммы.
- Выводы. Выводом может служить результат логического умозаключения или рекомендация. Например, аналитик может выяснить, почему изменилась какая-то метрика, или выдвинуть гипотезу о том, что стоит сделать, чтобы улучшить результаты.
В аналитике данных много направлений и, следовательно, есть разные специализации. Например, бывают маркетологи-аналитики, продуктовые аналитики, бизнес-аналитики, финансовые аналитики. Все они решают задачи, о которых мы говорили выше. Но методы анализа, метрики и объекты, с которыми работают специалисты, различаются.
Например, маркетологи-аналитики, скорее всего, будут работать с воронками продаж, сегментацией аудитории и юнит-экономикой. Продуктовые аналитики — с системой продуктовых метрик, мониторингом KPI и анализом причин и следствий. Бизнес-аналитики — с бизнес-процессами: эти специалисты больше других погружены в детали работы компании.
Сколько зарабатывает аналитик данных
На рынке труда большой спрос, а специалистов не хватает. Поэтому зарплаты в этой отрасли большие. Согласно статистике Zarplan, средняя зарплата аналитика данных в России — 107 516 рублей в месяц. А медианная зарплата — 83 тысячи рублей в месяц.
На зарплату влияют разные факторы — например, регион, размер компании, число обязанностей. Но в первую очередь уровень дохода зависит от квалификации специалиста. В диджитале обычно выделяют три уровня компетенций: джун, мидл, сеньор.
Джуниор — новичок, который может написать простой код и работать с базами данных. Его зарплата — от 40 тысяч до 80 тысяч рублей в месяц: такие предложения есть на HeadHunter.
Мидл — специалист с опытом работы от года. Зарплата специалиста такого уровня — от 100 до 200 тысяч рублей в месяц.
Сеньор — это специалист с опытом работы от трёх лет. Он разбирается в бизнес-процессах и умеет общаться с бизнес-заказчиками и разработчиками. Сеньор может рассчитывать на зарплату от 200 тысяч рублей в месяц.
Вертикальный рост «джун → мидл → сеньор» обычно занимает около 4–5 лет. Чем больше у специалиста опыта и проектных достижений, тем больше его будут ценить и, следовательно, тем больше ему будут платить.
Аналитик данных может продвинуться по карьерной лестнице и зарабатывать больше. Если развить хард-скиллы — например, навыки программирования, математики, статистики или моделирования, — можно переквалифицироваться в дата-сайентиста. Это программист, который создаёт модели, предсказывающие результат.
Если сделать упор на софт-скилы и прокачать умение управлять командой и проектом, ответственность и понимание бизнес-процессов, то можно стать руководителем проектов.
Что нужно знать и уметь, чтобы работать аналитиком данных
Аналитик данных использует в работе математические методы, программирование и специальные сервисы. Перечислим то, что требуется каждому аналитику.
Знать математику и статистику. А именно математический анализ, линейную алгебру, численные методы, математическую статистику, дискретную математику. Это разделы математики, изучить их можно в вузе или на курсах для аналитиков.
Знать теорию нужно, чтобы правильно обрабатывать и анализировать данные, искать закономерности и зависимости, в том числе неявные. Ещё эти знания нужны для формирования и проверки гипотез.
Владеть языками программирования. Написание кода — неотъемлемая часть работы аналитика при обработке данных. Чаще всего используют следующие языки программирования:
- SQL. Довольно простой язык. Полезен для первого знакомства с данными.
- Python и R. Языки более высокого уровня, с их помощью можно выявлять сложные закономерности. Также они помогают визуализировать данные, что тоже полезно для аналитики.
Уметь работать с таблицами в Google и Excel. Почти все данные, с которыми работает аналитик, содержатся в таблицах. Также в Excel и «Google Таблицах» обрабатывают данные, строят прогнозы и составляют отчёты.
Уметь работать с инструментами визуализации. Например, с Power BI, Tableau, Qlik. В них строят дашборды — интерактивные информационные панели, которые получают данные из других систем и отображают их в понятном виде.
Понимать потребности бизнес-заказчиков. Аналитик должен хорошо разбираться в бизнесе, с которым работает. Только так он сможет определить, что означают для бизнеса полученные выводы.
Уметь общаться с людьми нетехнических специальностей. Аналитик часто взаимодействует не только с разработчиками и дата-инженерами, но и с другими сотрудниками. Поэтому он должен уметь объяснять даже самые сложные вещи понятным языком, избегая технических терминов.
Кому подойдёт работа аналитиком
В аналитике будет комфортно людям, которые любят решать головоломки или сложные неординарные задачи и готовы скрупулёзно изучать данные.
Что такое скрупулёзность? Аналитик данных должен быть внимателен к мелочам. Любая, даже незначительная ошибка может сильно повлиять на конечный результат. Кроме того, аналитик должен уметь мыслить критически.
Людям, которые не готовы долго сидеть над одной задачей, в аналитике будет сложно. Ну, и плохая новость для тех, кто в школе хейтил математику: её в аналитике достаточно.
Есть ещё один важный момент. В аналитике может не быть осязаемого результата. Заранее бывает сложно сказать, получится ли найти инсайты, с которыми можно вернуться к бизнесу. Или предложенные правила могут не сработать в реальной среде — и часто виноваты в этом будете не вы, а внешние обстоятельства, которые сложно предсказать.
Как стать аналитиком данных с нуля
Есть три основных способа начать работать в сфере. В аналитику приходят из смежных сфер, после получения профильного образования в вузе и после курсов.
Чаще всего в аналитику переходят из смежных отраслей. Аналитиками становятся программисты, экономисты, HR-специалисты и все, чья работа предполагала анализ данных. Даже те, кто просто работал с Excel. Главное для тех, кто приходит из смежных сфер, — подтянуть недостающие скиллы, например программирование или статистику.
Кроме того, в сферу попадают после обучения в вузе по специальности или смежным дисциплинам. Например, в НИУ ВШЭ есть магистерская программа по наукам о данных, а на мехмате МГУ — бакалаврская программа «Фундаментальная математика и математическая физика».
Ещё одна точка входа — курсы. На них преподают и математику, и программирование. Обычно программы курсов построены таким образом, чтобы дать необходимые для работы навыки.
Неважно, как вы пришли в аналитику. Главное — практиковаться. Примеры проектов, в которых вы участвовали, помогут подтвердить навыки при трудоустройстве. Подойдут даже симуляции проектов или результаты с Kaggle — популярной платформы для соревнований по data science от Google.
Где искать работу аналитику данных
Искать работу можно на агрегаторах, на специальных площадках и по знакомству.
Площадок с вакансиями много. Можно пойти на агрегаторы вакансий — HeadHunter, «Хабр Карьеру» и другие. Если есть желание выйти на международный рынок, лучше всего искать работу на LinkedIn. Ещё есть каналы в Telegram — например, getmatch и careerspace.
Начинающим аналитикам данных полезно ходить на мероприятия IT-тематики и знакомиться там с работодателями и IT-специалистами. А ещё можно вступить в профессиональные сообщества в социальных сетях.
Чем больше усилий вы приложите, тем выше шанс быстро найти работу. Вот несколько советов начинающим аналитикам данных:
- Участвуйте в соревнованиях или создайте пет-проект — проект, который разрабатывают не на заказ, а для себя. Его можно включить в портфолио и показать при трудоустройстве.
- Готовьтесь к собеседованию — повторите технический материал, а также почитайте о компании, в которую вы идёте на интервью. Важно разбираться в контексте, чтобы показать свою заинтересованность на собеседовании.
- Оформите резюме. Желательно, чтобы оно включало проекты и решённые задачи. Также стоит упомянуть курсы, которые вы проходили.
Не бойтесь откликаться на вакансии, которые вам интересны, но под требования в которых вы не подходите. Зачастую решение о найме принимают не на основе резюме, а после личной встречи, на которой вы можете показать себя с лучшей стороны.
Главное об аналитиках данных в 4 пунктах
- Аналитик данных (data analyst) — это специалист, который работает с данными. Он собирает их, обрабатывает и делает выводы на их основе. Аналитик данных может работать удалённо и в офисе, в штате и на фрилансе. Но чаще компании ищут специалистов в штат, в офис.
- В аналитике данных высокие зарплаты. Средний доход в России — 107 тысяч рублей в месяц. Рост от джуна до сеньора занимает в среднем 4–5 лет, и за это время можно увеличить доход до 300 тысяч рублей в месяц.
- Аналитик данных должен знать математику и статистику, уметь программировать на Python, R и SQL, работать с Excel и BI-системами. Аналитика подойдёт людям, которые любят решать головоломки и неординарные задачи.
- Есть три точки входа в аналитику — смежная отрасль, вуз и курсы. Курсы — хорошее решение и для тех, кто хочет освоить аналитику с нуля, и для тех, кто хочет перейти в неё из смежной отрасли или дополнить знания, полученные в вузе.