Сбор данных для анализа
В статье рассказываем про основные этапы сбора информации, следуя которым, можно подготовить качественные данные в нужном для анализа объеме. Данная методика — не жесткий набор инструкций, а список рекомендаций, которых желательно придерживаться.
B процессе анализа данных (Data Mining) используются алгоритмы машинного обучения, позволяющие прогнозировать развитие ситуации, выявлять закономерности, оценивать значимость факторов и т.п.
Подобных алгоритмов разработано множество, но даже самые мощные из них не способны гарантировать качественный результат. Алгоритмы машинного обучения могут найти закономерности в данных, только если сведения корректно собраны. На практике чаще всего именно проблемы с данными являются причиной неудач.
Ниже описаны этапы сбора информации, следуя которым, можно подготовить качественные данные в нужном для анализа объеме. В предлагаемой методике все достаточно просто и логично, но, несмотря на это, неопытные аналитики почти всегда допускают одни и те же тривиальные ошибки. Следование описанным правилам повысит вероятность получения качественного результата. Данные методика — не жесткий набор инструкций, а, скорее, список рекомендаций, которых желательно придерживаться.
Общая схема применения алгоритмов Data Mining состоит из следующих шагов (подробнее в статье «Методика анализа данных»):
- Выдвижение гипотез
- Сбор и систематизация данных
- Подбор модели, объясняющей собранные данные
- Тестирование и интерпретация результатов
- Использование модели
При этом на любом из этапов возможен возврат на один или несколько шагов назад.
Данная последовательность действий не зависит от предметной области, поэтому ее можно использовать для любой сферы деятельности.
Выдвижение гипотез
Гипотезой считается предположение о влиянии определенных факторов на исследуемый процесс. Форма зависимости значения не имеет. Т.е. в процессе выдвижения гипотезы можно сказать, например, что на продажи влияет отклонение нашей цены на товар от среднерыночной, но при этом не указывать, как именно этот фактор влияет на продажи. Для определения формы и степени выявления зависимостей и используется машинное обучение.
Автоматизировать процесс выдвижения гипотез не представляется возможным, по крайней мере, на современном уровне развития технологий. Эту задачу должны решать эксперты — специалисты в предметной области. Полагаться можно и нужно на их опыт и здравый смысл. Необходимо максимально использовать их знание о предмете и собрать как можно больше гипотез/предположений.
Для этих целей хорошо зарекомендовала себя тактика мозгового штурма, в процессе которого собираются и систематизируются все идеи без попытки произвести оценку их адекватности. Результатом данного шага должен быть список с описанием всех предложенных экспертами факторов.
Например, для задачи прогнозирования спроса это может быть список следующего вида: сезон, день недели, объемы продаж за предыдущие недели, объем продаж за аналогичный период прошлого года, рекламная компания, маркетинговые мероприятия, качество продукции, бренд, отклонение цены от среднерыночной, наличие товара у конкурентов.
В процессе подбора влияющих факторов необходимо абстрагироваться от существующих информационных систем и имеющихся в наличии данных. Очень часто аналитики за отправную точку хотят взять данные из существующих учетных систем. Звучит это примерно следующим образом: «У нас есть такие-то данные: что можно на них получить?».
На первый взгляд, это выглядит логично, но является порочной практикой. В процессе анализа надо отталкиваться от решаемой задачи и подбирать под нее данные, а не брать имеющуюся информацию и придумывать, что из них можно «выжать». Надо учитывать, что учетные системы собирают информацию, необходимую для выполнения своих задач, например, то, что важно для составления бухгалтерского баланса бессмысленно для решения задачи сегментации клиентов.
После подготовки таблицы с описанием факторов нужно экспертно оценить значимость каждого из них. Эта оценка не является окончательной — она будет считаться отправной точкой. В процессе анализа может оказаться, что фактор, который эксперты посчитали важным, таковым не является, и, наоборот, незначимый с их точки зрения атрибут оказывает значительное влияние.
Чаще всего количество гипотез велико, поэтому собрать и проанализировать все данные не представляется возможным. Необходимо взять за основу разумно ограниченный список факторов. Самое простое — отталкиваться от экспертной оценки значимости атрибутов. Тем более, что довольно часто реальные данные подтверждают их мнение.
Результатом этого шага может быть таблица следующего вида:
Показатель | Экспертная оценка значимости (1-100) |
---|---|
Сезон | 100 |
День недели | 80 |
Объем продаж за предыдущие недели | 100 |
Объем продаж за аналогичный период прошлого года | 95 |
Рекламная кампания | 60 |
Маркетинговые мероприятия | 40 |
Качество продукции | 50 |
Бренд | 25 |
Отклонение цены от среднерыночной | 60 |
Наличие данного товара у конкурентов | 15 |
Формализация и сбор данных
Далее необходимо определить способ представления данных, выбрав один из 4-х типов: – число, строка, дата, логическая переменная (да/нет).
Некоторые данные достаточно просто формализовать, т.е. определить способ их представления. Например, объем продаж в рублях — это число. Но часто возникают ситуации, когда непонятно, как представить фактор.
Чаще всего такие проблемы возникают с качественными характеристиками. Например, на объемы продаж влияет качество товара, но это довольно сложное понятие, которое не понятно как представить. Однако если данный атрибут действительно важен, то нужно придумать способ его формализации. Например, определять качество по количеству брака на тысячу единиц продукции, либо экспертно оценивать, разбив на несколько категорий – отлично/хорошо/удовлетворительно/плохо.
Далее необходимо оценить стоимость сбора нужных для анализа данных. Некоторые данные легко доступны, например, их можно выгрузить из существующих информационных систем. Но есть информация, которую сложно собрать, например, сведения о наличии товара у конкурентов. Поэтому необходимо оценить, во что обойдется сбор данных.
Чем больше данных для анализа, тем лучше. Их проще отбросить на следующих этапах, чем собрать новые сведения. К тому же необходимо учитывать, что не всегда экспертная оценка значимости факторов будет совпадать с реальной, т. е. в начале не известно, что на самом деле является значимым, а что нет. Из-за большой неопределенности, приходится отталкиваться от мнения экспертов относительно значимости факторов, но в действительности эти гипотезы могут не подтвердиться. Поэтому желательно собрать больше данных, чтобы иметь возможность оценить влияние максимального количества показателей.
Однако сбор данных не является самоцелью. Если информацию получить легко, то, естественно, нужно ее собрать. Если данные получить сложно, то необходимо соизмерить затраты на ее сбор и систематизацию с ожидаемыми результатами.
Есть несколько методов сбора, необходимых для анализа данных. Они перечислены в порядке увеличения стоимости:
- Выгрузка из учетных систем. Обычно в учетных системах имеются механизмы экспорта данных или существует API для доступа к ним. Поэтому извлечение нужной информации из систем учета чаще всего относительно несложная операция.
- Получение сведений из косвенных данных. О многих показателях можно судить по косвенным признакам. Например, можно оценить реальное финансовое положение жителей определенного региона. В большинстве случаев имеется несколько товаров, предназначенных для выполнения одной и той же функции, но отличающихся по цене: товары для бедных, среднеобеспеченных и состоятельных. При наличии данных о продажах по регионам, можно проанализировать пропорции, в которых продаются товары для каждой из категорий клиентов: чем больше доля дорогой продукции, тем более состоятельны в среднем жители данного региона.
- Использование открытых источников. Большое количество данных присутствует в открытых источниках, таких как статистические сборники, отчеты корпораций, опубликованные результаты маркетинговых исследований и прочее.
- Покупка сведений у соцсетей, мобильных операторов и дата-брокеров. На рынке работает много компаний, которые занимаются сбором и продажей данных. Они предоставляют посредством API систематизированную информацию различного плана: кредитоспособность, клиентские предпочтения, цены на продукцию, геолокация и т.д.
- Проведение собственных маркетинговых исследований и аналогичных мероприятий по сбору данных. Это может быть достаточно дорогостоящим мероприятием, но, в любом случае, такой вариант сбора данных возможен.
- Ввод данных «вручную», когда данные вводится по различного рода экспертным оценкам сотрудниками организации. Данный метод достаточно трудоемкий и требует постоянного выделения ресурсов для обеспечения актуальности сведений.
Стоимость сбора информации различными методами существенно отличается по цене и времени, которое необходимо для этого. Поэтому нужно соизмерять затраты с ожидаемыми результатами. Возможно, от сбора некоторых данных придется отказаться, но факторы, которые эксперты оценили как наиболее значимые, нужно собрать обязательно, не смотря на стоимость этих работ, либо вообще отказаться от анализа.
Очевидно, что если эксперт указал некоторый фактор как важный, то исключать его неразумно. Мы рискуем провести анализ, ориентируясь на второстепенные малозначащие факторы, и, следовательно, получить модель, которая будет давать плохие и нестабильные результаты. Такая модель не представляет практической ценности.
Собранные данные нужно преобразовать к единому формату. Идеальный случай — загрузка в базу или витрину данных. Но можно использовать и более легковесные форматы, например, Excel или текстовой файл с разделителями.
Данные обязательно необходимо стандартизировать, т.е. одна и та же информация везде должна описываться одинаково. Обычно проблемы с единообразным представлением возникают при сборе информации из разнородных источников. В этом случае стандартизация является серьезной самостоятельной задачей, но ее обсуждение выходит за рамки данной статьи.
Представление и минимальные объемы
Для анализируемых процессов различной природы данные должны быть подготовлены специальным образом. Для простоты можно считать, что собранные данные могут быть трех видов:
- Упорядоченные
- Неупорядоченные
- Транзакционные
Упорядоченные данные
Упорядоченные данные нужны для решения задач прогнозирования, когда необходимо на основе имеющихся исторических сведений определить, каким образом, скорее всего, поведет себя тот или иной процесс в будущем. Чаще всего в качестве одного из атрибутов выступает дата или время, хотя это и не обязательно. Речь может идти и о неких отсчетах, например, данные, собираемые с датчиков через фиксированное расстояние.
Для упорядоченных данных (обычно это временные ряды) каждому столбцу соответствует один фактор, а в каждую строку заносятся упорядоченные по времени события с единым интервалом между строками. Интервал между строками должен быть одинаковым, пропуски не допускаются. Кроме того, необходимо исключить группировки, промежуточные итоги и прочее, т. е. нужна обычная таблица.
NN | Дата | Частота закупок | Объем продаж(руб.) |
---|---|---|---|
1 | 01.05.2010 | 256 | 459874.00 |
2 | 02.05.2010 | 278 | 515687.00 |
Если для процесса характерна сезонность/цикличность, необходимо иметь данные хотя бы за один полный сезон/цикл с возможность варьирования интервалов (понедельное, помесячное…). Т.к. цикличность может быть сложной, например, внутри годового цикла квартальные, а внутри кварталов недельные, то необходимо иметь полные данные как минимум за один самый длительный цикл.
Максимальный горизонт прогнозирования зависит от объема данных:
- Данные на 1.5 года – прогноз максимум на 1 месяц;
- Данные за 2-3 года – прогноз максимум на 2 месяца;
Тут указана минимальная глубина погружения (история) для соответствующего горизонта прогнозирования, т.е. времени, на которое можно строить достаточно достоверные прогнозы. В случае отсутствия хотя бы такого объема прогнозирование, основанное на данных, будет невозможно. При этом надо учитывать, что при указанном минимальном объеме данных работают только самые простые алгоритмы. Сложный математический аппарат требует большего объема данных для построения модели.
В общем случае максимальный горизонт прогнозирования ограничивается не только объемом данных. Прогнозные модели исходят из предположения, что факторы, определяющие развитие процесса, будут в будущем оказывать примерно такое же влияние, что и на текущий момент. Данное предположение справедливо не всегда. Например, в случае слишком быстрого изменения ситуации, появления новых значимых факторов и т.п. это правило не работает.
Поэтому в зависимости от задачи требования к объему могут сильно изменяться. Однако необходимо принимать во внимание и то, что использование слишком большой глубины погружения так же нецелесообразно. В этом случае мы будем строить модель по старой не актуальной истории, и, следовательно, могут учитываться факторы, возможно уже утратившие свою значимость.
Неупорядоченные данные
Неупорядоченные данные нужны для задач, где временной фактор не имеет значения, например, кредитный скоринг, диагностика, сегментация потребителей. В таких случаях мы считаем информацию о том, что одно событие произошло раньше другого несущественной.
Для неупорядоченных данных каждому столбцу соответствует фактор, а в каждую строку заносится пример (ситуация, прецедент). Упорядоченность строк не требуется. Не допускается наличие группировок, итогов и прочее — нужна обычная плоская таблица.
ID клиента | Стаж работы | Наличие автомобиля | Сумма кредита (руб.) |
---|---|---|---|
1 | больше 5 лет | Да | 150000.00 |
2 | меньше 5 лет | Нет | 125000.00 |
В собранных данных количество примеров (прецедентов), т.е. строк таблицы должно быть значительно больше количества факторов, т.е. столбцов. В противном случае высока вероятность, что случайный фактор окажет серьезное влияние на результат. Если нет возможности увеличить количество данных, то придется уменьшить количество анализируемых факторов, оставив наиболее значимые.
Желательно, чтобы данные были репрезентативными, т.е. покрывали как можно больше ситуаций реального процесса, а пропорции различных примеров (прецедентов) примерно соответствовали действительности. Цель Data Mining — выявить закономерности в имеющихся данных, поэтому, чем ближе данные к действительности, тем лучше.
Необходимо понимать, что алгоритмы машинного обучения не могут знать о чем-либо, что находится за пределами поданных на вход данных. Например, если при создании системы медицинской диагностики подавать только сведения о больных, то система не будет знать о существовании здоровых людей, и, соответственно, любой человек с ее точки зрения будет обязательно чем-то болен.
Транзакционные данные
Транзакционные данные используются в алгоритмах поиска ассоциативных правил, этот метод часто называют «анализом потребительской корзины». Под транзакцией подразумевается несколько объектов или действий, сгруппированных в логически связанную единицу.
Часто данный механизм используется для анализа покупок (чеков) в супермаркетах. Но вообще речь может идти о любых связанных объектах или действиях, например, продажа туристических туров с набором сопутствующих услуг (оформление виз, доставка в аэропорт, услуги гида и прочее). Используя данный метод анализа, находятся зависимости вида, «если произошло событие А, то с определенной вероятностью произойдет событие Б».
Транзакционные данные для анализа необходимо подготовить в следующем виде:
Код транзакции | Товар |
---|---|
10200 | Йогурт «Чудо» 0.4 |
10200 | Батон «Рязанский» |
10201 | Вода «Боржоми» 0.5 |
10201 | Сахарный песок, пачка 1 кг |
10201 | Хлеб «Бородинсий» |
Код транзакции соответствует номеру чека, счета, накладной. Товары с одинаковым кодом входят в разовую покупку.
Описанного представления данных достаточно для работы обычных ассоциативных правил, где находятся связи между каждым объектом в отдельности. Пример, «Если купили «Йогурт «Чудо» 0.4», то приобретут и Батон «Рязанский»».
Существует еще алгоритм поиска обобщенных ассоциативных правил, когда имеется возможность найти связи не только между объектами, но и группами объектов. Например, при наличии информации о товарных группах, к которым относятся объекты, можно находить зависимости типа «Если купили Батон «Рязанский», то купят и что-нибудь из йогуртов». Для поиска обобщенных ассоциативных правил необходимо подготовить дополнительную информацию с деревом отношений между объектами — иерархией групп в следующем виде:
ID | ID предка | Объект |
---|---|---|
1 | Хлебобулочные изделия | |
2 | 1 | Хлеб |
3 | 1 | Булки |
4 | 2 | Батон «Рязанский» |
5 | 2 | Хлеб «Бородинский» |
6 | Молочные продукты | |
7 | 6 | Молоко |
8 | 6 | Йогурты |
9 | 8 | Йогурт «Чудо» 0.4 |
10 | 8 | «Растишка персиковый» 0.25 |
ID – уникальный номер объекта. ID предка – номер родительского объекта. Если объект корневой, то это поле должно быть пустым. В поле «Объекты» находятся как группы, так и товар.
Таблица с иерархией объектов соответствует следующей диаграмме.
Для анализа транзакционных данных помимо поиска ассоциативных правил могут применяться алгоритмы выявления последовательных шаблонов, т.е. определения закономерностей, что «после события А с определенной вероятностью произойдет событие Б». Данные для этого собираются так же, как и для поиска ассоциативных правил, но с добавлением временной метки события.
Код транзакции | Дата покупки | Товар |
---|---|---|
10200 | 12.05.2011 | Йогурт «Чудо» 0.4 |
10200 | 12.05.2011 | Батон «Рязанский» |
10201 | 14.05.2011 | Вода «Боржоми» 0.5 |
10201 | 14.05.2011 | Сахарный песок, пачка 1 кг |
10201 | 14.05.2011 | Хлеб «Бородинсий» |
Анализ транзакций целесообразно производить на больших наборах данных, иначе могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей и последовательных шаблонов способны быстро перерабатывать огромные массивы информации. Их основное достоинство заключается именно в масштабируемости, т.е. способности обрабатывать большие объемы.
Примерное соотношение между количеством объектов и объемом данных:
- 300-500 объектов – более 10 тыс. транзакций;
- 500-1000 объектов – более 300 тысяч транзакций;
При недостаточном количестве транзакций целесообразно уменьшить количество анализируемых объектов, например, сгруппировать их.
Построение моделей — анализ
Существует большое количество алгоритмов машинного обучения и их описание выходит за рамки данной статьи. Каждый из них имеет свои ограничения и решает определенный класс задач. На практике, чаще всего добиться успеха можно, комбинируя методы анализа.
В целом, можно дать следующие, не зависящие от Data Mining алгоритма, рекомендации по построению моделей:
- Уделить большое внимание очистке данных. Собрав данные в нужном объеме, нельзя быть уверенным, что они будут хорошего качества. Чаще всего, оно оставляет желать лучшего, поэтому необходимо их предобработать. Для этого есть множество методов: удаление шумов, сглаживание, редактирование аномалий и прочее.
- Комбинировать методики анализа. Это позволяет шире смотреть на проблему. Более того, использование различных методов для решения одной и той же задачи может помочь выявить интересные закономерности, выходящие за рамки применимости одного алгоритма;
- Не гнаться за абсолютной точностью. Желательно начать использование при получении первых приемлемых результатов. Все равно идеальную модель построить невозможно. Полезный, пусть не идеальный результат, позволяет раньше получать выгоду от применения машинного обучения. При этом можно и нужно параллельно работать над совершенствованием модели с учетом полученных на практике результатов;
- Начинать с более простых моделей. Правильно собранные данные позволяют получить выгоду от применения даже самых простых моделей. Если несколько методов анализа дают примерно одинаковый результат, всегда стоит выбрать наиболее простой из них. Простые методы более надежны, они менее требовательны к качеству данных, их легче интерпретировать и модифицировать. Применение сложных алгоритмов должно быть обосновано достаточной выгодой, оправдывающей повышенные затраты на их построение и развитие.
При невозможности построения качественной модели следует вернуться на предыдущие шаги Data Mining процесса. К сожалению, ошибки могут быть допущены на любом шаге: может быть некорректно сформулирована первоначальная гипотеза, могут возникнуть проблемы со сбором необходимых данных и прочее. К этому нужно быть готовым, т.к. Data Mining — это исследование, т.е. процесс поиска ранее неизвестных закономерностей.
Для оценки адекватности полученных результатов необходимо привлекать экспертов в предметной области. Интерпретация модели, так же как и выдвижение гипотез, может и должно делаться экспертом, т.к. для этого нужно глубокое понимание процесса, выходящее за пределы анализируемых данных.
Кроме того, нужно воспользоваться и формальными способами оценки качества модели: тестировать построенные модели на различных выборках для оценки их обобщающих способностей, т.е. способности выдавать приемлемые результаты на данных, которые не предоставлялись системе при построении модели.
Дело в том, что некоторые механизмы анализа могут «запоминать» предъявленные ей данные и на них демонстрировать прекрасные результаты, но при этом полностью терять способность к обобщению и на тестовых (из неизвестных системе ранее) данных выдавать очень плохие результаты. При формальной оценке можно отталкиваться от идеи, что если на тестовых данных модель дает приемлемые результаты значит она имеет право на жизнь.
При получении приемлемых результатов нужно начать использование полученных моделей, но необходимо понимать, что начало применения не является завершением Data Mining проекта. Работать над совершенствованием моделей нужно всегда, т.к. по прошествии времени обязательно наступит момент, когда придется опять проходить описанный цикл. К тому же, после получения первых удовлетворительных результатов, обычно встает вопрос о повышении точности.
Необходимо периодически оценивать адекватность модели текущей ситуации, потому что даже самая удачная модель со временем перестает соответствовать действительности.
Другие материалы по теме:
Данные в промышленности: как правильно собирать и извлекать из них выгоду
Темпы цифровизации в промышленности ниже, чем в других отраслях: при том, что еще в 2019 году анализ данных был наиболее часто внедряемой технологией в российских компаниях, лишь 14-16% предприятий использовали данные для оптимизации производства. В чем причина такого отставания и что делать промышленным компаниям, чтобы извлечь пользу из данных?
Приятно читать новости: исследования говорят о значительных успехах промышленности в цифровой трансформации* (KMDA, 2020), а кейсы вроде компании СИБУР показывают, что на производстве есть примеры получения быстрого и заметного бизнес-эффекта от анализа данных. Вот только работая над проектами в разных отраслях мы видим, что в целом промышленные компании пока не используют все возможности для развития бизнеса, которые дают данные.
Казалось бы, конкурентные преимущества и польза очевидны: и прогноз внеплановых остановок оборудования, и снижение издержек за счет оптимизации технологических режимов, и повышение качества и количества выпускаемой продукции. Что же останавливает промышленные предприятия?
Дело в том, что им сложнее организовать сбор и анализ данных, чем другим компаниям.
1. Нужно оцифровывать аналоговые данные с оборудования и машин.
2. У таких предприятий колоссальный объем информации – петабайты данных в год.
3. Сказывается нехватка людей с релевантным опытом: пока таких задач было немного, и в этом смысле промышленные отрасли — нефтегазовый сектор, металлургия, энергетика, машиностроение — находятся в начале пути.
При этом заметно: все уже осознали, что использование данных в работе неизбежно, что оно дает конкурентное преимущество.
Новые люди и предприятия – даже с меньшим опытом в индустрии, но знающие, как работать с данными — начинают теснить старожилов. Похоже, сбором и анализом данных в ближайшем будущем придется заняться всем компаниям, которые хотят оставаться на рынке
Какие данные и как собирать промышленным предприятиям
Оснащать датчиками все подряд очень дорого. Между оборудованием и цифровой системой для его мониторинга есть много звеньев. Для сбора информации нужно создать целую инфраструктуру:
• аналоговый датчик,
• программно-логический контроллер, осциллограф или другое устройство, способное оцифровывать информацию,
• передатчик, отправляющий данные в хранилище,
• само хранилище данных.
Кроме того, чем больше звеньев в такой цепи, тем больше возможных проблем при анализе данных:
• погрешности в замерах,
• технологические ограничения,
• колебания в результате влияния внешних факторов,
• ошибки при оцифровке,
• электроника, которая иногда выходит из строя.
Бывает, что компании оснащают оборудование датчиками на миллионы долларов, а потом не знают, что делать с полученными данными, либо оптимизация, которую они проводят с их помощью, не окупается.
Что же собирать? Универсального ответа на этот вопрос нет. Все зависит от оборудования, от режима его эксплуатации, от специфики производственных процессов, от того, какие модели уже созданы и апробированы, и в каждом конкретном случае это вопрос проектирования. И на этапе проектирования вероятность ошибиться гораздо выше, если вы не обладаете опытом. Куда поставить датчики, с какой частотой замерять, как интерпретировать данные — все это определяется только опытом.
Главные источники данных – это датчики, видеокамеры, системы с ручным вводом информации, и журналы инцидентов, которые ведутся на производстве. Какие именно данные, поступающие из этих источников, стоит собирать и анализировать, решает бизнес-аналитик. Это эксперт, который понимает, как устроен производственный процесс и оборудование, какие узлы оно в себя включает, и как они связаны между собой с точки зрения логики, механики, термодинамики и т. д. Эксперт указывает, какие из измеряемых параметров наиболее ясно отражают работу оборудования и происходящие процессы.
Сложность сбора данных обычно определяется условиями производства — высокие температуры, пыль и т.п. — и тем, насколько оборудование оснащено необходимыми датчиками. В большинстве случаев дооснащение связано с вмешательством в конструкцию устройства — а это потеря гарантии, создание рисков функционированию и безопасности дорогого оборудования. Есть неинвазивное дооснащение, но тут возникает вопрос точности, и существуют объекты, с которых данные таким образом просто нельзя снять: например, с внутренней изоляции в электродвигателях.
После сбора данных необходимо провести их очистку, т. е. удалить ненужные. Многие чистят данные, просто отсекая пороговые значения, в Ctrl2GO Solutions другой подход: мы считаем, что нужно исключать вероятность ошибки с помощью умных алгоритмов отслеживания того, какой датчик мог выйти из строя или показывает неверные значения.
Что делать с собранными данными
Можно собрать огромный массив данных о работе оборудования, записав определенные параметры в рамках производственного цикла. Но вся эта информация без аналитики будет почти бесполезной: никаких открытий сама по себе она не предоставит.
Здесь все решает специалист по работе с данными — data scientist. В зависимости от задачи и объема данных он определяет, какие алгоритмы обработки и в какой последовательности можно применять, к какому результату они могут привести. Обычно строится несколько гипотез, которые затем тестируют. Доказанная гипотеза, как правило, становится решением задачи — аналитической моделью, которую внедряют в промышленное использование.
Если у компании есть несколько предприятий с одинаковым оборудованием, лучше собирать данные по всем единицам. У станка или насоса может быть несколько десятков наиболее вероятных поломок, но вряд ли все они случатся с одной конкретной единицей оборудования. Поэтому чем больше данных получит модель для обучения, тем точнее она будет.
Созданная модель анализирует данные по работе оборудования, информацию о происходящих производственных процессах и влиянии внешних факторов, и выявляет аномалии. Таким образом можно найти причину уже произошедшего отказа — например, так мы в Ctrl2GO Solutions по историческим данным обнаружили неисправность в турбогенераторе тепловой электростанции, которая только через полтора года привела к аварии.
После обучения на исторических данных ML-модель может не только мониторить состояние оборудования в реальном времени, но и осуществлять предиктивную аналитику, то есть заранее предсказывать время и вероятность отказа узла или агрегата. Можно также рассчитывать “индекс здоровья” оборудования, что позволяет переходить от планового ремонта к ремонту по состоянию.
Зачем данные вашему бизнесу
Правильный подход к использованию данных о работе оборудования и производстве может помочь промышленным предприятиям добиться реальных бизнес-результатов — как оперативных, так и стратегических.
Оптимизация процессов. Используя поступающие в реальном времени данные, можно вносить необходимые корректировки в производственные процессы — скажем, регулировать режимы работы флотационной установки на обогатительной фабрике, что позволит сократить расход реагентов и повысить извлечение.
Повышение производительности. Металлургическому предприятию данные о качестве сырья помогают обеспечить правильное соотношение концентратов при шихтовании и за счет этого увеличить производительность печей на 2-5% и повысить качество выходного продукта на 1-6%.
Сокращение простоев техники и оборудования. Данные телеметрии с тепловоза помогут снизить время простоя на сервисном обслуживании на 12%, в 4 раза сократить время диагностики подвижного состава, уменьшить затраты на техническое обслуживание и ремонт.
Аналитика поведения пользователей: как организовать сбор данных
В первой части этого материала мы рассказывали, что такое события в аналитике пользователей, зачем их собирать и как устроен сбор данных.
Теперь давайте разберемся с тем, какие события необходимо собирать, чтобы получать качественную аналитику о поведении пользователей в продукте, сайте или мобильном приложении
Определите, зачем вам нужна аналитика
Над чем работаете вы и ваша команда? Какая перед вами стоит конечная цель? Подумайте о целях бизнеса, которых нужно достичь. Как только вы определили главную цель, решите, как будете работать над ее выполнением. Определите KPI и метрики, на которых необходимо сфокусироваться, чтобы достичь цели.
Очень важно определить цели и задачи до систематизации данных — так вы будете уверены, что собираете правильные события.
Пример:
Предположим, что у вас стриминговый сервис кинофильмов и ваша глобальная цель — увеличить конверсию в оплату.
Вашими метриками могут быть: показатели удержания для платящих пользователей и показатели конверсии воронки оформления заказа.
В таком случае для вас будут в особом приоритете события, связанные с покупками и данные по платным пользователям.
Выделите главные пути в продукте, которые соответствуют вашим целям
Путь — это набор действий, которые совершает пользователь. Ваша задача — определить наиболее популярные пути пользователя в продукте, которые он проходит для достижения своих целей.
Все пользовательские пути ведут к заключительной точке для клиента или бизнеса. Вернемся к нашему сервису кинофильмов. Мы можем отслеживать события пользователя с его первого визита на страницу и до оплаты подписки, потому что этот путь ведет к покупке.
В таком случае путь пользователя может быть таким: Зашел на сайт — зарегистрировался — оплатил подписку на месяц.
Вы можете разбить этот путь на серию важных для нас событий: «Заход на сайт», «Просмотр страницы с новинками», «Заход на страницу тарифов», «Выбор подписки», «Регистрация», «Оплата».
Старайтесь следить только за теми событиями, которые необходимы для достижения ваших бизнес-целей. Если нужно, вы всегда можете добавить больше событий позже, но помните, что тогда у вас не будет ретроспективной картины: как с определенным разделом или кнопкой взаимодействовали до того, как стали собираться данные по ним.
Создайте план по сбору данных
Основываясь на пути пользователя, определите, какие события собирать внутри продукта. Помните о том, что для команды маркетинга будут важны одни данные, для поддержки — другие.
Собирайте данные о пользователях
с Carrot quest
В начале может показаться, что лучше собирать абсолютно все данные, но на деле это не так — слишком много данных могут принести только хаос в аналитику, и найти полезную информацию будет слишком сложно. Собирайте только действительно необходимые данные по событиям и пользователям.
Мы знаем, какой путь проходит пользователь к оформлению подписки. Команде маркетинга важно получить контакт пользователя, а продукту — чтобы пользователь с триала перешел на платную подписку.
Пример:
В стриминговом сервисе наиболее важными событиями будут: «зашел на сайт», «зарегистрировался», «подписался на триал», «добавил номер карты», «выбрал тариф», «посмотрел кино», «просмотрел 10 фильмов», «выбрал подписку», «оплатил первый месяц», «оплатил второй и последующие месяцы».
Установите свойства пользователей и свойства событий
Некоторые события и пользователи содержат в себе свойства. Событие «Проигрывание песни» внутри мобильного приложения может содержать в себе несколько свойств — название песни, жанр или артист.
Выбор свойств пользователя и свойств события может дать вам более глубокое представление о поведении ваших клиентов, когда они взаимодействуют с приложением.
Свойство пользователя описывает атрибуты отдельного пользователя, использующего ваше приложение (возраст, пол, местоположение).
Свойство события описывает характеристику события (на какой странице произошло событие, время, длительность).
Событие имеет дату и время свершения и не может перезаписаться. Свойство — характеристика события.
Пример:
Свойствами пользователя могут быть: страна, язык, часовой пояс, пол, возраст. А свойствами событий — время оплаты подписки, завершил просмотр кино или нет, смотрел на английском или смотрел с субтитрами.
Систематизируйте классификацию событий
Чтобы события и свойства хранились в одном месте и их легко можно было найти, многие компании записывают их в Google таблицы. Такие таблицы служат каталогом для сбора данных и помогают в нужный момент найти нужное событие или свойство.
За каждой великой аналитикой стоит великая классификация событий — то, как вы организуете группы событий и свойств, которые используются для определения действий пользователей внутри продукта. Классификация событий — основа для всей будущей аналитики.
Все события должны быть названы по определенному шаблону, чтобы у вас не было двух разных событий о регистрации: «Sign up» и «sign up».
Собираем все события и свойства для стримингового сервиса в одной таблице, чтобы в будущем иметь доступ к каждому из них.
Не забывайте про идентификацию пользователей
Большинство аналитических платформ требуют дополнительных настроек идентификации — логина, емейла или user ID — для отслеживания уникальных пользователей и тех, кто уже заходил в приложение. Эта возможность позволяет склеивать данные по пользователям с нескольких девайсов и сессий в одного пользователя. Поэтому важно заранее убедиться, что ID пользователя не изменится.
Пример:
В нашем сервисе кинофильмов зарегистрирована Ирина.
Благодаря склеенным данным теперь мы видим, что делает Ирина в мобильном приложении и в ноутбуке.
ID помогает узнать пользователя, чтобы записывать о нём данные или совершать с ним действия. Поэтому крайне важно, чтобы на протяжении всего жизненного цикла пользователя user ID оставался уникальным и не изменялся. Если вы используете свои параметры в качестве user ID (например, email), то убедитесь, что данные не будут меняться.
Позаботьтесь о кроссплатформенной аналитике
Если ваш продукт реализован на нескольких платформах, например на вебе и в мобилке, вам понадобится склеенная аналитика по ним. Допустим, вы хотите знать, что ваш пользователь делает на сайте и почему переходит в мобильное приложение, значит вам просто необходима аналитика под одному и тому же пользователю с двух платформ.
Пример:
У нашего стримингового сервиса целых три платформы: в вебе, smart TV и в мобильном приложении. И нам необходима склеенная аналитика по пользователю со всех площадок.
Проверьте, все ли события собираются правильно
После того, как вы определились со сбором данных, настроили все события и запустили аналитику, необходимо проверить, правильно ли она работает. Для этого вы можете сами проверить, как записываются события и свойства, пройдя путь пользователя в продукте.
У аналитики есть суперспособность — ломаться. Поэтому очень важно следить за ней и периодически проверять, всё ли работает верно.
Начните анализировать полученные данные
Теперь вы знаете, как идут дела у пользователей, где у них возникают трудности и почему они не доходят до покупки.
С аналитикой вы также можете:
- строить воронки;
- создавать поведенческие когорты;
- настраивать автоматическую коммуникацию с пользователями;
- увеличивать конверсии с помощью отчетов по воронкам;
- проводить эксперименты;
- измерять эффективность новых релизов;
- и еще много всего другого.
Эта статья была написана на основе двух материалов:
- A comprehensive guide to behavioral analytics
- 10 Steps To Get You Started with Behavioral Analytics
О сборе данных. Как собирать данные, анализировать их и грабить корованы
В предыдущей статье мы рассматривали вопросы качества данных («О качестве данных и распространенных ошибках при их сборе» на Хабре).
Сегодня я хочу продолжить разговор о качестве данных и обсудить их сбор: как правильно расставить приоритеты при выборе источника, как и какие данные собирать, оценка ценности данных для компании и другое.
Собирайте всё
Вы решили улучшить оформление и оплату товара на сайте?
Отлично, а как проходит процесс формирования корзины покупателем? В какой момент он делает окончательный выбор товаров: до добавления в корзину или перед оплатой покупки?
На каждом сайте может быть по разному, но как ведет себя клиент у вас?
При обладании данными об оформлении заказа их можно проанализировать и определиться с вектором обновления, который будет удобен не только вам, но и пользователям.
Собирайте все данные, до которых дотягиваетесь. Вы никогда не будете знать со стопроцентной уверенностью, какие из них могут вам понадобится, а возможность сбора может выдаться только одна.
Чем больше данных вы соберете, тем больше информации о пользователях у вас будет, а что важнее — вы сможете понимать и прогнозировать контекст их поступков.
Контекст помогает лучше понимать своего клиента, его желания и намерения, а чем лучше вы знаете своего клиента, тем лучше вы сможете реализовать его персональные потребности, а значит повысить лояльность и повысить вероятность возврата клиента.
Сегодня сбор абсолютно всех данных уже не такая редкость, особенно это распространено в онлайн проектах. В компании, максимизирующей сбор данных и умеющей с ними работать, на их основе будет вестись практически вся деятельность: маркетинг, продажи, работа персонала, обновления и усовершенствования, поставки.
У каждого направления есть внутренние и внешние источники данных в различных форматах и разного качества.
Это хорошо для работы аналитиков и принятия решений, но отсюда также возникает проблема с хранением этого массива данных и их обработкой. Каждое действие увеличивает финансовую нагрузку и положительный эффект от обладания данными может вырасти в «головную боль».
Для принятия решения о целесообразности сбора и обработки тех или иных данных нужно понимание их основных характеристик. Давайте вкратце пройдемся по ним:
Объем
Показатель, влияющий на финансовые издержки по хранению и изменению данных и временные издержки по их обработке. И хотя с увеличением объема данных цена на хранение единицы снижается, но, учитывая увеличивающееся количество источников, финансовая нагрузка может стать нерациональной.
Разнообразие
Разнообразный набор источников данных дает более полную картину и помогает лучше оценить контекст действий пользователя, но обратная сторона медали — разнообразие форматов и расходы на их интеграцию в вашу систему аналитики. Не всегда все данные возможно собрать воедино, а если и возможно, то не всегда это необходимо.
Скорость
Какой объем данных требуется обрабатывать в единицу времени?
Вспомним недавние выборы президента США — благодаря быстрой обработке сообщений Twitter можно было понимать настроение избирателей в ходе дебатов и корректировать их ход.
Гигантам работы с данными, таким как Facebook и Google, на достижение сегодняшних результатов потребовать огромное количество времени, но благодаря этому у них теперь есть данные о каждом пользователе и они могут прогнозировать их действия.
Частая проблема персонала, работающего с данными — ограниченные ресурсы, в первую очередь финансовые и кадровые.
В большинстве компаний аналитикам приходится расставлять жесткие приоритеты в выборе источников данных, и тем самым отказываться от некоторых из них.
Кроме того необходимо учитывать интересы бизнеса, а значит оценивать рентабельность инвестиций в работу с данными и возможное влияние данных на компанию.
Приоритеты и выбор источников данных
При ограниченных ресурсах в работе с данными специалистам приходится расставлять приоритеты и делать выбор между источниками.
Чем же руководствоваться при этом и как определить ценность данных для компании?
Главная цель работы аналитиков — давать необходимую другим подразделениям информацию качественно и своевременно. Эта информация оказывает прямое влияние на эффективность компании и работу отделов.
У каждого отдела или подразделения есть свой «основной» тип данных.
Так для отдела по работе с клиентами важны контакты клиента и данные его социальных сетей, а для отдела маркетинга — история покупок и карта действий.
Так и выходит, что каждая команда имеет свой набор «очень важных данных» и эти данные определенно важнее и нужнее чем у других подразделений.
Вот только от важности и нужности данных проблема с ограниченными ресурсами не исчезает, а значит приходится расставлять приоритеты и действовать в соответствии с ними. Основной фактор для определения приоритетности данных — ROI, но не стоит забывать и про доступность, полноту и качество.
Вот список в котором приведены некоторые показатели, которые могут помочь в расстановке приоритетов:
Список параметров для расстановки приоритетов
Высокая
Причина: Данные нужны немедленно.
Объяснение: Если у какого-то подразделения появляется острая необходимость в данных с жестко ограниченными сроками, такие данные предоставляются в первую очередь.
Высокая
Причина: Данные повышают ценность.
Объяснение: Данные повышают прибыль или сокращают издержки, обеспечивая высокую ROI.
Высокая
Причина: Разным командам требуются одни и те же данные.
Объяснение: Удовлетворяя потребности нескольких команд в данных вы повышаете ROI.
Высокая
Причина: Краткосрочные или потоковые данные.
Объяснение: Некоторые интерфейсы и протоколы дают ограниченное по времени «окно» для сбора данных, следует поторопиться.
Средняя
Причина: Дополнение для существующего набора данных, которые повышают их качества.
Объяснение: Новые данные дополняют имеющиеся и улучшают понимание контекста действий.
Средняя
Причина: Код обработки данных может быть использован повторно.
Объяснение: Использование известного кода сокращает ROI и уменьшает количество возможных ошибок.
Средняя
Причина: Данные легко доступны.
Объяснение: Если данные ценны, а добыть их просто — вперед.
Средняя
Причина: Удобный API позволяет собрать данные за прошедшие периоды.
Объяснение: Если данные не требуются еще вчера, а вы всегда можете получить к ним доступ, то не стоит ставить им слишком высокий приоритет.
Низкая
Причина: Аналитики имеют доступ к данным или иные пути их получения.
Объяснение: Если у аналитиков уже имеется доступ к данным, то, возможно, есть более приоритетные задачи.
Низкая
Причина: Низкое качество данных.
Объяснение: Низкокачественные данные могут быть бесполезны, а иногда и вредны.
Низкая
Причина: Необходимо извлечение из веб-страниц.
Объяснение: Обработка таких данных может быть достаточно сложной и требовать чрезмерных усилий.
Низкая
Причина: Низкая вероятность использования данных.
Объяснение: Данные, которые хорошо бы иметь, но если их нет, то и ладно.
Зато, обладая этими данными, можно грабить корованы!
Как мы видим не всякие данные важно предоставить «прямо сейчас», а значит необходимо расставлять приоритеты и следовать в соответствии с ними.
Важно сохранять баланс между приобретением новых данных и их ценностью для компании.
Взаимосвязь данных
Вы получаете важные данные от отдела продаж, маркетинга, от логистов и обратную связь от клиентов, но самая большая ценность данных возникает после установления связей между разными видами данных.
Для примера рассмотрим Диану и ее заказ. Недавно она заказала комплект садовой мебели, сопоставив ее заказ с данными аналитики, мы видим, что она провела на сайте 30 минут и просмотрела 20 разных наборов. Это значит, что она выбирала мебель уже на сайте, не зная заранее, что будет заказывать.
Смотрим откуда она пришла — поисковая выдача.
Если бы у нас была информация о других покупках Дианы, то мы бы узнали, что она за последний месяц часто покупала товары для дома.
Частые онлайн покупки и использования поисковиков для нахождения интернет-магазинов говорит о низкой лояльности брендам, а значит склонить ее к повторной покупке будет сложно.
Так, получая каждый новый уровень информации, составляется индивидуальный портрет пользователя, по которому можно узнать о его жизни, привязанностях, привычках и прогнозировать его поведение.
Добавляем информацию из оформления заказа и понимаем, что это женщина, а по адресу доставки видим, что она живет в частном секторе.
Продолжая анализировать можно найти информацию о ее доме и участке, спрогнозировать ее потребности и сделать превентивное предложение.
При правильном анализе данных предложение может сработать и мы склоним клиента к повторной покупке, а так же повысим его лояльность за счет индивидуального подхода.
Предложение скидок за приглашение друга из соцсети даст нам доступ к ее списку друзей и информации аккаунта, тогда можно будет продолжать индивидуальный маркетинговый подход к клиенту и составить под нее таргетированную рекламу, но это вряд ли будет рентабельно.
Сбор и покупка данных
Сегодня существует множество способов сбора данных, один из самых распространенных — API. Но кроме того как собрать данные, их нужно обновлять, и тут все уже зависит от объема.
Небольшие объемы данных (до 100 тысяч строк) целесообразнее заменять свежими, а вот с крупными массивами уже актуально частичное обновление: добавление новых и удаление устаревших значений.
Массивы некоторых данных настолько огромны, что обрабатывать их все будет слишком дорого для компании, в таких случая проводят выборку, и на ее основании проводят аналитику. Часто практикуется «простая случайная выборка», но обычно данные, собранные с ее помощью, не репрезентативны и сравнимы с подбрасыванием монетки.
Важный вопрос: собирать сырые или агрегированные данные?
Некоторые поставщики данных дают уже скомпилированные подборки, но у них есть несколько недостатков. Например, в них могут отсутствовать необходимые или желаемые значения, которые повысили бы ценность аналитики на основе этих данных для компании, но у вас не будет возможности собирать или дополнять их. Данные, собранные сторонними агрегаторами, удобны для архивации и хранения, также они значительно экономят время и человеческий ресурс.
Но если есть возможность собирать сырые данные, то лучше выбрать их — они более полные, и вы сможете самостоятельно агрегировать их в соответствии со своими потребностями и запросами бизнеса, а после работать с ними так, как вам потребуется.
Многие компании самостоятельно собирают данные, а также использует доступные в открытых источниках. Но в некоторых случаях они вынуждены заплатить за получение необходимых данных третьей стороне. Иногда выбор мест приобретения данных может быть ограничен, в других случаях нет, но независимо от этого при выборе источника данных и принятии решения о их приобретении следует обратить внимание на несколько факторов:
Цена
Все любят бесплатные данные — и руководство и аналитики, но иногда высококачественная информация доступна только за деньги. В таком случае следует взвесить рациональность приобретения и сравнить стоимость и ценность данных.
Качество
Данные чисты, им можно доверять?
Эксклюзивность
Данные подготовлены индивидуально для вас или доступны всем желающим? Вы получите преимущество перед конкурентами, если будете использовать их?
Выборка
Есть возможность получить выборку для оценки качества данных до приобретения?
Обновления
Какой срок жизни данных, как быстро они устаревают, будут ли они обновляться и как часто?
Надежность
Какие ограничения у интерфейсов получения данных, какие еще ограничения могут накладываться на вас?
Безопасность
Если данные важны, то будут ли они зашифрованы и насколько надежными протоколами? Также не стоит забывать о безопасности при их передаче.
Условия использования
Лицензирование или иные ограничения. Что может не позволить вам воспользоваться данными в полном объеме?
Формат
Насколько вам удобно работать с форматом приобретаемых данных? Есть ли возможность их интеграции в вашу систему?
Документация
Если вам предоставляют документацию — хорошо, а если нет, то стоит поинтересоваться способом сбора данных для оценки их ценности и надежности.
Объем
Если данных много, вы сможете обеспечить их хранение и обработку? Ценные данные не всегда будут объемные, как и наоборот.
Степень детализации
Эти данные подходят для уровня необходимой вам аналитики?
Это далеко не все, но основные и несомненно важные вопросы, которыми стоит задаться перед приобретением данных у поставщиков.
На этом я закончу статью по сбору данных.
Если информация была для вас полезна, то я буду рад обратной связи.
Возможно, вы с чем-то не согласны или хотите поделиться своими методами и наработками — приглашаю в комментарии, и надеюсь на увлекательное и полезное обсуждение.
Всем спасибо за внимание и хорошего дня!
Источник информации
Автор: Карл Андерсон
Аналитическая культура. От сбора данных до бизнес-результатов
Creating a Data-Driven Organization
ISBN: 978-5-00100-781-4
Издательство: Манн, Иванов и Фербер