Data Mesh: что это такое и для чего он нужен инженерам
Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
История данных и их аналитики
Компании стали нуждаться в анализе данных, как только в обиход вошли первые компьютеры. В 1980-х компании создавали хранилища на основе реляционных баз данных, используя их в качестве систем принятия решений. Чем быстрее и больше разнообразной информации генерировали компании, тем очевиднее становились ограничения реляционных баз.
С приходом 2000-х мы вступили в эпоху больших данных. Появились новые решения, предназначенные для анализа больших объемов разнообразных данных, генерируемых с огромной скоростью. В современных паттернах архитектуры и аналитики хранилища объединились с новыми технологиями для работы с большими данными.
Однако при развертывании таких аналитических решений у компаний все еще возникали трудности. Архитектура оставалась монолитной, и одна команда всегда выступала в качестве поставщика платформы и занималась интеграцией данных. Такая система подходит для небольших организаций с высокой степенью централизации, а в крупных компаниях из-за такого подхода сразу же стали появляться длинные очереди за услугами интеграции и аналитических решений. В этом контексте централизация оказалась слабым местом крупного бизнеса.
В больших компаниях возлагать ответственность за подключение всех источников данных на одну команду чревато провалом. Часто эти источники децентрализованы и географически распределены, что затрудняет даже банальный поиск ответственных. Подобный подход просто не работает. И тут на помощь приходит новая архитектура, которая называется Data Mesh.
Что такое Data Mesh
Data Mesh, что дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных.
Понятие Data Mesh как архитектуры создания распределенных пайплайнов данных впервые ввела в обиход Жамак Дегани в статье How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh. Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт.
Но что связывает домены и соответствующие активы данных? Это уровень универсальной взаимной совместимости, на котором применяется одинаковая инфраструктура, синтаксис и стандарты данных.
Архитектура Data Mesh: суть концепции
Для понимания Data Mesh нужно знать четыре основных понятия:
Домены данных. Это понятие пришло из парадигмы разработки ПО Domain Driven Design (DDD). Его используют для моделирования сложных программных решений. В Data Mesh домен данных — это способ определить, где начинаются и заканчиваются корпоративные данные. Границы зависят от компании и ее потребностей. Иногда разумно моделировать домены, учитывая бизнес-процессы или исходные системы.
Data-продукты. Важный компонент Data Mesh, связанный с применением к данным продуктового мышления. Чтобы Data-продукт работал, он должен приносить пользователям пользу в долгосрочной перспективе и быть пригодным к использованию, ценным и ощутимым. Он может быть реализован как API, отчет, таблица или датасет в озере данных.
Платформа самообслуживания. Data Mesh строится экспертами широкого профиля, которые создают универсальные продукты и управляют ими. В рамках этого подхода вы будете опираться на децентрализацию и согласование с бизнес-пользователями, которые разбираются в предметной области, какое значение имеют те или иные данные. При этом у вас будут специализированные команды, которые разрабатывают автономные продукты, не зависящие от центральной платформы. Поэтому не получится использовать сложные и узкоспециализированные инструменты для эксплуатации фундамента платформы на основе Data Mesh.
Федеративное governance. Когда вы переходите на распределенную Data-платформу самообслуживания, нужно сосредоточиться на Governance. Если не уделять ему внимание, вы скоро окажетесь в ситуации, когда во всех доменах применяются разрозненные технологии, а данные дублируются. Поэтому и на уровне платформы, и на уровне данных нужно внедрить автоматизированные политики.
Архитектура Data Mesh: показания к применению
Data-Mesh-решения позволяют компенсировать недостатки монолитных озер данных. Владельцы данных получают большую автономность и гибкость, открываются новые возможности для экспериментов, инноваций и совместной работы. В то же время снижается нагрузка на команды по обработке данных, задачи каждого потребителя решаются на местах в рамках единого пайплайна.
В то же время благодаря платформе самообслуживания команды по обработке данных получают в свое распоряжение современные технологии для работы с данными с минимальными инвестициями (либо вообще без них). Кроме того, это универсальный и часто автоматизированный подход к стандартизации данных, Product Lineage и метрикам качества (их сбору и совместной работе с ними). В совокупности эти преимущества можно рассматривать как достойную конкуренцию традиционным архитектурам данных, которые страдают от отсутствия стандартизации на уровне источников и потребителей данных.
Эти преимущества всего лишь верхушка айсберга. Вот еще несколько аргументов в пользу Data Mesh.
Расходы ниже, а скорость выше. До сих пор организации пытались обрабатывать объемные данные разных типов и сценариев использования, опираясь на централизованные решения. Но централизация подразумевает импорт или доставку данных с периферии в центральное озеро для последующего анализа. Это долго и дорого. Работа централизованной команды может стать узким местом компании, ведь данные создают множество сотрудников, а централизованной команде нужно расставить приоритеты и решить, с каких задач начинать.
Data Mesh помогает ускорить анализ. В распределенной архитектуре мы рассматриваем данные как продукт, у которого есть владелец в лице отдельного бизнес-подразделения. Благодаря такой модели команды могут получить доступ и анализировать «периферийные» данные быстрее, чем когда-либо ранее.
Гибкость для бизнеса. Объемы данных продолжают расти, и модель централизованного управления не справляется с увеличением масштабов. Гибкость бизнеса снижается, так как на извлечение пользы из данных и формулировку выводов уходит слишком много времени.
Data Mesh решает эту проблему, возвращая крупному бизнесу гибкость и быстроту реакции на перемены. Из центра она делегирует владение датасетами доменам — отдельным командам или бизнес-пользователям. Это сокращает дистанцию между тем или иным фактом и его потреблением или процессом анализа.
Качественный комплаенс. В ряде случаев организациям трудно соблюдать требования к конфиденциальности и месту расположения данных, которые хранятся в странах ЕС, но используются, например, в Северной Америке. Соблюдение этих требований — длительный и трудоемкий процесс, из-за которого периодически возникают задержки критически важной бизнес-аналитики, необходимой для сохранения конкурентных преимуществ.
Data Mesh обеспечивает уровень связи, открывающий техническим и нетехническим пользователям непосредственный доступ к датасетам с возможностью выполнять запросы по месту нахождения информации. А также позволяет избежать их дорогостоящей передачи и требований к размещению данных в том или ином регионе.
Проблемы архитектуры Data Mesh
При внедрении Data Mesh нужно быть готовым к появлению некоторых проблем. Вот самые важные из них.
Ограничения бюджета
Финансовой жизнеспособности проекта по созданию новой платформы угрожает несколько факторов. В частности, это неспособность платить за инфраструктуру, разработку дорогостоящих приложений, создание Data-продуктов или техобслуживание таких систем.
Если команде по развитию платформы удастся создать инструмент, который закрывает техническую брешь, но объем данных и сложность Data-продуктов продолжат расти, цена решения может оказаться слишком высокой.
Совместная работа доменов и команды по развитию платформы
С внедрением Data Mesh у доменов появляется много дополнительной работы. Ведь они привыкли быть просто пользователями отчетности, а теперь их надо как-то убедить, что овчинка стоит выделки. И когда они согласятся, придется координировать с ними важные релизы.
Например, из-за доработки платформы иногда могут возникать радикальные изменения. Что, если такое произойдет у одного домена как раз в разгаре тестирования нового приложения? В этом случае они могут сорвать вам сроки на несколько месяцев.
Набор навыков по управлению данными
Отсутствие такого набора навыков — серьезное препятствие для компаний, стремящихся перейти на методологию Data Mesh. При децентрализации дата-менеджмента домены должны заняться этим самостоятельно. Действительно ли такое решение лучше центральной команды, которая обеспечивает интеграцию? Ответ на этот вопрос зависит от отраслевой специализации бизнес-доменов и происхождения данных.
Нехватка технических навыков
Делегирование доменам полного владения данными означает, что они должны заниматься проектом серьезно. Возможно, они наймут новых сотрудников или сами пройдут обучение, но не исключено, что вскоре требования окажутся для них непосильными. Когда производительность кардинально снизится, то там, то здесь будут постоянно появляться проблемы. Никакие инструменты здесь не помогут, потому что для решения проблем нужны знания в области дата-инжиниринга.
Мониторинг Data-продуктов
Команде нужны соответствующие инструменты для создания Data-продуктов и мониторинга того, что происходит в компании. Возможно, некоторым доменам не хватает глубокого понимания технических метрик и их влияния на рабочие нагрузки. Команде по развитию платформы нужны ресурсы, позволяющие выявлять и решать проблемы, например, чрезмерной нагрузки или неэффективности.
Виртуализация и дублирование данных
Сегодня сотрудники стремятся объединять данные из разных источников и не хотят подчиняться ограничениям «одного узла». Для этого существует два способа: виртуализация и дублирование данных. У каждого из них есть недостатки.
Виртуализация создает семантическую модель за пределами источников данных без их физического переноса в другую БД. Она разбивает запросы пользователей, передает части запроса к источнику и собирает результаты в единое целое.
Для дублирования нужно, чтобы команды обрабатывали данные, передаваемые от источников в приложения. Это может привести к резкому росту счетов на облачные сервисы. И мы говорим не только о стоимости хранения, но и о возможных расходах на исходящий трафик.
Реализация: как преобразовать озеро данных в сервисы Data Mesh
С помощью инструмента lakeFS команды по развитию инфраструктуры данных могут предоставлять отдельные сервисы Data Mesh с собственным озером данных с историей версий через обычное объектное хранилище. В операциях Git-Like, доступных в lakeFS, есть все необходимые функции: Data Governance, непрерывный деплоймент и другие.
Этапы реализации Data Mesh
Здесь перед нами стоит цель создать репозиторий lakeFS для каждого сервиса Data Mesh. Таким образом, каждый сервис будет работать изолированно, публикуя высококачественные данные для других сервисов или потребителей.
- Защитите имеющиеся данные в объектном хранилище, установив разрешения только на чтение.
- Создайте репозиторий в lakeFS для каждого сервиса данных.
- Загрузите уже имеющиеся исходные и выходные данные. Это операция на уровне метаданных — на самом деле транспортировка не происходит. Если некоторые датасеты используются для разных сервисов, они размещаются в нескольких репозиториях.
- Напишите для каждого сервиса скрипт онбординга для каждого сервиса из репозиториев, которые предоставляют исходные данные. При каждом запуске этого скрипта должен выполняться новый коммит в главной ветке, с изменениями и обновлениями исходных данных.
Чтобы проанализировать данные сервиса, нужно запустить процессы, потребляющие исходные данные и выдающие результат в репозитории lakeFS. Новый результат также передается в главную ветку, при этом создается новая версия, которую могут использовать остальные.
Теперь пора настроить среду разработки и CI/CD для каждого сервиса Data Mesh. Именно это обеспечит эффективность работы и высокое качество результатов.
Среда разработки для сервиса Data Mesh
Для грамотной разработки Data Mesh нам нужна среда разработки, которая позволяет вносить изменения в код сервиса, инфраструктуру или изолированные данные. Можно создать ветку из главной ветки репозитория и назвать ее dev-environment. Merges, направляемые в нее из главной ветки, позволяют экспериментировать с любой ее версией. Можно открыть ветку из dev-environment для тестирования на этапе разработки и закрыть ее сразу после окончания эксперимента. Можно последовательно проводить несколько экспериментов в одной ветке, используя Revert. Или экспериментировать одновременно в нескольких ветках, сравнивая результаты разных экспериментов.
Непрерывная интеграция данных в репозитории
Подключая новые источники данных или обновляя уже имеющиеся в репозитории, важно гарантировать соответствие спецификациям качества и техническим спецификациям. Когда мы описывали настройку репозитория для сервиса Data Mesh, мы предложили обновлять данные онбординга из исходных репозиториев прямо в главную ветку.
Это не очень хорошая практика, ведь данные могут каскадом попасть в Data-пайплайны сервиса еще до того, как вы успеете проверить их качество. Вам же не нужны проблемы с качеством, простои или долгое восстановление? Вот что мы предлагаем в качестве альтернативы:
- Лучше создать ветку для приема данных. В идеале у каждого датасета должна быть собственная ветка для приема данных.
- Дайте ей осмысленное название, например daily-sales-data.
- С помощью Pre-merge протестируйте данные и убедитесь, что они соответствуют стандартам качества и передовых методов работы.
- Если тест пройден, можно объединять данные с главной веткой. Если нет, система мониторинга высылает соответствующее уведомление. В случае неудачи у вас будет моментальный снимок репозитория на момент сбоя, и это поможет быстрее установить причину произошедшего. Данные не потеряны, ведь вы не передавали их в главную ветку.
Непрерывный деплоймент данных в репозитории
Назначение этой инфраструктуры — убедиться в высоком качестве данных, предоставляемых другим сервисам или потребителям. Сложный сервис данных может выполнять тысячи небольших заданий за несколько часов. Поэтому нам нужна непрерывно действующая среда развертывания, которая автоматически восстанавливает сервис в случае обнаружения ошибок. Для этого можно объединить контроль версий (lakeFS) с автоматизированным управлением рабочими процессами (Airflow, Dagster или аналоги) и тестовым фреймворком.
- Оркестрация запускает DAG в выделенной ветке. Каждое задание выполняется в ветке, созданной из DAG.
- После выполнения задачи инициируется вебхук, который проверяет качество данных.
- Если тест пройден, данные из этого задания автоматически поступают в ветку DAG и начинается следующее задание.
- Если тест не пройден, вебхук создает событие в системе оповещения со всеми релевантными данными. DAG перестает работать.
- Когда выполнение завершается успешно, данные поступают обратно в главную ветку. Теперь их можно использовать для других сервисов или экспортировать из объектного хранилища в интерфейс уровня обслуживания.
Заключение
Концепция Data Mesh пришла к нам из передовых методов разработки программного обеспечения, таких как Agile и микроциклы разработки. Перенос этих концепций в область анализа данных сопряжен с рядом трудностей, но, если сделать все правильно, он приносит огромную пользу.
Термин «озеро данных» подразумевает монолитность, но на практике оно реализуется вместе с высокораспределенной технологией, такой как объектное хранилище. Потому команды по развитию платформы могут создавать Data Mesh, образуя изолированные Data-среды для Data-продуктов. Монолит можно разбить на маленькие озера — по одному на каждый продукт.
Чтобы избежать дублирования данных, поверх озера нужен уровень абстракции, который обеспечивается с помощью lakeFS. Таким образом, каждый Data-продукт может использовать собственный репозиторий, а также потреблять данные других репозиториев и передавать в них свои.
Команда VK Cloud развивает собственные Big Data-решения. Новым пользователям дарим три месяца на тестирование сервиса и консультацию архитектора по построению собственного решения.
- Блог компании VK
- Big Data
- Хранилища данных
Становление концепции Data Driven маркетинга Текст научной статьи по специальности «Экономика и бизнес»
Data Driven организация / Data Driven маркетинг / Data Driven культура / цифровая революция / прогностическая аналитика. / Data Driven Organization / Data Driven Marketing / Data Driven Culture / Digital Revolution / Predictive Analytics.
Аннотация научной статьи по экономике и бизнесу, автор научной работы — Юлдашева Оксана Урняковна, Пирогов Дмитрий Евгеньевич
В статье рассматриваются проблемы становления Data Driven организаций и Data Driven маркетинга в цифровой экономике. Авторы показывают, что Data Driven организация строит процессы принятия решений не на интуиции, а на регулярном и систематическом сборе и анализе данных, а также на их продвинутой аналитике, которая должна носить прогностический характер. Создание Data Driven организаций требует предварительного формирования Data Driven культуры, которая исходит от топ-менеджеров и распространяется на всех сотрудников. Data Driven маркетинг часто является первым шагом к созданию Data Driven организации и так же построен на внедрении специализированных технологий автоматического сбора и обработки клиентских данных. В статье показаны этапы создания Data Driven организации , модель и структура элементов Data Driven маркетинга и мероприятия по его становлению в компании.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по экономике и бизнесу , автор научной работы — Юлдашева Оксана Урняковна, Пирогов Дмитрий Евгеньевич
ПРИМЕНЕНИЕ BIG DATA МАЛЫМ БИЗНЕСОМ В СОВРЕМЕННОМ МАРКЕТИНГЕ
СИСТЕМАТИЗАЦИЯ ФЕНОМЕНОВ ЦИФРОВИЗАЦИИ МАРКЕТИНГА: КОНЦЕПЦИЯ И ПРИМЕР РЕАЛИЗАЦИИ
Классификация ИКТ в маркетинговой деятельности современных предприятий. Влияние ИКТ на эффективность работы предприятий
ОРГАНИЗАЦИЯ CRM-АНАЛИТИКИ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИИ DATA MINING
Цифровой маркетинг как современный тренд
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Data Driven Marketing: Concept Development
The article deals with the problems of the formation of Data Driven organizations and Data Driven marketing in the digital economy. The authors show that a Data Driven organization builds its decision-making processes not on intuition, but on regular and systematic data collection and analysis, as well as on their advanced analytics, which should be predictive in nature. Creating a Data Driven organization requires the preliminary formation of a Data Driven culture that comes from top managers and extends to all employees. Data driven marketing is often the first step towards creating a data driven organization and is also built on the introduction of specialized technologies for the automatic collection and processing of customer data. The article shows the stages of creating a Data driven organization , the model and structure of the elements of Data Driven marketing and measures for its formation in the company.
Текст научной работы на тему «Становление концепции Data Driven маркетинга»
В статье рассматриваются проблемы становления Data Driven организаций и Data Driven маркетинга в цифровой экономике. Авторы показывают, что Data Driven организация строит процессы принятия решений не на интуиции, а на регулярном и систематическом сборе и анализе данных, а также на их продвинутой аналитике, которая должна носить прогностический характер. Создание Data Driven организаций требует предварительного формирования Data Driven культуры, которая исходит от топ-менеджеров и распространяется на всех сотрудников. Data Driven маркетинг часто является первым шагом к созданию Data Driven организации и так же построен на внедрении специализированных технологий автоматического сбора и обработки клиентских данных. В статье показаны этапы создания Data Driven организации, модель и структура элементов Data Driven маркетинга и мероприятия по его становлению в компании.
Ключевые слова: Data Driven организация; Data Driven маркетинг; Data Driven культура; цифровая революция; прогностическая аналитика.
СТАНОВЛЕНИЕ КОНЦЕПЦИИ DATA DRIVEN МАРКЕТИНГА
Юлдашева Оксана Урняковна,
д.э.н., профессор, заведующий кафедрой маркетинга, Санкт-Петербургский государственный экономический университет, член Европейской Академии маркетинга (EMAC); ул. Садовая, 21, г. Санкт-Петербург, Россия, 119571 uldasheva2006@yandex.ru
Пирогов Дмитрий Евгеньевич,
аспирант кафедры маркетинга, Санкт-Петербургский государственный экономический университет;
ул. Садовая, 21, г. Санкт-Петербург, Россия, 119571
Цифровая революция — этот термин отражает переход от аналоговых технологий к цифровым, а также быстрое и повсеместное распространение коммуникационно-информационных технологий, среди которых наиболее трансформационными являются персональные компьютеры, интернет и персональные портативные коммуникационные устройства (типа смартфонов). Начавшись еще в 80-х годах, сегодня цифровая революция вступила в свою решающую фазу, а придавшая ей скорости пандемия способствовала фактически ее полной победе. Современная жизнь прочно связана с цифровым миром, роботами, искусственным интеллектом, big data и всеми другими атрибутами циф-
ровизации, что существенно меняет поведение как потребителей, так и компаний. Компании вынуждены ориентироваться на использование цифровых технологий, сбор и анализ большого количества данных для поддержания своей конкурентоспособности. Именно сектор цифровой экономики растет и создает предпосылки для роста бизнеса.
Так, цифровая экономика растет в 2,5 раза быстрее мирового ВВП. Согласно данным Аналитического центра при правительстве РФ, рост ВВП РФ на горизонте до 2030 года более чем на половину связан с цифровизацией1.
В связи с этим компании активно внедряют новое программное обеспечение, а сектор ИКТ демонстрирует опережающий рост.
В подтверждение этому, результаты 2020 года в России показывают, что отрасль информационно-телекоммуникационных технологий (ИКТ) вошла в число лидеров по динамике валовой добавленной стоимости — рост составил 2,8% (в постоянных ценах) по сравнению с 2019 годом2. Основной рост внутри сектора ИКТ продемонстрировали информационныетехнологии (12,7% роста в постоянных ценах), а также оптовая торговля ИКТ-товарами (30,9% роста). И это на фоне общего падения экономики РФ на 2,8%.
Согласно Gartner, рост сектора ИКТ продолжился и в 2021 году, достигнув по результатам года +8,4% в мировом масштабе3.
На фоне таких событий стремительно меняется мир бизнеса
1 Чукарин А. Цифровая экономика России: оценка и стратегии развития регионов, Аналитический центр при Правительстве РФ,
15.06.2021. https://itforum.admhmao.ru/upload/iblock/d2c/TSifrovaya-ekonomika-Rossii-_CHukarin-A.V._.pdf (08.12.20210).
2 Cектор ИКТ выработал иммунитет к COVID-перегрузкам. Исследование Института статистических исследований и экономики знаний
(ИСИЭЗ) НИУ ВШЭ. https://issek.hse.ru/news/446639217.html (08.12.2021).
3 Gartner: в 2021 году мировой рынок ИТ превысит 4 триллиона долларов, 08.04.2021. https://www.computerworld.ru/news/Gartner-v-
и, конечно, маркетинга. Так, все более популярной становится концепция Data Driven маркетинга и Data Driven организации, которые поддерживают переход в компании к более продвинутому уровню сбора и обработки данных и использованию аналитики. В чем суть данных концепций и как они внедряются в компаниях будет рассмотрено в данной статье.
DATA DRIVEN ОРГАНИЗАЦИЯ
И DATA DRIVEN МАРКЕТИНГ —
В 2021 году один из ведущих академических журналов Journal of Business Research подготовил выпуск, посвященный теме развития Data Driven маркетинга под названием «Marketing in a Data-Driven Digital World» (вып.125, 2021). В установочной статье к данному выпуску Дэниш Шах и Б. Мурси продемонстрировали эволюцию роли маркетинг-аналитики, начиная с акцента на аналитике в рекламе для создания эффективного креатива для клиентов, затем в развитии аналитики для поддержки клиентоцентрич-ности компании и продаже правильного продукта правильному клиенту и в правильное время и далее к использованию в маркетинге биг-дата и технологий искусственного интеллекта [1].
Действительно, в начале 2000-х маркетинг потребовал все больших способностей обработки возросшего объема данных о клиентах, все более актуальной стала работа с большими данными, что коренным образом изменило способ работы маркетинговой функции в организации. Быстрое проникновение Интернета, распространение смартфонов и более широкое использование социальных сетей обеспечили тройной эффект для беспрецедентного
сбора данных, большая часть которых стала поступать из цифровой сферы. Данных стало не только много, их стало легко архивировать и хранить, хранение данных стало все более цифровым, а затраты на хранение быстро снизились. Данные очень быстро превратились в большие данные, которые потребовали новых методов обработки.
Большие данные — термин, который используется для описания больших объемов сложных наборов данных, состоящих как из структурированных, так и неструктурированных данных. Большие данные требуют применения новой нетрадиционной методологии обработки данных. К современным методам обработки данных относят сложные статистико-ма-тематические модели, позволяющие не только прогнозировать будущее с определенной вероятностью, но и предсказывать конкретные последствия и исходы событий при отсутствии и наличии влияния на них со стороны управляющего субъекта. Все более важную роль сегодня играют методы обработки естественной ин-формации,которую маркетологи получают непосредственно из социальных сетей и обрабатывают с помощью современного языка программирования Python.
В современном бизнесе постоянно растут требования к оцифровке маркетинговых данных и их способности отражать влияние маркетинговых действий на прибыль организации. Рост затрат на маркетинг заставляет руководство компаний требовать окупаемости маркетинговых мероприятий. Это также приводит к совершенствованию методов маркетинг-аналитики.
Современный маркетинг 21 века построен на эффективном исполь-
зовании цифровых технологий искусственного интеллекта, машинного обучения, data mining, технологий интеллектуального анализа данных — распознавания лиц и речи, обработки изображений, выявления мошенничества и т.п. Чат-боты, виртуальные помощники и другие технологии, включенные в наши мобильные приложения, программы, клиентские сервисы, помогают покупателям справляться с огромными объемами данных для выбора той информации, которая действительно релевантна и помогает выбирать продукты, отвечающие требованиям потребителей.
Таким образом, используя свою способность собирать и обрабатывать данные для поддержки принятия клиентоориентирован-ных решений, маркетинг постепенно из функции, которая поддерживала в основном рекламный креатив, превратился в функцию, которая активно использует современные цифровые технологии для обеспечения предсказуемых и прибыльных решений для организации, которые поддерживают клиентоцентричность.
Шет и Келлштадт в своей статье делают важный вывод: «В прошлом техники (обработки данных) занимались поиском данных. В будущем данные будут в поиске техник(обработки данных)»[2, стр. 781]. Речь о том, что раньше развивались техники, с помощью которых можно было бы собирать данные, а сейчас нужны техники обработки огромного объема данных, которые могут помочь получить объективное знание и правильно принять решение.
Компания IBM утверждает, что только 0,5% данных о клиентах в реальности когда-либо обрабатывались. Технологии искусственного интеллекта, которые
разрабатывает IBM, нацелены на обработку данных, которые по-другому никогда не будут систематизированы и использованы в бизнесе для улучшения клиентского опыта.
Таким образом, Data driven маркетинг или маркетинг, движимый данными, нацелен на постоянное и как можно более полное и эффективное обеспечение системы принятия решений клиентскими данными, которые при грамотной обработке можно превратить в знания, а значит — в будущий маркетинговый капитал. Знания о клиентах способны приносить прибыль, а значит — клиентские знания становятся важнейшим активом, которым управляет маркетинг.
ПОДХОДЫ К СОЗДАНИЮ DATA
Глобальный институт McKinsey утверждает, что организации, ориентированные на данные, в 23 раза чаще приобретают клиентов, в 6 раз чаще удерживают клиентов и в 19 раз чаще становятся прибыльными4. Такие компании используют данные для поиска идей, меняющих традиционные правила игры. Новые идеи дают новые положительные результаты, такие как улучшение процесса принятия решений, улучшение бизнес-операций и усиление взаимодействия с клиентами.
Такие организации стали называть Insight Driven, а позже Data Driven. Суть этого термина в том, что организация начинает использовать продвинутую аналитику данных, которая позволяет принимать превентивные решения, основанные на предварительных прогнозах [3].
Что же такое продвинутая аналитика? Аналитику можно разделить
на: описательную, прогнозную и предписывающую (Davenport, 2013) [4].
Описательная аналитика помогает организациям анализировать то, что уже произошло или происходило в прошлом. Хранилище данных — типичный пример описательного подхода к сбору и анализу прошлых событий. Прогнозная аналитика помогает организациям обнаруживать ранее неизвестные закономерности в своих данных с помощью инструментов интеллектуального анализа данных. Предписывающая аналитика помогает организациям автоматизировать решения и тем самым извлекать выгоду из ранее обнаруженных инсайтов. Прогнозная и предписывающая аналитики и представляют собой продвинутую аналитику.
Организации обращаются к продвинутой аналитике в надежде обнаружить новые бизнес-идеи и извлечь из них выгоду. Переход к продвинутой аналитике требует навыков и специальных компетенций, которые обычно отсутствуют в организации. Их нужно создать. И тогда компании нанимают специалиста по анализу данных (data scientist), либо обращаются за помощью в специализированную компанию. Но если компания понимает, что она постоянно нуждается в такой аналитике и это становится частью ее процесса принятия решений, то компания должна ставить задачу создания Data Driven Culture (Franks, 2014) [5], следствием которой и станет Data Driven организация (Anderson, 2015) [6].
Лидеры аналитики говорят, что аналитика приносит больше пользы, когда инструменты дают представление о будущем, а не просто хорошо структурируют
прошлое. Прогнозное моделирование, особенно для поддержки инноваций, в настоящее время является наиболее продвинутой стадией эволюции аналитики. Маркетинг же может стать одним из первых подразделений компании, которое перейдет на продвинутую аналитику и таким образом будет стимулировать создание Data Driven Culture и в конечном итоге Data Driven организации.
Таким образом, ключевой компетенцией Data Driven организации являются ее аналитические способности [7].
Переход к Data Driven организации всегда связан с созданием и развитием Data Driven Culture [4], важными элементами которой являются лидерство, информационная стратегия, процессы принятия решений, основанные на данных (а не на интуиции), гибкая структура управления данными. Все это будет способствовать переходу от интуитивного принятия решений к решениям, основанным на данных и их анализе. Этот процесс может оказаться долгим для многих организаций в силу неготовности не столько персонала, сколько самого топ-менеджмента, который должен стать агентом изменений и первым перейти на принятие решений, основанных на данных. Такой пример лидерства может стимулировать других сотрудников последовать примеру руководителя и процесс сдвинется с места.
Практика формирования Data Driven Culture показывает, что обычно все начинается с внедрения в компанию агента изменений в виде нового сотрудника, который и должен создать организацию, движимую данными (цифровой директор). Вокруг этого
4 Five facts: How customer analytics boosts corporate performance. July 01, 2014. McKinsey. https://www.mckinsey.com/ (14.12.2021).
сотрудника собирается команда специалистов, которые разрабатывают информационную (цифровую) стратегию и воплощают ее в жизнь (рис.1, А).
Но так делают крупные компании, которые инвестируют существенные средства в диджитализацию и аналитику. А малый и средний бизнес начинает свой путь в анализ данных с маркетинга, поскольку маркетинг — основная функция, которая ежедневно имеет дело с данными и от того, как эти данные обрабатываются, зависят многие решения, принимаемые в компании.
В связи с этим маркетологи часто становятся зачинщиками процесса создания Data Driven Culture и Data Driven организации, внедряя Data Driven маркетинг. Data Driven маркетинг по аналогии с Data Driven организацией — это маркетинг, построенный на данных, когда все маркетинговые решения принимаются на анализе реальных данных, полученных из различных источников. Поэтому Data Driven маркетинг начинается с автоматизации процессов сбора и обработки маркетинговых данных (рис. 1, Б).
Начинают обычно с простых инструментов — Google Analytics и Яндекс Метрикс, затем внедряют CRM-систему. Многие сегодня используют Data Google Studio, позволяющий визуализировать данные из большого числа таблиц. Для анализа данных CRM-системы обычно дополнительно подключают BI системы.
Поскольку данные становятся все более разнообразными, и растет количество естественной информации (которая формируется естественным путем, а не по предварительному плану исследования), то все чаще компании исполь-
зуют специальные языки программирования типа Python, R, SQL, а также подключают специализированные программы по интеллектуальному анализу данных.
Основная задача Data Driven маркетинга — понять, сколько стоит привлечение клиента и какие каналы наиболее эффективны в этом процессе. Но если компания нацелена на удержание, а не на привлечение, то аналитика концентрируется на анализе поведения потребителей, а также определении наиболее эффективных инструментов поддержания отношений и взаимодействия с клиентом.
Вообще поведенческая аналитика становится все более актуальной для успешного бизнеса. В подтверждении этому в последние годы все активнее развивается концепция интернета поведения.
Под интернетом поведения (IoBB) понимается сбор данных (В/, Big Data, CDPs и т.д.), которые дают ценную информацию о поведении клиентов, их интересах и предпочтениях. Концепция IoBориентиро-вана на понимание данных, собранных в результате онлайн-ак-тивности пользователей, с точки зрения поведенческой психоло-
гии. Если понимание достигнуто, то следующий шаг — как применить эти знания для разработки и продажи новых продуктов, и все это с точки зрения человеческой психологии. Следующий этап 1оВ — это процесс анализа контролируемых пользовательских данных с точки зрения поведенческой психологии. Результаты этого анализа дают представление о новых подходах к проектированию пользовательского опыта (иХ), его оптимизации (ЭХО) и способах продвижения конечных продуктов и услуг, предлагаемых компаниями. Следовательно, для компании провести 1оВ технически просто, но психологически сложно. Это требует проведения статистических исследований, которые отображают повседневные привычки и поведение, не раскрывая полностью частную жизнь потребителей по этическим и юридическим причинам.
Кроме того, концепция 1оВ объединяет существующие технологии, которые ориентированы непосредственно на человека, такие как распознавание лиц, отслеживание местоположения и большие данные. Таким образом, это сочетание трех областей: технологий, анализа данных
Рис. 1. Формирование Data Driven culture в крупных компаниях и в МСП
и поведенческой психологии5. Например, компания — разработчик программного обеспечения BMC разработала приложение для смартфонов, которое отслеживает диету, режим сна, частоту сердечных сокращений или уровень сахара в крови. Приложение может предупреждать о неблагоприятных ситуациях со здоровьем пользователя и предлагать изменения в поведении для достижения более положительного результата.
Gartner прогнозирует, что к концу 2025 года более половины населения мира будет задействовано хотя бы в одной программе IoB.
КЕЙС С КОМПАНИЕЙ KIA MOTORS
Киа Моторс — крупнейший производитель автомобилей в мире и производитель с самой крупной рыночной долей в России. Компания активно использует маркетинговую аналитику для развития своей конкурентоспособности и кли-ентоориентированности.
Интервью с одним из ключевых сотрудников позволило выявить ряд особенностей по построению data driven организации, которые представлены на рисунке 2.
Киа Моторс некоторое время назад поставила задачу создать организацию, движимую данным. Для этого прежде всего она провела аудит всех источников данных и их валидизацию. Дело в том, что исследования в компании сильно децентрализованы. К примеру, продакт-менеджеры компании проводят регулярные клинические тесты до запуска новой модели в производство и тем более в продажу. Клинический тест представляет собой микс количественных и качественных методов, объединяя проверку работы технических
параметров автомобиля, его систем безопасности, включая использование цифровых двойников.
Сотрудники отдела развития оценивают покупательские ожидания относительно дизайна автомобиля, цены и т.п. Отдел маркетинга (коммуникаций) тестирует все, что связано с брендом нового автомобиля: бренд-трэкинг, бренд-воронка — оценка узнаваемости, фамильярити, мнение о бренде, лояльность бренду. Также анализируется полная веб-аналитика интернет-ресурсов, он-лайн-воронка. Для оценки потенциала рынка привлекаются синдикативные исследования — панельные исследования по автомобильному рынку, которые проводят исследовательские компании. Помимо этого, используется статистика ГИБДД для получения данных о регистрации автомобилей. Отдельное направление исследований — опросы aftersale (Voice of the customer) и опросы для определения CSI на разных стадиях покупки, а также результаты использования техники исследования качества обслуживания — Mystery shopper off и online.
Дистрибьюторы также проводят свои исследования и накапливают огромную базу данных
в своих CRM-системах о клиентском трафике и предпочтениях покупателей.
Рост онлайн продаж позволяет очень качественно оценивать эффективность рекламы и идентифицировать похожих пользователей для их последующего тарге-тирования.
Все эти данные могут оказаться разрозненными и не очень согласовываться, что требует проведения процедуры их валидизации, то есть оценки их объективности. Эта процедура может занять много времени.
Следующим шагом является интеграция данных, создание общих БД для предоставления доступа к ним всех заинтересованных лиц, чтобы исключить дублирование и повысить эффективность использования данных.
Наличие интегрированных БД позволяет нанимать специалистов по анализу данных — data scientists. Эти сотрудники являются основными проводниками data driven culture, поскольку внедряют культуру обязательного использования данных в процессе принятия решений.
Дальнейшим шагом к созданию движимой данными организации является оснащение автомобилей
Аудит всех источников данных и их валидизация
Интеграция данных (автоматизация и внедрение ПО)
Формирование Data Driven культуры и внедрение Data scientists
Установка телематики на автомобили и анализ данных по каждому пользователю
Рис. 2. Мероприятия в рамках создания Data Driven организации
5 What is the internet-of-behaviour job and why is it the future? 17.02.2021. Vector (consulting company). https://www.vectoritcgroup.com/ en/tech-magazine-en/ (19.11.2021)
телематикой, которая позволит изучать специфику их использования (или модели потребления). Эти данные помогут компании лучше управлять спросом для обеспечения повторных продаж иуправ-ления жизненным циклом покупателя.
МОДЕЛЬ DATA DRIVEN
Обзор подходов к становлению Data Driven маркетинга позволяет обрисовать его контуры в виде вербальной модели с выделением наиболее важных элементов.
На рисунке 3 представлен процесс принятия маркетинговых решений в рамках концепции Data Driven маркетинга. Начинается все с источников данных, которые использует компания. Источниками данных могут выступать как внутренние данные компании (например, данные CRM-системы, клиентских сервисов, которыми пользуются покупатели, приложений и т.п.), так и внешние данные, находящиеся в общем доступе — например, данные из социальных сетей, различных интернет-ресурсов. Очевидно, что источниками данных могут являться и классические опросы,а также вторичные данные, полученные от исследовательских компаний, служб статистики и т.п. Важно, чтобы данные охватывали как процесс принятия решения о покупке, то есть когда покупатель только ищет и сравнивает информацию для принятия решений, используя при этом различные источники данных, так и процесс потребления. Процесс потребления фиксируют датчики и сенсоры, установленные на смарт-продуктах, которыми пользуются потребители. В этом смысле получают доступ к данным, а значит — и потенциально выигрывают те компании, которые
первыми оснастят свои продукты таким оборудованием.
Следующий этап процесса принятия маркетинговых решений в Data Driven компании — это обеспечение этого процесса технологиями сбора, обработки, хранения и использования данных. Этот этап требует наличия четкой цифровой стратегии и понимания приоритетов в закупке и внедрении тех или иных технологий. Дело в том, что многие компании, внедряя самое современное программное обеспечение, обнаруживают, что не используют все его возможности, что существенно удлиняет сроки окупаемости. Даже внедрение дорогостоящих и многофункциональных CRM-си-стем не всегда оправдано. К примеру, в последнее время неким более продвинутым аналогом CRM-системы является платформа клиентских данных (CDP). Gartner в своем обзоре отмечает, что CDP — это многообещающая технология, но многие маркетологи, внедрившие ее, признают, что фактически используют ее в качестве CRMсистемы и только [8]. Таким образом, в попытке быть первыми в увеличении своих цифровых компетенций компании-лидеры замораживают в качестве инвестиций огромные средства,
которые могли бы использовать с большей отдачей, если бы внедряли только тот функционал цифровых технологий, который реально необходим в соответствии с цифровой стратегией.
Помимо этого, все более насущным становится вопрос использования клиентских данных — вопрос этики. Потребители все более негативно реагируют на использование компаниями персональных данных без их разрешения. Опасения также происходят из того, что основную массу персональных данных контролируют всего несколько цифровых гигантов. Отсюда любая компания, использующая продвинутую аналитику, должна строго соблюдать законодательство в отношении персональных данных и заботиться о сохранении доверия потребителей в отношении использования их данных.
Следующий этап процесса принятия маркетинговых решений — предикативная аналитика, которая требует как использования технологий искусственного интеллекта, так и специальных сотрудников — data scientists, которые самостоятельно строят модели, позволяющие предсказывать результаты тех или иных решений.
Наконец, последним этапом процесса принятия маркетинговых
Рис. 3. Элементы Data Driven маркетинга
решений является выбор окончательного решения на основе аналитики, а не интуиции. Те компании, которые выстроят процессы таким образом, как показано на рисунке 3, и будут являться движимыми данными.
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
Становление компаний и маркетинга, движимого данными, является частью цифровой зрелости организации. Согласно исследованиям консалтинговой фирмы UXSSR, 83% российских компаний находятся на 1-м и 2-м уровне цифровизации, когда у них все еще нет CRM-системы, организо-
ванного сбора и анализа данных, а также возможностей анализировать свою аудиторию и ее нужды6. Такая ситуация свидетельствует о том, что в России все еще можно вести бизнес, не обращая внимания на революцию в области цифровых технологий.
Россия — консервативная страна, и большинство компаний только приглядываются и прицениваются к новым цифровым технологиям. Однако времени остается все меньше, поскольку важны не столько технологии, сколько опыт их применения для создания совершенного клиентского опыта и формирования капитала марке-
тинговых знаний. А опыт невозможно получить быстро, он требует времени, которого остается все меньше и меньше.
В заключении добавим, что цифровые технологии уже завоевали мир, и игнорировать этот факт не удастся никому, особенно бизнесу. Поэтому чем раньше компании примут и будут развивать Data Driven культуру, тем скорее они адаптируются и получат возможность заменить процессы принятия решений, построенные на интуиции и высокой неопределенности, на процессы принятия решений, построенные на продвинутой аналитике.
1. Shah D., MurthiB.P.S. (2021) Marketing in a data-driven digital world: Implications for the role and scope of marketing, Journal of Business Research, March, 125, pp. 784-795.
2. Sheth J., Kellstadt C. (2021) Next frontiers of research in data driven marketing: Will techniques keep up with data tsunami? Journal of Business Research, Marcch 2021, 125, pp. 780-784.
3. De Saulles M. (2018) What exactly means data Driven Organization? CIO, October 28, 2018. https://www.cio.com/ article/3449117/what-exactly-is-a-data-driven-organization.html (23.12.2021).
4. Davenport T.H. (2013) Analytics 3.0. Harvard Business Review (December).
5. Franks B. (2014). The Analytics Culture The Analytics Revolution: Wiley.
6. Anderson C. (2015) Creating a Data-Driven Organization: O’Reilly Media.
7. Brown S. (2020) How to build a data driven company? Sloan School of Management, Sept. 24, 2020. https:// mitsloan.mit.edu/ideas-made-to-matter/how-to-build-a-data-driven-company.
8. Omale G. Top 5 Trends Drive Gartner Hype Cycle for Digital Marketing, 2020, September 1, 2020. https:// www.gartner.com/en/marketing/insights/articles/top-5-trends-drive-gartner-hype-cycle-digital-marketing-2020 (15.12.2021).
Data Driven Marketing: Concept Development Yuldasheva Oksana Urnyakovna,
Doctor of Economics, Professor, Head of the Department of Marketing, St. Petersburg State University of Economics, member of the European Academy of Marketing (EMAC), Sadovaya street 21, St. Petersburg, Russia, 119571 (uldasheva2006@yandex.ru)
Pirogov Dmitry Evgenievich,
post-graduate student of the Department of Marketing, St. Petersburg State University of Economics, Sadovaya street 21, St. Petersburg, Russia, 119571 (pirogovdm@gmail.com)
The article deals with the problems of the formation of Data Driven organizations and Data Driven marketing in the digital economy. The authors show that a Data Driven organization builds its decision-making processes not on intuition, but on regular and systematic data collection and analysis, as well as on their advanced analytics, which should be predictive in nature. Creating a Data Driven organization requires the preliminary formation of a Data Driven culture that comes from top managers and extends to all employees. Data driven marketing is often the first step towards creating a data driven organization and is also built on the introduction of specialized technologies for the automatic collection and processing of customer data. The article shows the stages of creating a Data driven organization, the model and structure of the elements of Data Driven marketing and measures for its formation in the company.
Keywords: Data Driven Organization; Data Driven Marketing; Data Driven Culture; Digital Revolution; Predictive Analytics.
Таксономия «грязных данных»
Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.
Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.
В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.
Это третья статья из цикла
3. Таксономия «грязных данных» 2003 г.
Предисловие
Сегодня крупные корпорации создают корпоративные хранилища данных из разрозненных источников данных для запуска общекорпоративных приложений анализа данных, включая системы поддержки принятия решений, многомерные онлайн-аналитические приложения, интеллектуальный анализ данных и системы управления взаимоотношениями с клиентами. Основная проблема, которая только начинает осознаваться, заключается в том, что данные в источниках данных часто являются «грязными». В широком смысле грязные данные включают в себя недостающие данные, неправильные данные и нестандартные представления одних и тех же данных. Результаты анализа базы данных/хранилища грязных данных могут быть разрушительными и в лучшем случае ненадежными. В данной работе разработана комплексная классификация грязных данных для использования в качестве основы для понимания того, как грязные данные возникают, проявляются и могут быть очищены для обеспечения надлежащего построения хранилищ данных и точного анализа данных. Также изучается влияние грязных данных на интеллектуальный анализ данных.
1. Введение
Сегодня системы хранения данных становятся ключевым элементом корпоративной инфраструктуры информационных технологий. Корпорации признали ценность имеющихся в их распоряжении данных как важного актива, который может сделать их более конкурентоспособными в сегодняшней динамичной бизнес-среде. Объединяя данные из разрозненных источников данных в «центральное» хранилище данных, корпорации могут запускать приложения для анализа данных и получать информацию, имеющую стратегическое и тактическое значение для их бизнеса [TechGuide-1, Ballou and Tayi 99, Inmon 99]. Хранилища данных создаются в различных отраслях промышленности, таких как телекоммуникации, финансовые услуги, страхование, розничная торговля, здравоохранение и т.д. Существует множество программных продуктов, которые помогают в создании хранилищ данных [Golfarelli and Rizzi 99, Inmon 96, Kimball et al 98], анализе данных [Berson and Smith 97], интеллектуальном анализе данных [Berry and Linoff 97, Westphal and Blaxton 98] и управлении взаимоотношениями с клиентами (CRM) [Applied Technology 98, First Logic, TechGuide-2, IBM 99].
Эти приложения основаны на использовании бизнес-аналитики, полученной из хранилищ данных или баз данных, и подчеркивают важность высококачественных данных. Качество данных было предметом давних дискуссий [English 99, Wang et al 95], и на рынке есть даже программные продукты, которые помогают очистить грязные данные [Vality, Trillium, Trillium 98, Williams 97]. Однако только сейчас начинает признаваться, что чрезмерная доля данных в большинстве источников данных является «грязной». Грубо говоря, грязные данные означают либо отсутствующие данные, либо неправильные данные, либо нестандартные представления одних и тех же данных [Williams 97, Cutter 98]. Прежде чем приложения анализа данных будут применены к каким-либо данным, данные должны быть очищены для удаления или восстановления грязных данных. Кроме того, данные из устаревших источников данных (например, программы COBOL на базе мэйнфреймов) даже не имеют метаданных, описывающих их. Насколько нам известно, не существует всеобъемлющей формальной таксономии грязных данных или метрики качества данных. Без такой таксономии или метрики будет трудно с высокой степенью уверенности определить качество бизнес-аналитики, полученной из хранилищ данных, и качество решений, принимаемых на основе такой бизнес-аналитики.
Одной из основных целей и вкладом этой статьи является разработка всеобъемлющей таксономии грязных данных. Таксономия обеспечивает основу для понимания происхождения полного спектра грязных данных и влияния грязных данных на интеллектуальный анализ данных, а также проливает свет на методы работы с грязными данными и определения метрики для измерения качества данных. Мы ожидаем, что такая таксономия послужит ценным ориентиром для дальнейших исследований и совершенствования коммерческих продуктов.
Для целей настоящей статьи мы определяем грязные данные и источники грязных данных следующим образом.
- Жизненный цикл данных включает в себя их сбор, хранение, обновление, передачу, доступ, архивирование, восстановление, удаление и очистку. Основное внимание в нашем исследовании уделяется аспекту доступа пользователя или приложения, которое работает правильно. Таким образом, мы говорим, что данные являются грязными, если пользователь или приложение заканчивает с неправильным результатом или не в состоянии получить результат из-за определенных врожденных проблем с данными.
- Источники грязных данных включают ошибку ввода данных человеком или компьютерной системой, ошибку обновления данных человеком или компьютерной системой, ошибку передачи данных компьютерной системой и даже ошибки в компьютерной системе обработки данных.
Мы ограничиваем объем статьи следующими допущениями.
- Доступ к сохраненным данным осуществляется путем представления образца данных в состоянии запроса. Мы предполагаем, что выборочные данные будут представлены на том же национальном языке и в тех же нотационных стандартах, что и те, которые используются для хранения данных. Например, мы предполагаем, что пользователь или приложение не будут искать французскую нотацию даты в английском поле даты.
- Типы данных, рассматриваемые в этой статье, являются только числовыми и строковыми данными. В частности, мы исключаем из рассмотрения мультимедийные данные. Мультимедийные данные, такие как изображения, аудио и видео, требуют довольно разных соображений, поскольку типы доступа к мультимедийным данным довольно сильно отличаются от тех, которые относятся к буквенно-цифровым данным.
- В этой статье мы рассматриваем только грязные «данные», а не метаданные. Один из авторов этой статьи уже представил таксономию семантической неоднородности метаданных, возникающей при интеграции различных, независимо созданных баз данных [Kim and Seo 91, Kim et al 93].
2. Таксономия «грязных» данных
В таблице 1 приведены наши систематика «грязные» данные. В этом разделе мы описываем таксономию и приводим пример «почти полной» таксономии, описывая логику, лежащую в основе структуры таксономии. Далее мы проиллюстрируем каждую категорию «грязных» данных соответствующими примерами.
Чтобы прийти к «всеобъемлющей» таксономии, мы принимаем стандартный подход «последовательного иерархического уточнения». Ключ состоит в том, чтобы держать фактор разветвления маленьким (2 или 3) везде, где это возможно, в каждом не-листовом узле иерархии таксономии, так что было бы интуитивно очевидно, что нет других значимых дочерних узлов любого данного узла.
Отметим, что наша таксономия основана на предпосылке, что грязные данные проявляются тремя различными способами: недостающие данные, не пропущенные, но неправильные данные, и не пропущенные и не неправильные, но непригодные. Третий способ возникает, когда две или более баз данных интегрированы или стандарты представления не используются последовательно при вводе данных. Таксономия представляет собой иерархическую декомпозицию этих трех основных проявлений грязных данных. Как таковой, каждый последующий уровень. иерархия представляет собой фон проявления грязных данных. Отметим, что некоторые грязные данные проявляют себя как комбинация более чем одного типа грязных данных (например, сцепленные данные в неправильном порядке и с неправильным написанием — «Кеннеди, Джон», а не «Джон Кеннеди»), но наша таксономия включает только «примитивные» типы грязных данных, а не какие-либо «составные» типы грязных данных. Наша таксономия состоит из 33 листовых, или примитивных, грязных типов данных. Мы отмечаем, что, хотя некоторые узлы конечного уровня могут быть дополнительно разложены на «более тонкие типы» грязных данных, мы решили не делать этого, поскольку такое упражнение даст лишь незначительное дополнительное понимание понимания грязных данных.
Как мы покажем в следующем разделе, если мы начнем с разных предпосылок, то получим разные таксономии. Однако набор грязных типов данных в каждой таксономии будет одинаковым. Отметим также, что мы уверены только в том, что наша таксономия может быть примерно на 95% (то есть очень близкой, но не совсем) «всеобъемлющей». (Мы объясним причину нашего хеджирования позже в этом разделе.) Однако тот факт, что наша таксономия не может быть на 100% «всеобъемлющей», не умаляет ее значимости и полезности. (Это станет ясно в разделе 3.)
Таблица 1: Классификация «грязные» данные
Теперь рассмотрим структуру таксономии более подробно. Корневой узел таксономии имеет только два дочерних узла: отсутствующие данные (1) и не-отсутствующие данные (2). Очевидно, что на этом этапе таксономия завершена, поскольку не может быть третьего дочернего узла. Отсутствующие данные — это данные, которые отсутствуют (в поле), когда они не должны отсутствовать. Не-пропущенные данные — это данные, которые введены, правильно или нет, в поле.
Узел пропущенных данных (1) делится на (1.1) пропущенные данные из-за того, что данные неизвестны или им «все равно» (когда разрешены нулевые данные), и (1.2) пропущенные данные, несмотря на то, что пропущенный ввод данных (т. е. Нулевые данные) не разрешен. Ясно, что в отношении пустых данных, разрешенных или нет, не может быть третьего дочернего узла. Отсутствующие данные (1.1) известны как Нулевые данные [Дата 2000]. В этом случае нулевые данные не являются грязными данными. Однако, когда данные становятся известными, нулевые данные должны быть заменены известными правильными данными. Если такая замена не выполняется, данные становятся грязными. Примером отсутствующих данных категории (1.1) является отсутствие «Руководителя сотрудника» (из-за его неизвестности) в записи сотрудника на начальном этапе работы Сотрудника. Примером отсутствующих данных категории (1.2) может быть «идентификационный номер» Сотрудника, который является обязательным для любого Сотрудника.
Вероятностные характеристики нулевых данных рассматривались в литературе в контексте реляционных баз данных. [Codd 1979] предложил трехзначную логику для решения проблемы неопределенности в отношениях и включения нулей в реляционную алгебру для решения проблемы недостающей информации. [Dey and Sarkar 1996] предложили «вероятностную реляционную модель», подход к неопределенности значений данных, основанный на теории вероятностей вместо нулей и трехзначной логики. [Дата 1998] описал системный подход к проблеме недостающей информации, основанный на специальных значениях и двузначной логике вместо нулей и трехзначной логики.
Узел данных (2) делится на две дочерние узлы: неверные данные (а значит непригодными) (2.1) и не-неправильно, но бесполезными данными (2.2). Ясно, что третьего дочернего узла быть не может. Неверные (и поэтому непригодные) данные — это данные, которые отличаются от «истинного значения» данных в момент обращения к ним. Не-неправильные, но непригодные для использования данные — это данные, которые в некотором смысле не являются неправильными, но могут привести к неправильным результатам в запросе или анализе. Примеры неверных данных включают использование символьной строки в поле, требуемым типом данных которого является целое число, 225 для возраста сотрудника, 25 в качестве возраста Сотрудника, когда в той же записи год рождения Сотрудника вводится как 1980 (то есть истинный возраст Сотрудника равен 20), неправильное написание «Президент Клинтон» как «Персидент Клинтон» и т. Д. Примеры не ошибочных, но непригодных для использования данных включают использование названия города «Майами» без указания его штата (Майами-это город как в штате Флорида, так и в штате Огайо), использование аббревиатуры «ste» вместо «suite», использование различных представлений даты (15 апреля, 4/15, 04/15) и т.д.
Не ошибочные, но непригодные для использования данные (2.2) — это грязные данные, возникающие из-за различий между данными, хранящимися в более чем двух независимых базах данных, или из-за неполной или нестандартной спецификации данных в одной базе данных. Например, зарплата Джона Смита в одной базе данных составляет 40000, а в другой — 20000. Каждая информация может быть верной, так как Джон Смит держит две работы. Однако, когда эти две базы данных будут интегрированы, это вызовет путаницу. Например, также, если адрес компании хранится в записи как «ste. 256», но если условие поиска в запросе включает «люкс», то запрос не будет соответствовать сохраненной записи. Аналогично, если запрос ищет сохраненные записи с «15 апреля» в поле даты с помощью условия поиска «4/15», записи с «15 апреля» не будут найдены.
Неправильные данные (2.1) разветвляются на два дочерних узла: неправильные данные, которые могут быть предотвращены с помощью автоматического применения ограничений целостности (2.1.1), и неправильные данные, которые не могут быть предотвращены с помощью автоматического применения ограничений целостности (2.1.2). Очевидно, что в отношении предотвращения неправильных данных путем автоматического применения ограничений целостности не может быть третьего дочернего узла.
Неправильные данные, которые могут быть предотвращены с помощью автоматически исполняемых ограничений целостности (2.1.1), в свою очередь, разделяются на два дочерних узла с точки зрения того, поддерживаются ли такие ограничения в современных системах реляционных баз данных (2.1.1.1) или они требуют теоретически осуществимых расширений для современных систем реляционных баз данных (2.1.1.2). Не может быть третьего дочернего узла в отношении того, поддерживаются или не поддерживаются определенные ограничения целостности базы данных в современных реляционных системах баз данных.
Мы отмечаем, что, хотя мы никоим образом не намерены ограничивать объем грязных данных теми, которые возникают при использовании систем реляционных баз данных, мы решили различать неправильные данные с точки зрения того, могут ли они быть предотвращены методами, поддерживаемыми в современных системах реляционных баз данных. Это просто потому, что современные системы реляционных баз данных предоставляют механизмы, предотвращающие повреждение базы данных 9 типами неправильных данных. Это хорошо зарекомендовало себя в области баз данных за последние три десятилетия. Мы используем этот факт для установления «полноты» одной из основных категорий грязных данных, а именно 2.1.1.1.
В целом, существует два типа механизмов обеспечения целостности баз данных в современных реляционных системах баз данных. Это заданные пользователем ограничения целостности ((2.1.1.1.1) и (1.2)) [Silberschatz et al 97] и управление транзакциями (2.1.1.1.2) [Traiger et al 82, Gray and Reuter 93]. Заданные пользователем ограничения целостности включают ограничение типа данных (или домена) для каждого поля (2.1.1.1.1.1), ограничение ссылочной целостности (или внешнего ключа-первичного ключа) (2.1.1.1.1.2), ограничение уникальности (2.1.1.1.1.3), триггеры (2.1.1.1.1.4) и ограничение Null-not-allowed (1.2). Отметим, что пользователи (разработчики приложений) должны указать эти ограничения, а системы баз данных автоматически применяют их только после того, как они были указаны. Системы баз данных не могут знать, какие ограничения целостности следует применять, поскольку они не знают семантики данных.
Ограничение типа данных определяет тип данных (и даже длину и точность данных), но не содержание данных, которые могут быть введены в поле. Например, если ограничение типа данных на то, что тип данных поля возраст сотрудника является целочисленным, система баз данных запретит ввод строковых данных в это поле. Однако система баз данных не в состоянии определить, является ли возраст конкретного Сотрудника 26 или 25 лет, или даже является ли 225 допустимым возрастом для Сотрудника. Особым типом данных является тип данных «диапазон значений» (например, целое число 18..65 для возраста сотрудника), который может быть использован в некоторой степени для управления содержимым данных. Ограничения типа данных, применяемые в современных реляционных системах баз данных, работают со строковыми данными, булевыми данными и непрерывными числовыми данными. Другими словами, поддержка ограничений типа данных для категориальных данных слаба (мы обсудим это вкратце ниже).
Ограничение ссылочной целостности гарантирует существование логической связи между данными в одной таблице и данными в другой таблице и, таким образом, предотвращает висячую ссылку. Висячая ссылка возникает, когда в одной таблице есть данные, не имеющие аналогов в другой таблице; например, когда в таблице отделов нет названия отдела, когда есть ссылка на это название отдела в поле Отдел таблицы Сотрудник. Ограничение уникальности гарантирует, что все данные в данном поле (или комбинации полей) являются уникальными и ненулевыми, и накладывается на «ключевые» поля (например, номер социального страхования сотрудников).
Большое разнообразие взаимно несогласованных данных (2.1.1.1.1.4) может быть предотвращено с помощью триггеров. Триггер-это правило базовой формы . «Условие» может быть любым логическим выражением, а «действие» — любым действием, которое может выполнить система баз данных. Например, триггер (ЕСЛИ Employee.age > 69, ТО удалить сотрудника) приведет к удалению записи сотрудника, когда возраст сотрудника станет больше 69. Триггер-это мощный механизм, который является более общим, чем для обеспечения ограничений целостности данных в отдельных записях. Из-за общности определяемого пользователем «действия» (и «условия») триггер может быть особенно мощным в обеспечении ограничений целостности, охватывающих несколько таблиц/файлов. Например, ЕСЛИ задание сотрудника обновлено до «менеджер», ТО вставьте новую запись в таблицу Отдел или обновите поле менеджер в таблице Отдел для Отдела Сотрудника и отправьте электронное письмо с объявлением о повышении всем сотрудникам.
Средства управления транзакциями (2.1.1.1.2) в современных системах реляционных баз данных предотвращают четыре других типа неправильных данных: через контроль параллелизма для предотвращения «потерянного обновления» (2.1.1.1.2.1), «грязного чтения» (2.1.1.1.2.2) и «неповторимого чтения» (2.1.1.1.2.3); и через восстановление для предотвращения потерянной транзакции (2.1.1.1.2.4). Мы отмечаем, что средства управления транзакциями гарантируют, что четыре типа грязных данных не возникнут до тех пор, пока компьютерная система, управляющая этими данными, не будет уничтожена. Это действительно сильная гарантия.
Когда две или более транзакции одновременно читают и обновляют одни и те же данные, могут возникнуть два типа аномалий. Потерянное обновление происходит, когда, например, транзакция T1 считывает «количество свободных мест в полете» как 1, назначает его клиенту и уменьшает количество доступных мест до 0, в то время как транзакция T2 одновременно считывает те же данные, назначает их другому клиенту и уменьшает количество доступных мест до 0. В этом случае одно из двух обновлений было потеряно. Грязное считывание данных происходит, когда, например, транзакция T1 увеличивает доступное количество мест из-за отмены с 2 до 3, затем транзакция T2 считывает обновленное доступное количество мест и назначает 3 места 3 клиентам, а затем транзакция T1 прерывается (тем самым отменяя первое обновление). В этом случае транзакция T2 считала «грязные данные» (этот термин используется в контексте управления транзакциями и относится к «незафиксированным» данным внутри транзакции), записанным транзакцией Tl. Когда транзакция Tl читает «количество свободных мест в рейсе» и находит его равным 5, а транзакция T2 обновляет количество мест до 10, чтобы отразить отмену бронирования пяти мест. Если транзакция Tl снова считывает количество мест и обнаруживает, что оно равно 10, считывание считается неповторимым. Неповторимые чтения нежелательны, так как различные чтения означают «грязные данные» (незафиксированные данные), которые могут измениться снова. «Потерянная транзакция» происходит, когда, например, в транзакции перевода средств дебет в размере 200 долларов производится по сберегательному счету, и до того, как 200 долларов зачисляются на расчетный счет, транзакция или компьютерная система выходят из строя. Если система не сможет должным образом восстановиться после сбоя, 200 долларов со сберегательного счета испарятся. Свойства «атомарности и долговечности» транзакций, поддерживаемые средствами управления транзакциями (либо в системах реляционных баз данных, либо в мониторах обработки транзакций [Gray and Reuter 93]), гарантируют, что все обновления в рамках транзакции либо фиксируются, либо резервируются как единое целое (atomic), и что после фиксации транзакции последствия являются постоянными (durable).
Неправильные данные, возникающие из-за несоблюдения ограничений целостности, которые не поддерживаются в современных системах реляционных баз данных, но которые теоретически могут быть поддержаны с помощью расширений для современных систем, (2.1.1.2) разветвляются на три дочерних узла. К ним относятся ограничения целостности, которые возможны для категориальных данных (2.1.1.2.1), временных данных (2.1.1.2.2) и пространственных данных (2.1.1.2.3). Это представление хорошо зарекомендовало себя в области базы данных. Несмотря на три десятилетия исследований временных данных (точка времени, интервал времени, иерархия атрибутов времени) [Snodgrass 95, Etzion et al 98] и пространственных данных (точка, линия, полигон) [Ooi 90, Laurini and Thompson 93, Schneider 97], современные системы реляционных баз данных поддерживают только голый минимум возможностей для этих типов данных. Необходимость поддержки категориальных данных (50 штатов США; статус дохода в терминах «сверхбогатый, богатый, средний доход, бедный, бедный») в последнее время был усилен из-за ограничений в типах входных данных, которые могут принимать алгоритмы интеллектуального анализа данных [Stokes et al 95, Berry and Linoff 97, Berson and Smith 97].
Примеры недопустимых категориальных данных включают категорию, которая не является одной из допустимых категорий, указанных пользователем. Отметим, что мы включаем использование неправильных уровней абстракции (например, «замороженные продукты» или «замороженная пицца» вместо «еда») в качестве типа неправильных категориальных данных. Можно привести случай, когда все потомки узла в иерархии абстракции (это-своего рода иерархия или иерархия обобщения) связаны общей семантикой и поэтому могут использоваться взаимозаменяемо. Однако проблема заключается в том, что сегодня нет системы баз данных (реляционной, объектно-ориентированной или объектно-реляционной), которая поддерживает запросы «обобщения на уровне экземпляра», то есть извлекает любого или всех потомков экземпляра (объекта). Например, невозможно запросить извлечение любого или всех потомков объекта «еда» из любой современной системы баз данных. Поддержка иерархии обобщения в объектно-ориентированных и объектно-реляционных системах баз данных применяется только к метаданным (т. е. иерархии типов), а не к отдельным экземплярам (объектам). Поэтому, если ввести «замороженные продукты» вместо «продукты питания», запрос, ищущий «продукты питания», не найдет «замороженные продукты»; и наоборот. Напомним, что мы определили грязные данные в самом начале как данные, которые приводят к тому, что приложение в конечном итоге не имеет результата или неправильного результата. Поэтому мы решили включить неверные уровни абстракции в качестве неверных данных.
Ограничение временных данных определяет момент времени или интервал времени, в течение которого данные являются действительными (например, зарплата сотрудника, введенная в поле, больше не действительна, когда зарплата сотрудника повышается). Ограничение пространственных данных определяет пространственные отношения, которые должны быть выполнены (например, координаты точек должны объединяться, чтобы получить замкнутый прямоугольник). Пространственное ограничение может включать данные по нескольким полям внутри записи, поскольку координатные данные могут быть заданы в комбинации полей, а не в одном поле. Возможно, что версии объектно-реляционных систем баз данных fiiture [Kim 95, Stonebraker 96] будут обеспечивать собственную поддержку для применения ограничений на временные и пространственные данные, рассматривая их как абстрактные типы данных.
Мы отмечаем, что можно привести доводы в пользу включения того, что мы классифицируем как «различные представления несоставных данных» (2.2.3.1) и «различные представления составных данных» (2.2.3.2) в качестве дочерних узлов (2,1.1.2). Если принять точку зрения, что различные представления одних и тех же данных могут быть предотвращены, если стандартное представление задано и принудительно применено как форма ограничения целостности, то эти типы грязных данных могут рассматриваться как неправильные данные. Однако, если принять точку зрения, что даже если будет применено одно стандартное представление, если будет интегрировано более одной базы данных, различия вызовут конфликт, который должен быть разрешен. Тогда эти различные представления одних и тех же данных действительно не являются ошибочными данными, а просто непригодны для использования до тех пор, пока не будет принят единый стандарт и несоответствующие представления не будут приведены в соответствие. Мы придерживаемся последней точки зрения.
Неверные данные, которые не могут быть предотвращены с помощью автоматически исполняемых ограничений целостности (2.1.2), находятся вне контроля сегодняшней или ближайшей технологии баз данных будущего. К этой категории относятся ситуации, в которых практически невозможно даже указать ограничения целостности. Например, как можно предотвратить неправильное написание слов «принципал» (как принцип), «эффект» (как аффект), «Дэн Сяо-Пин» (как Дон Шоу Пин) и т. Д.? Кроме того, как система обработки данных узнает, без каких-либо проверок перекрестных ссылок, что возраст сотрудника был введен правильно, даже если существует ограничение диапазона значений данных, наложенное на поле возраст? В любом случае этот тип неверных данных делится на неверные данные, встречающиеся в одной таблице или файле (2.1.2.1), и данные, встречающиеся в нескольких таблицах или файлах (2.1.2.2). Что касается того, происходит ли неправильная ошибка в одной таблице или в нескольких таблицах, то ясно, что третьей альтернативы нет.
Неправильные данные в одной таблице (2.1.2.1) разбиваются на два дочерних узла: неправильные данные из-за ошибки ввода данных, связанной с одним полем (2.1.2.1.1), и ошибка ввода данных, возникающая из-за несоответствия данных в более чем одном поле (2.1.2.1.2). Опять же, что касается количества задействованных полей, то не может быть третьего дочернего узла (2.1.2.1).
Мы разлагаем (2.1.2.1.1) на три типа неверных данных (2.1.2.1.1.1 — 2.1.2.1.1.3). Хотя мы не смогли придумать дополнительные дочерние узлы, учитывая «творческий» способ, которым люди могут делать ошибки ввода данных [Vality] и тонкую семантику данных, мы подозреваем, что несколько дополнительных типов неправильных данных могут быть возможны в соответствии с (2.1.2.1.1). Одним из возможных дочерних узлов являются неправильные данные из-за несогласованности данных в нескольких полях. Например, если в поле «возраст» указано 25 лет, а в поле «год рождения» — 1980, то, по крайней мере, одно из данных неверно. Неверные данные, связанные с пространственными данными, как мы видели выше, имеют тенденцию попадать в этот тип. Однако из-за существования неправильного типа данных (2.1.1.1.1.4 взаимно несовместимые данные) мы решили не создавать новый дочерний узел (2.1.2.1.1).
Примером ошибочной записи (2.1.2.1.1.1) является 26 лет для возраста сотрудника, а не 25, из-за скользкого пальца. Неверные данные из-за орфографической ошибки (2.1.2.1.1.2) очевидны. Примером посторонних данных (2.1.2.1.1.3) является запись имени и должности (Джон Уильямс, президент и генеральный директор) в поле «имя».
Неправильные данные из-за ошибки ввода данных, включающей несколько полей (2.1.2.1.2), разбиваются на два узла: ввод в неправильные поля и неправильные данные производного поля из сохраненных данных. Здесь опять же мы подозреваем, что в соответствии с (2.1.2.1.2) возможны некоторые дополнительные типы неверных данных. Примером записи в неправильные поля (2.1.2.1.2.1) является запись уличного адреса в поле «имя». Неправильные данные из-за неправильных данных производного поля (2.1.2.1.2.2) возникают из-за ошибок в вычислении данных для производного поля. Примеры включают неправильный расчет чистого дохода работника путем неправильного расчета налога; и неправильное сочетание адреса улицы, округа, города и штата в неправильном порядке.
Неправильные данные, которые проявляются как разные данные для одной и той же реальной сущности или концепции в нескольких таблицах/файлах (2.1.2.2), возникают из-за того, что ограничения целостности, охватывающие все семантически связанные таблицы, не заданы и не применяются. Примером может служить ситуация, когда число сотрудников, полученное путем подсчета количества записей в таблице Сотрудников, отличается от числа сотрудников, полученного путем суммирования числа сотрудников в каждом Отделе в таблице Отделов. Многие неправильные данные этого типа можно контролировать с помощью триггеров. Но есть ситуации, которые могут быть трудно контролировать с помощью триггеров, особенно когда условие, активирующее часть действия триггера, считывает грязные данные (например, неправильно написанную строку, строку с неполным контекстом).
Не ошибочные, но непригодные данные (2.2) разлагаются на три дочерних узла: непригодные из-за различий между несколькими базами данных (2.2.1), непригодные из-за неоднозначности (2.2.2) и непригодные из-за несоответствия стандартам (2.2.3). Мы не смогли придумать четвертую возможность. Как мы уже отмечали ранее, не-неправильные, но непригодные для использования данные могут рассматриваться как неправильные данные, если такие данные были введены, несмотря на наличие ограничений или политики для принятия единого стандартного представления. Однако если требуется интегрировать более одной независимой базы данных, они становятся непригодными для использования в контексте интегрированной базы данных, даже если каждая из них верна. Можно отметить, что такая же ситуация возникает, если, например, данные были введены в разные базы данных с использованием разных типов данных, различных ограничений целостности, разного количества полей для представления определенных данных (например, домашний адрес сотрудника) и т. Д. Это, конечно, справедливая точка зрения. Однако это вопрос неоднородности на уровне схемы (метаданных) и выходит за рамки данной статьи. Мы отсылаем читателей, заинтересованных в классификации и нейтрализации гетерогенности на уровне схемы, к [Kim and Seo 91, and Kim et al 93].
В качестве примера различных данных для одной и той же организации (2.2.1) данные «зарплата» для Сотрудника могут быть введены в одну базу данных как «54000», в то время как для того же Сотрудника они могут появиться в другой базе данных как «48000». Разница может быть связана с тем, что у Сотрудника есть две работы, и оба «оклада» данные верны.
Неоднозначные данные (2.2.2) декомпозируются на два дочерних узла: неоднозначность из-за использования аббревиатуры (2.2.2.1) и неоднозначность из-за неполного контекста (2.2.2.2). Опять же, мы не смогли придумать другой возможности. Примером неоднозначных данных из-за использования аббревиатуры является «MS», которая может означать «Microsoft», «MicroStrategy», «Morgan Stanley» и т. Д. (как название корпорации). Примеры неоднозначных данных из-за неполного контекста включают вышеупомянутое название города «Майами», которое может находиться в штате Флорида или штате Огайо; и омонимы hot (температура) и hot (специя), pool (бильярд) и (бассейн) и т. д. Некоторые омонимы, вероятно, будут вставлены правильно в одно и то же поле (из разных записей) и могут привести к ошибочным ответам на определенные типы запросов.
Непригодные для использования данные из-за несоответствия стандартам (2.2.3) делятся на два дочерних узла: различные представления несоставных данных (2.2.3.1) и различные представления составных данных (2.2.3.2). Третий дочерний узел невозможен.
Отметим, что существуют различные предложения по представлению неполных данных в контексте реляционных баз данных. Один из них-разрешить многозначные атрибуты наряду с расширенной семантикой реляционных операторов [Buckles and Petry 1982]. Другие пытались включить распределения возможностей, нечеткие множества и грубые множества в реляционные базы данных [Zemenkova and Kandel 1985, Galindo et al 2001, Sozat and Yazici 2001]. Недавно было предложено использовать теоретико-информационную коннекционистскую сеть для обнаружения ненадежных данных в реляционной базе данных [Maimon et al 2001].
Различные представления несоставных данных (2.2.3.1) разветвляются на два дочерних узла: один, для которого алгоритмическое преобразование невозможно (2.2.3.1.1), и один, для которого алгоритмическое преобразование возможно (2.2.3.1.2). Третий дочерний узел невозможен. Различные представления несоставных данных, для которых алгоритмические преобразования невозможны (2.2.3.1.1), включают в себя два дочерних узла: использование аббревиатуры (2.2.3.1.1.1) и использование псевдонима/ника (2.2.3.1.1.2). Одно представление может быть сопоставлено со стандартным представлением только с помощью таблицы сопоставления, адресного каталога и т. Д., и для каждого стандартного представления может быть несколько эквивалентных представлений. Примеры аббревиатура (2.2.3.1.1.1) расположена на шоссе» за «шоссе» и «СТЭ» за «люкс». Примерами псевдонимов или прозвищ (2.2.3.1.1.2) являются «Mopac», «Loop 1» и «Highway 1» для одного и того же шоссе в Остине, штат Техас; Президент Клинтон, Билл Клинтон и Уильям Джефферсон Клинтон для одного и того же человека.
Различные представления несоставных данных, для которых возможны алгоритмические преобразования (2.2.3.1.2), включают в себя три дочерних узла: форматы кодирования (2.2.3.1.2.1), представления (2.2.3.1.2.2) и единицы измерения (2.2.3.1.2.3). Мы не смогли придумать другой возможности. Примерами форматов кодирования являются ASCII и EBCDIC; а также мужчина и женщина в поле пола сотрудника в m и f. Примерами представлений являются отрицательное число (-250 или (250)), валюта (-$250, ($250), -250.39, (250.39)), дата (15 апреля, 4/15), время (1:25:30, 85:30), точность (одиночный против двойная точность), дробь (четверть, восьмая) — то есть, по крайней мере, те, которые поддерживаются в электронной таблице Microsoft Excel. Примерами измерений являются дата (в единицах 100 дней), время (в единицах 15 минут), валюта (в единицах тысячи долларов), расстояние (ярд против метра), вес (фунт против килограмма), площадь (квадратные футы против квадратных метров), объем (галлон против литра) и т.д.
Различные представления составных данных (2.2.3.2) разбиваются на два дочерних узла: объединенные данные (2.2.3.2.1) и иерархические данные (2.2.3.2.2). Объединенные составные данные-это данные, состоящие из двух или более элементов, таких как имя человека (имя, отчество, фамилия) или адрес улицы (номер квартиры, номер, улица). Упорядочение между элементами сцепленных данных имеет важное значение. Однако концептуальная иерархия между элементами не подразумевается; то есть фамилия не «включает» имя, или наоборот. Иерархические составные данные-это в основном сцепленные данные, в которых существует концептуальная иерархия, подразумеваемая среди некоторых элементов данных. Что касается структуры составных данных, то ясно, что третий дочерний узел невозможен.
Отметим, что несоответствие стандартам составных данных может проявляться по-разному. Соответственно, (2.2.3.2.1) и (2.2.3.2.2) разделены на три дочерних узла: сокращенная версия, использование специальных символов и различные порядки. Мы не смогли придумать четвертой возможности. Примером использования сокращенных версий в сцепленных данных является использование имени человека без отчества, например Джон Кеннеди, а не Джон Фицджеральд Кеннеди. Примером использования специальных (разделительных) символов в сцепленных данных является представление телефонного номера (512-249-9759 против 5122499759 против (512) 249-9759). Пример использования различных упорядочений в объединенную данные (Джон Кеннеди и Кеннеди, Джон). Примером использования сокращенных иерархических составных данных является адресная иерархия, уличный адрес-город-штат, а не полная иерархия уличного адреса-город — округ-штат-почтовый индекс. Примером использования специальных символов в иерархических составных данных является (Texas, Williamson, Austin vs. Техас, (Уильямсон), Остин). Примером использования различных порядков для иерархических составных данных является (Texas, Williamson, Austin vs. Остин, Уильямсон, Техас).
3. Таксономия методов работы с с «грязными» данными
Систематика грязных данных, которую мы разработали в разделе 2, сразу же приобретает значительную ценность. В таблице 2 представлена таксономия грязных данных таблицы 1 с кратким описанием методов предотвращения, проверки или исправления каждого типа грязных данных. Печальный вывод, который можно легко сделать из изучения таблицы 2, заключается в том, что коммерческие инструменты качества данных сегодня не обращаются ко многим типам грязных данных, и большинство типов грязных данных требуют «глазного наблюдения», то есть проверки и ремонта людьми, имеющими опыт в области анализа данных.
Таблица 2. Таксономия работы с «грязными» данными
Мы отмечаем, что из 33 типов «грязных» данных конечного уровня, по крайней мере, 25 из них требуют вмешательства эксперта домена сегодня. Из 33 типов грязных данных конечного уровня только 9 могут быть предотвращены автоматически (1.2, 2.1.1.1.1.1-2.1.1.1.1.4 и 2.1.1.1.2.1-2.1.1.1.2.4); и 8 из 9 требуют, чтобы пользователи указывали ограничения (единственным исключением является 2.1.1.1.2.4 предотвращение потерянных транзакций).
Различные коммерческие программные средства для создания хранилищ данных или преобразования данных для многомерного анализа или интеллектуального анализа данных предоставляют несколько способов замены отсутствующих данных (1.1) [SAS 99]. Они обычно позволяют пользователям заменять отсутствующие данные в поле средним значением (среднее арифметическое), медианным значением (50-й процентиль), средним значением (среднее значение диапазона между максимальным и минимальным значениями) и т.д.
Коммерческие инструменты качества данных, такие как Trillium, First Logic и Vality, разрабатывались на протяжении многих лет и оказались весьма полезными при преобразовании имен и адресов в нескольких странах в их стандартные и полные представления с помощью общестрановых каталогов имен и адресов [Vality, First Logic, Trillium]. Например, эти инструменты могут даже обнаруживать и исправлять неправильно введенные уличные адреса. Однако их полезность в значительной степени ограничивается помощью в выявлении ошибочных и нестандартных форм имен и адресов. В нашей таксономии они применимы только к 11 типам грязных данных листового уровня: (2.1.2.1.1.2 — орфография с ошибками), (2.2.2.1 — двусмысленность из-за использования аббревиатуры), (2.2.2.2.2 — двусмысленность из-за неполного контекста), (2.2.3.1.1.1-нестандартное соответствие с использованием аббревиатуры), (2.2.3.1.1.2 — нестандартное соответствие с использованием псевдонимов/псевдонимов), (2.2.3.2.1.1-2.2.3.2.1.3 — объединенные составные данные) и (2.2.3.3.2.1.1).через 2.2.3.2.2.3-иерархические составные данные). Они даже не способны справиться со всеми или большинством ситуаций в любом из этих 11 грязных типов данных.
Пять неправильных типов данных можно предотвратить, установив определенные пользователем ограничения целостности, применяемые системами обработки баз данных и транзакций, как мы показали в предыдущем разделе. Это (1.2 — отсутствующие данные, где Null не допускается), (2.1.1.1.1.1 — неправильный тип данных для поля), (2.1.1.1.1.2 — висячая ссылка, где она не допускается), (2.1.1.1.13 — дублированные данные, где дублирование не допускается) и (2.1.1.1.1.4 — сложные ограничения, применяемые через триггер). Когда эти типы неверных данных вводятся в базу данных, и нет метаданных, описывающих такие ограничения, метод, известный как «профилирование данных» [Olson], может быть использован для вывода таких ограничений (т. е. метаданных) из данных. Из-за наличия грязных данных или отсутствующих данных профилирование данных может вывести только статистическую вероятность ограничений. Профилирование данных, как правило, требует повторного сканирования всех записей в таблице и занимает много времени. Есть какие-то данные инструменты профилирования на рынке, например, вызывают программного обеспечения [Olson].
Четыре неправильных типа данных, (2.1.1.1.2.1), (2.1.1.1.2.2), (2.1.1.1.2.3) и (2.1.1.1.2.4), могут быть предотвращены путем использования средств управления транзакциями, которые предусмотрены в системе баз данных или мониторах обработки транзакций. Средства управления транзакциями включают в себя двухфазный механизм блокировки, несколько уровней изоляции (транзакции от других параллельных транзакций) и механизм восстановления на основе журнала.
Ограничения целостности могут быть определены для категориальных, временных и пространственных данных в определяемых пользователем методах для использования в предотвращении или исправлении неправильных типов данных (2.1.1.2.1), (2.1.1.2.2) и (2.1.1.2.3) соответственно. Объектно-ориентированные системы баз данных или объектно-реляционные системы баз данных обеспечивают инфраструктуру для поддержки таких пользовательских методов, но не реляционные системы баз данных.
Большинство неправильных типов данных (2.1.2) могут быть исправлены или предотвращены только вручную или полуавтоматически человеческими экспертами. Некоторые из них можно починить или предотвратить с помощью инструментов. Например, неверные данные из-за орфографических ошибок (2.1.2.1.1.2) можно проверить, запустив проверку орфографии; но проверка орфографии не обнаруживает всех типографских ошибок и часто не может обнаружить ошибки, например, в именах и адресах людей.
Использование каталога имен и адресов, телефонного справочника, таблиц преобразования и тезауруса в значительной степени полезно для восстановления или проверки не ошибочных, но непригодных для использования данных (2.2). Однако они не могут быть использованы для восстановления или проверки всех типов непригодных данных, и эксперты домена должны вмешаться. Как правило, эксперты домена проверяют и восстанавливают непригодные данные, используя эти средства в качестве инструментов.
4. Влияние «грязных» данных на интеллектуальный анализ данных
Если «высокая» доля набора данных, на котором работает алгоритм интеллектуального анализа данных, является грязной, очевидно, что нельзя ожидать точных результатов. «Грязные» данные оказывают различное негативное влияние на алгоритмы интеллектуального анализа данных. Однако трудно количественно или определенно охарактеризовать влияние из-за статистической природы вычислений, выполняемых алгоритмами, преобразований данных, которые требуют некоторые алгоритмы, различных допусков на шум (грязные или исключительные данные) различными алгоритмами и характера приложений, для которых выполняются алгоритмы.
Для понимания влияния грязных данных на алгоритмы интеллектуального анализа данных грязные данные всех типов могут быть сведены просто к неправильным данным, которые, в свою очередь, могут быть классифицированы на неправильные числовые данные, неправильные строковые данные и отсутствующие данные. Некоторые алгоритмы интеллектуального анализа данных, такие как ассоциативные правила, могут использовать числовые или строковые данные «как есть», то есть без необходимости их предварительного преобразования в другой формат. Однако алгоритмы интеллектуального анализа данных, такие как нейронные сети, требуют преобразования данных любого типа в числовые данные от 0 до 1. Такие алгоритмы, как деревья решений, требуют преобразования данных в категориальные. Недостающие данные могут быть просто исключены из вычислений или заполнены данными, автоматически генерируемыми компонентом очистки данных алгоритма интеллектуального анализа данных.
Неверные числовые данные (10 000 вместо 1000) или неверные строковые данные («Нью-Йорк» вместо «Нью-Джерси») или отсутствующие данные при использовании без преобразования, вероятно, будут способствовать получению ненадежного результата в зависимости от доли неверных или отсутствующих данных относительно всего набора данных. Неправильные числовые данные или неправильные строковые данные при преобразовании в категориальные данные или числовые данные между 0 и 1 также могут попасть в неправильную категорию или неправильное числовое представление. Недостающие данные, независимо от того, исключаются ли они из расчета или заполняются какими-то «репрезентативными» данными, также могут способствовать неверному результату. Очевидно, что если доля грязных данных, которые приводят к неправильному преобразованию, или доля отсутствующих данных «высока» по отношению ко всему набору данных, результаты интеллектуального анализа данных, скорее всего, будут ненадежными. Однако величина ошибки относительно преобразования данных также имеет значение. Например, числовые данные, представляющие зарплату, 75 500 вместо 75 400, при преобразовании в категориальные данные в гранулах 10 000, не повлияют на результат; но 100 000 вместо 10 000 повлияют.
Влияние грязных данных также зависит от алгоритмов интеллектуального анализа данных. Некоторые алгоритмы интеллектуального анализа данных, такие как деревья решений, нейронные сети и байесовские сети, требуют обучения (а также тестирования и оценки). Наличие высокой доли грязных данных в обучающем наборе данных и/или тестовом наборе данных, вероятно, сделает полученную модель менее надежной. Если набор данных не должен быть должным образом очищен перед использованием для обучения и тестирования модели, следует использовать по крайней мере больший набор данных, чтобы уменьшить влияние грязных данных. Известно, что деревья принятия решений восприимчивы к шумам, особенно если они имеют более высокий порядок, чем два (бинарные деревья) [Berry and Linoff 97]. Известно также, что нейронные сети восприимчивы к шумам. Байесовские сети относительно менее чувствительны к шумам, возникающим из-за отсутствия данных, заполняя их с помощью методов выборки и распределения. Некоторые алгоритмы интеллектуального анализа данных, такие как рассуждение на основе памяти (алгоритм K- means) и автоматический кластерный анализ (алгоритм K-средних), требуют формулировки и использования функций расстояния, мер ассоциации и сходства. Функции расстояния и меры ассоциации и сходства вычисляются на основе данных в наборе данных. Если данные, используемые при их вычислении, грязны, они, в свою очередь, ошибочны, и результаты алгоритмов становятся ненадежными.
Даже для одного и того же алгоритма интеллектуального анализа данных влияние грязных данных зависит от приложения. Например, приложение, нацеленное на обнаружение определенных общих паттернов, более терпимо к грязным данным, чем приложение, нацеленное на обнаружение некоторых редко встречающихся паттернов. В некоторых ситуациях основной интерес представляет небольшое количество внешних данных (например, обнаружение отказов автомобильных деталей). В таких ситуациях «очень низкая» доля «грязных» данных напрямую приводит к неверным результатам.
5. Заключительные замечания
В этой статье мы разработали то, что мы считаем почти полной таксономией грязных данных, и исследовали влияние грязных данных на результаты интеллектуального анализа данных. Мотивацией для исследования является появление систем бизнес-аналитики, таких как системы управления взаимоотношениями с клиентами, системы поддержки принятия решений, системы многомерного анализа данных (или системы онлайн-аналитической обработки) и системы интеллектуального анализа данных. Все эти системы предназначены для доступа к базе данных или хранилищу данных и извлечения сохраненных данных с помощью стандартных запросов, получения сводных данных с различных точек зрения на определенные данные измерения (например, выручка от продаж, себестоимость продаж, продажи единиц продукции) или извлечения непредвиденных закономерностей.
До недавнего времени корпорации были заняты созданием хранилищ данных или витрин данных (ведомственных хранилищ данных) и применением на них приложений для анализа данных. Однако ценность чистых или качественных данных для использования такими приложениями только сейчас получает пристальное внимание. Сегодня, насколько нам известно, не существует всеобъемлющей таксономии грязных данных. Наша цель состояла в том, чтобы сформулировать таксономию «грязных» данных таким образом, чтобы она обеспечила основу для систематического понимания охвата таксономии доступными технологиями очистки «грязных» данных и для установления метрики для количественной оценки качества данных в больших и сложных наборах данных.
Приняв стандартную методику последовательного иерархического уточнения, мы попытались доказать очень близкую «полноту» нашей таксономии грязных данных. После разработки таксономии мы провели систематический анализ «покрытия» таксономии имеющимися технологиями предотвращения и восстановления грязных данных и обнаружили, что современные технологии не затрагивают даже половины типов грязных данных, которые мы смогли установить в нашей таксономии.
Задача, стоящая перед исследователями, поставщиками качественных продуктов данных и потребителями и собирателями наборов данных, теперь ясна. Необходимо разработать новые методы для значительного увеличения охвата таксономии грязных данных. Метрики для количественной оценки качества данных должны быть разработаны для использования при измерении качества данных в наборах данных, а также для руководства сбором и очисткой наборов данных.
Acknowledgements
We thank the anonymous referees, Heikki Mannila, Raghu Ramakrishnan, and Jung-Won Lee (Ewha University, Korea) for their helpful comments. Their comments helped to improve the contents of the paper.
References
[Applied Technology 98] The Applied Technology Group, «Building a Successful CRM Environment», White Paper, http://www.techguide.com/, The Applied Technology Group, 1998.
[Ballou and Tayi 99] D. Ballou and G.K. Tayi, «Enhancing Data Quality in Data Warehouse Environments», Communications of the ACM, vol. 42, no. 1, pp. 73-78, Jan. 1999.
[Berry and Linoff 97] M. Berry and G. Linoff, Data Mining Techniques for Marketing, Sales and Customer Support, John Wiley and Sons, 1997.
[Berson and Smith 97] A. Berson and S. Smith, Data Warehousing, Data Mining, and OLAP (Data Warehousing/Data Management), Computing McGraw-Hill, 1997.
[Buckles and Petry 1982] B. Buckles and E. Petry, «A Fuzzy Representation of Data for Relational Databases», Fuzzy Sets and Systems, vol. 7, pp. 213-226, 1982,
[Codd 1979] E.F. Codd, «Extending the Database Relational Model to Capture More Meaning», ACM Transaction on Database Systems, vol. 4, no.4, December 1979.
[Cutter 98] Cutter Information Corporation, «Data Management Strategies Newsletter on the State of the Data Warehousing Industry», Management Science 31, pp. 150-162, Feb.1998.
[Date 1998] C. Date, «Faults and Defaults», (in five parts), in Relational Database Writing 1994- 1997 C.J.Date, H.Darwen, and D.McGoveran (eds), Addison-Wesley, 1998.
[Date 2000] C. Date. An Introduction to Database Systems, 7 th edition, Addison-Wesley, 2000.
[Dey and Sarkar 1996] D.Dey and S.Sarkar, «A Probabilistic Relational Model and Algebra», ACM Transactions on Database Systems, vol. 21, no. 3, September, 1996.
[English 99] L. English, Improving Data Warehouse and Business Information Quality-Method for Reducing Costs and Increasing Profits, Wiley & Sons, 1999.
[Etzion et al 98] O. Etzion, S. Jajodia and S. Sripada (Eds.^), Temporal Databases : Research and Practice, Lecture Notes in Computer Science, 1399, Springer Verlag, 1998.
[First Logic] First Logic Inc., «Customer Data Quality- Building the Foundation for a One-to-One Customer Relationship», White Paper, http://www.firstlogic.com/.
[Galindo et al 2001] J. Galindo; J. M. Medina, and M. Aranda-Garrido, «Fuzzy Division in Fuzzy Relational Databases: An Approach», Fuzzy Sets and Systems, vol. 121, pp. 471 -490, 2001
[Golfarelli and Rizzi 99] M. Golfarelli and S. Rizzi, «Designing the Data Warehouse: Key Steps and Crucial Issues», Journal of Computer Science and Information Management, vol.2, no. 3,1999.
[Gray and Reuter 93] J. Gray and A. Reuter, Transaction Processing: Concepts and Techniques, Morgan Kaufmann, 1993.
[IBM 99] IBM NUMA-Q, «Modeling Customer Relationship», White Paper, http://www.sequent.com/solutions/crm/whitepapers/mcr wp.htmh IBM NUMA-Q,
[Inmon 96] W.H. Inmon, Building the Data Warehouse, John Wiley & Sons, 1996.
[Inmon 99] W.H. Imnon, Data Warehouse Performance, John Wiley & Sons, 1999.
[Kim and Seo 91] W. Kim, and JY Seo. «On Classifying Schematic and Data Heterogeneity in Multidatabase Systems», IEEE Computer, December 1991.
[Kim et al 93] W. Kim, IJ Choi, S. Gala, M. Scheevel. «On Resolving Schema Heterogeneity in Multidatabase Systems», Distributed and Parallel Databases, an International Journal, Kluwer Academic Publishers, 1993.
[Kim 95] W. Kim, Modern Database Systems, ACM Press, 1995.
[Kim et al 99] W. Kim, KJ Chae, DS Cho, BJ Choi, M Kim, KH Lee, MJ Lee, SH Lee, SS Park, HS Yong, «A Component-Based Knowledge Engineering Architecture», Journal of Object-Oriented Programming, vol.12, no. 6, pp. 40-48, 1999.
[Kimball et al 98] R. Kimball, et al., The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses, John Wiley & Sons, 1998.
[Laurini and Thompson 93] R. Lauriniand D. Thompson, Fundamentals of Spatial Information Systems (A.P.I.C. Series, No 37), Academic Press, 1993.
[Maimon et al 2001] O. Maimon, A. Kandel, and M. Last, «Information-Theoretic Fuzzy Approach to Data Reliability and Data Mining», Fuzzy Sets and Systems, vol. 117 pp. 183-194, 2001
[Olson] J. Olson, «Data Profiling», White Paper, Evoke — Software Corporation http://www.evokesoft.com/products/ProdWPDP.html.
[Ooi 90] B. Ooi, Efficient Query Processing in Geographic Information Systems, Lecture Notes in Computer Science, Springer-Verlag, 1990.
[SAS 99] SAS Institute Inc., «Finding the Solution to Data Mining — a Map of the Features and Components of SAS Enterprise Miner Software version 3», White Paper, http ://www.sas.com, 1999.
[Schneider 97] M. Schneider, Spatial Data Types for Database Systems: Finite Resolution Geometry for Geographic Information Systems, Lecture Notes in Computer Science, 1288, Springer Verlag, 1997.
[Silberschatz et al 97] A. Silberschatz, H. Korth and S. Sudarchan, Database System Concepts, McGraw-Hill, 1997.
[Snodgrass 95] R. Snodgrass (ed), The TSQL2 Temporal Query Language, Kluwer Academic Publishers, 1995.
[Sozat and Yazici 2001] M. I. Sozat and A. Yazici, ‘A Complete Axiomatization for Fuzzy Functional and Multivalued Dependencies in Fuzzy Database Relations», Fuzzy Sets and Systems, vol. 117, pp. 161-181, 2001
[Stokes et al 95] M.E. Stokes, C.S. Davis and G.G. Koch, «Categorical Data Analysis Using the SAS System», SAS Institute, Inc., 1995.
[Stonebraker 96] M. Stonebraker, Object-Relational DBMSs: The Next Great Wave, Morgan Kauftnann Publishers, 1996.
[TechGuide-1] The Technology Guide Series, «A Practical Guide to Achieving Enterprise Data Quality-Trillium Software», White Paper, http://www.techguide.com/.
[TechGuide-2] The Technology Guide Series, «Achieving Business Success through Customer Relationship Management (CRM)-Mosaix», White Paper, http://wwwdechguid.e.com/.
[Traiger et al 82] I. Traiger, J. Gray, C. A. Galtieri and B. Lindsay, ‘Transactions and Consistency in Distributed database systems», ACM Trans, Database Systems, vol. 7, no. 3 pp. 323 — 342, Sep. 1982.
[Trillium] Trillium Software User Manual
[Trillium 98] Trillium Software System, «A Practical Guide to Achieving Enterprise Data Quality» White Paper, http://www.trilliumsoft.com/, Trillium Software, 1998.
[Vality] Vality Technology Inc., «The Five Legacy Data Contaminants You Will Encounter in Your Warehouse Migration» White Paper, http://www.valitv.com/.
[Wang et al 95] R. Wang, V. Storey and C. Firth, «A Framework for Analysis of Data Quality Research» IEEE Transactions on Knowledge and Engineering, vol. 7, no. 4, pp. 623- 640, Aug. 1995.
[Westphal and Blaxton 98] C. Westphal and T. Blaxton, Data Mining Solutions: Methods and Tools for Solving Real-World Problems, John Wiley & Sons, 1998.
[Williams 97] J. Williams, «Tools for Traveling Data» DBMS, Miller Freeman Inc., June 1997.
[Zemankova and Kandel 1985] M. Zemankova and A. Kandel, «Implementing Imprecision in Information Systems», Information Sciences, vol. 37, pp. 107-141,1985
- dirty data data cleansing
- data quality
- грязные данные
- очистка данных
Big data и цифровая датификация как техносоциальный феномен. К вопросу формирования научно-теоретической рамки исследования Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»
Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Шилина Марина Григорьевна
Научная проблематика. В 2010-х годах цифровизация формирует феномен больших данных (англ. big data) в развитых экономиках. Цифровая датификация инспирирует количественные и качественные изменения во всех сферах жизнедеятельности, которые до сего дня не изучены комплексно. Датификация инспирирует идеи невозможности формирования устойчивых научно-теоретических концепций, «конца теории» как таковой [Anderson, 2008] Методология. Целью исследования является формирование целостного научно-теоретического представления феномена цифровой датификации в социальном контексте на основе системно-функционального анализа его характеристик на новейшем этапе в рамках ответа на два научные вопроса: RQ1: Каковы характеристики и особенности цифровой датификации в новейших форматах? RQ2: Какие трансформации инспирирует цифровая датификация в современном социуме? Впервые предлагается исследование цифровой датификации в концептуальной рамке поворота и фиксируется ее онтологическая сущность как поворота универсального типа. Результаты. В статье представлены результаты научно-теоретического исследования феномена больших данных в новейших форматах интернета всего и интернета бионановещей. Автор, в рамках решения научной проблемы концептуализации сущности больших данных, определяет их как биотехносоциальный феномен. Выявляются точки бифуркации , которые обусловливает цифровая датификация в обществе, в частности представлено и дефиницировано датифицированное цифровое неравенство; выявлен априорный уровень угроз безопасности в сфере персональных данных. Впервые вводится в научный обиход ряд понятий, в частности человек датифицированный, Homo datus. Представлен ряд научно-теоретических и научно-практических рекомендаций в рамках реализации национальной программы «Цифровая экономика» (2017-2015). Заключение. Большие данные сегодня есть новейшая государственная стратегия «Большой» России в условиях цифровой экономики. Научно-теоретические исследования датификации в социальном контексте позволяют выявить ряд точек бифуркации и потенциальных угроз и конфликтов при реализации программы: персональных, социальных, экономических и т.д., и купировать их.
i Надоели баннеры? Вы всегда можете отключить рекламу.
Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Шилина Марина Григорьевна
Справедливость в информационной области: этический аспект Big Data
Роль и значение библиотеки в современном информационном пространстве
Эволюция концепций цифровой экономики как феномена неоэкономики
К вопросу о содержании понятия и особенностях онтологии энергетического интернета и его правового и технологического образов
Технологии Big Data в современных политических процессах: цифровые вызовы и угрозы
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.
BIG DATA AND DIGITAL DATING AS A TECHNO SOCIAL PHENOMENON. TOWARDS THE SCIENTIFIC AND THEORETICAL FRAMEWORK OF THE RESEARCH
Background. In 2010, in developed economies digitalization forms the phenomenon of big data. The digital datification inspires quantitative and qualitative changes in all spheres of life. These transformations have not been studied in a complex way till now. In fact, datafication inspires the idea of the impossibility of stable scientific and theoretical concepts, the «end of the theory» as such [Anderson, 2008]. Methods. The aim of the research is to form a holistic theoretical representation of the phenomenon of digital datafication in a social context on the basis of systemic and functional analysis of its characteristics at the newest stage. The paper answers 2 RQ: RQ1: What are the characteristics of digital datafication in the latest formats; RQ2: What kind of transformation inspires digital datafication in today’s society. For the first time, it is proposed to study digital dating in the conceptual framework of turn and fix its ontological essence. Results. The article presents the results of a theoretical study of the phenomenon of big data in the newest formats of the Internet of Everything and the Internet of the Bio Nano Things. The author defines big data as a biotechnosocial phenomenon and define digital datafication as a turn of the universal type. The paper presents the points of bifurcation in datafied society. Security threats in the field of personal data and datafied digital divide are presented and defined. For the first time, a number of concepts are introduced, in particular, Homo datus. A number of theoretical and practical recommendations within the framework of the national program «Digital Economy» (2017-2015) are presented. Conclusion. Big data is the state strategy of «Big» Russia in the national model of digital economy. Theoretical studies of datafication in a social context allow us to identify the points of bifurcation and provide practical recommendations for managing potential conflicts: personal, social, economic, etc.
Текст научной работы на тему «Big data и цифровая датификация как техносоциальный феномен. К вопросу формирования научно-теоретической рамки исследования»
8. ФИЛОСОФИЯ НАУКИ И ТЕХНИКИ (СПЕЦИАЛЬНОСТЬ 09.00.08)
8.1. BIG DATA И ЦИФРОВАЯ ДАТИФИКАЦИЯ КАК ТЕХНОСОЦИАЛЬНЫЙ ФЕНОМЕН. К ВОПРОСУ ФОРМИРОВАНИЯ НАУЧНО-ТЕОРЕТИЧЕСКОЙ РАМКИ ИССЛЕДОВАНИЯ1
Шилина Марина Григорьевна, д-р филол. наук, профессор Место работы: РЭУ им. Г.В. Плеханова
Научная проблематика. В 2010-х годах цифровизация формирует феномен больших данных (англ. big data) в развитых экономиках. Цифровая датификация инспирирует количественные и качественные изменения во всех сферах жизнедеятельности, которые до сего дня не изучены комплексно. Датификация инспирирует идеи невозможности формирования устойчивых научно-теоретических концепций, «конца теории» как таковой [Anderson, 2008]
Методология. Целью исследования является формирование целостного научно-теоретического представления феномена цифровой датификации в социальном контексте на основе системно-функционального анализа его характеристик на новейшем этапе в рамках ответа на два научные вопроса: RQ1: Каковы характеристики и особенности цифровой датификации в новейших форматах? RQ2: Какие трансформации инспирирует цифровая датификация в современном социуме? Впервые предлагается исследование цифровой датификации в концептуальной рамке поворота и фиксируется ее онтологическая сущность как поворота универсального типа.
Результаты. В статье представлены результаты научно-теоретического исследования феномена больших данных в новейших форматах интернета всего и интернета бионановещей. Автор, в рамках решения научной проблемы концептуализации сущности больших данных, определяет их как биотехносоциальный феномен. Выявляются точки бифуркации, которые обусловливает цифровая датификация в обществе, в частности представлено и дефиницировано датифицированное цифровое неравенство; выявлен априорный уровень угроз безопасности в сфере персональных данных. Впервые вводится в научный обиход ряд понятий, в частности человек датифи-цированный, Homo datus. Представлен ряд научно-теоретических и научно-практических рекомендаций в рамках реализации национальной программы «Цифровая экономика» (2017-2015).
Заключение. Большие данные сегодня есть новейшая государственная стратегия «Большой» России в условиях цифровой экономики. Научно-теоретические исследования датификации в социальном контексте позволяют выявить ряд точек бифуркации и потенциальных угроз и конфликтов при реализации программы: персональных, социальных, экономических и т.д., и купировать их.
Ключевые слова: цифровая датификация, датифицированное общество, человек датифицированный/Homo datus, датифицированный поворот, датифицированное цифровое неравенство, точка бифуркации.
BIG DATA AND DIGITAL DATING AS A TECHNO SOCIAL PHENOMENON. TOWARDS THE SCIENTIFIC AND THEORETICAL FRAMEWORK OF THE RESEARCH
Shilina Marina G., DrSc in Phylology, Professor
Place of employment: Plekhanov Russian University of Economics
Background. In 2010, in developed economies digitalization forms the phenomenon of big data. The digital datification inspires quantitative and qualitative changes in all spheres of life. These transformations have not been studied in a complex way till now. In fact, datafication inspires the idea of the impossibility of stable scientific and theoretical concepts, the «end of the theory» as such [Anderson, 2008].
Methods. The aim of the research is to form a holistic theoretical representation of the phenomenon of digital datafication in a social context on the basis of systemic and functional analysis of its characteristics at the newest stage. The paper answers 2 RQ: RQ1: What are the characteristics of digital datafication in the latest formats; RQ2: What kind of transformation inspires digital datafication in today’s society. For the first time, it is proposed to study digital dating in the conceptual framework of turn and fix its ontological essence.
Results. The article presents the results of a theoretical study of the phenomenon of big data in the newest formats of the Internet of Everything and the Internet of the Bio Nano Things. The author defines big data as a biotechnosocial phenomenon and define digital datafication as a turn of the universal type. The paper presents the points of bifurcation in datafied society. Security threats in the field of personal data and datafied digital divide are presented and defined. For the first time, a number
of concepts are introduced, in particular, Homo datus. A number of theoretical and practical recommendations within the framework of the national program «Digital Economy» (2017-2015) are presented.
Conclusion. Big data is the state strategy of «Big» Russia in the national model of digital economy. Theoretical studies of da-tafication in a social context allow us to identify the points of bifurcation and provide practical recommendations for managing potential conflicts: personal, social, economic, etc.
Keywords: digital datafication, datafied society, datafied person/ Homo datus, data turn, datafied digital divide, point of bifurcation.
Экспоненциальный рост цифровой информации формирует феномен, который с 2008 года2 обозначают маркетинговой метафорой «большие данные» (англ. big data). Большие данные являются вторым по значимости трендом развития современного общества (после виртуальности) [McKincey, 2014].
Цифровые данные демонстрируют экспоненциальный рост: на 800% к 2020 г. [Mayer-Schönberger & Cukier, 2013]. Прогнозный объем глобального рынка big data к 2020 году — до $85 млрд., отечественного -около $1 млрд.
Увеличение количества больших данных обусловливает формирование актуального формата цифровой датификации как представления количественных данных в цифровом количественном формате. De facto благодаря современным технологиям, датифицирова-ны могут быть массивы нецифровых данных сколь угодно большого объема, информация о явлениях и объектах практически во всех сферах, данные человека, живой и неживой природы и т.д. Сегодня датифи-цированная информация может поступать, сохраняться, анализироваться и использоваться в онлайновом режиме 24/7.
Данные становятся активом современной формации когнитивной экономики3. Общество определяют как датифицированное (datafied).
Российская Федерация пока отстает от наиболее развитых стран по показателям в индексам цифрови-зации и датификации. Однако развитие датификации и дата индустрии в России с 2012 г. активно поддерживается государственными программами. Датификация и технологии на основе больших данных названы в качестве основы стратегии развития цифровой экономики страны на 2017-2025. Для реализации этих программ создано Министерство цифровых технологий (2018), некоммерческие структуры, например АНО «Цифровая экономика», куда входит РФ, и т.п. С 2012 до 2017 года вклад цифровой экономики в ВВП России вырос на 1,3% и составил 2,1%.
1 Результаты исследования полностью представлены в докладе автора «Цифровая датификация как Die Kehre цивилизационного развития?» на заседании секции РАЕН «Энциклопедические знания» 19.06.2018 г. В рамках небольшого объема данной статьи результаты исследования представлены частично.
Доклад был заслушан на заседании секции «Энциклопедические знания» Российской Академии Естественных наук (РАЕН). Председатель секции — зав. каф. финансового менеджмента и антикризисного управления Московского государственного института управления при Правительстве РФ Алексеев В.Н. +7 (495) 261-62-12 Email: mfag@mail.ru
2 Согласно научному редактору журнала Nature Клиффорду Линчу (Clifford Lynch).
3 Отметим, что уникальность больших данных как явления не только в объеме, возможностях постоянной онлайновой аналитики — их применение отличается от традиционной схемы использования информации: для анализа берут весь объем данных, любого качества; в итоге возможно выявить определенные корреляции, а не причинно-следственные связи.
При этом феномен big data и цифровая датификация, несмотря на интенсивный и повсеместный рост практик, находятся на стадии становления, остаются высоко дискуссионными и пока не нашли непротиворечивого толкования ни в технических, ни в гуманитарных и социальных науках. Отметим, что в условиях государственной стратегии развития цифровой дати-фицированной экономики в России данная научная проблематика становится особенно значимой.
Научная проблема и методы исследования
Новейшие реалии цифровой датификации формируют существенную научную проблему концептуализации количественных и качественных характеристик этого феномена для выявления его особенностей в социальном контексте.
Определённая новизна практик датификации, особенно в России, обусловливает отсутствие в заявленной сфере релевантных концептуальных научно-теоретических работ. Тем не менее, возможно выделить два базовых направления исследований в области цифровой датификации: в сфере наук о технике и информатике и социо-гуманитарный. В научной литературе представлены подходы к изучению больших данных как явления технологического в рамках математических и статистических концепций, науки о больших данных, аналитики данных и исследования частных аспектов применения данных, аналитики и результатов4. Большие данные в социо-гуманитарном контексте начали изучать в медиа с прикладных позиций в 2010-х5, на текущем этапе идет осмысление социальных эффектов дата журнализма. Датификацию применяли как инструмент исследования и изучали с позиций социо-культурных эффектов6. Ученые ведут контекстные исследования данных [Taylor, 2015], выявляют различные их форматы, например, большие социальные данные (БСД) [Ishikava, 2015]. В особое направление выделяется критика Big Data в социуме [boyd & Crawford, 2012], Critical Data Studies [Dalton & Thatcher 2016]. Датификация инспирирует идеи невозможности формирования устойчивых научно-теоретических концепций, «конца теории» как таковой [Anderson, 2008]. В России тематика исследований отражает начальный этап накопления информации, в первую очередь в сфере изучения медиа (О. Кольцо-
4 К техническому направлению отнесем работы таких авторов, как А. Байерс (Buyers A.), К. Борн (Borne K.), Б. Браун (Brown B.), А. Бай-ерс (Buyers A. H.) Н. Бисвас (Biswas N.) Р. Доббс (Dobbs R.), Д. Лэйни (Laney D.) Дж. Маника (Manyika J.), Дж. Мурти (Moorthy J.), К. Нанат (Nanath K.), Ч. Роксбор (Roxburgh C.) М. Чуи (Chui M.) и др.
5 Д. Аллен (Allen, D. S.), Е. Аппельгрен (Appelgren, Е.). Д. Грей (J. Gray), М. Дузе (Deuze, M.), Э. Холоваты (Holovaty, A.), С. Коэн (S. Cohen), В. Кундра (Kundra V.) М. Лоренц (M. Lorenz), Н. Кайзер-Бриль (N. Kayser-Bril), К. Ниппард (С. Nippard), Дж. Нигрен (Nygren, J.), Дж. МакГи (G. McGhee), К. Риордан (Riordan, K.), С. Роджерс (S. Rogers), Е. Сирккунен (Е. Sirkkunen), Т. Флю (Flew, T.) и др.
6 Bello-Orgaz, Jung, Camacho (2016); Boellstorff (2013); Gerbaudo
(2016); Ishikawa (2015); Kaplan (2015); Kleiner et al. (2015); Ma-novich (2011); Meyer & Schre^der (2015); Pentland (2014); Rieder
(2017); Svensson (2016).
ва, А. Шашкин и С. Давыдов, А. Шилина и др.).
В целом, несмотря на растущее количество работ научно-прикладного характера7, концептуального осмысления проблематики цифровой датификации в социуме пока не представлено.
Решение выявленной научной проблемы определяет ответ на следующие научные вопросы (в рамках небольшого объема данной статьи):
RQ1: Каковы характеристики и особенности цифровой датификации в новейших форматах?
RQ2: Какие трансформации инспирирует цифровая датификация в современном социуме?
Целью исследования является формирование целостного научно-теоретического представления феномена цифровой датификации в социальном контексте на основе анализа его характеристик на новейшем этапе.
В рамках заявленной проблемы исследования выдвигаем следующие гипотезы.
H1: В условиях цифровой датификации модели социальной коммуникации становятся гибридными, что обусловливает появление новых априорных угроз и точек бифуркации для общества.
H2: Новейшие форматы датификации (интернет био-нано-вещей, интернет всего) определяют возможность целостного онтологического видения человека и мира и формируют социальные проблемы нового уровня.
Основными методами исследования являются компаративный и структурно-функциональный анализ базовых параметров big data, data driven коммуникации; экспертные интервью с российскими и зарубежными учеными и экспертами (N=20, 2016-2018). Для формирования целостного видения феномена большие данные изучаются в рамках востребованной в современных гуманитарных исследованиях концепции поворота.
Научная проблема определяет следующие стратегию и дизайн исследования: выявляются актуальные характеристики больших данных, затем исследуются особенности data driven трансформаций для социума и предпринимается попытка определения онтологической сущности цифровой датификации.
Большие данные как феномен: технологическое vs. социальное vs. биологическое?
Какова сущность больших данных? Несмотря на отсутствие общепринятой непротиворечивой дефиниции, big data в общем виде возможно описать как цифровые машиночитаемые постоянно обновляющиеся в онлайновом режиме валидные данные объемом от 1 петабайта, анализ которых позволяет определить существенные закономерности и инсайты, значимые для оптимизации сферы их применения [Шилина, 2016]. Главной качественной характеристикой big data являются результаты их обработки, анализа специалистами в сфере науки о данных (англ. data science), представление и использования результатов в различных сферах жизнедеятельности. То есть большие данные априорно техносоциальный феномен.
С началом цифровизации во второй половине прошлого столетия происходили генерация и накопление данных в России и в мире, основными их источниками были датчики/приборы, корпорации, затем на рубеже веков -пользователи интернета, особенно социальных сетей.
На новейшем этапе технологии, опосредованные
7 Результаты исследований регулярно публикуются в коллективных монографиях, на профильных сайтах и в изданиях, в первую очередь в сфере информатики (например, Big Data, Journal of Big Data и т.д.).
большими данными, существенно изменились: в 2015 г. Big Data как технологический тренд прошли пик популярности, став основанием развития широкого спектра технологий их использования, таких как машинное обучение (machine learning, ML), искусственный интеллект (artificial intelligence, AI), интернет вещей (the Internet of Things, loT) и т.д.
Расширение линейки технологий применения данных определяет их все более широкое и разнообразное использование, то есть растущий социоцентризм. Это косвенно подтверждается динамикой развития особенностей больших данных с трех количественных V-характеристик8:
— скорость прироста, обработки и получения результатов (velocity);
— многообразие типов (variety) до дюжины качественных, социальных (достоверность, этическая составляющая и т. д.).
Экспоненциально растет количество источников данных. Человек, вне зависимости от собственного желания, становится источником онлайновой информации в режиме 24/7 — для тех, кто использует данные: владельцев, дата брокеров, дата аналитиков. Например, только в результате увеличения количества мобильных телефонов, которыми по разным сведениям, пользуются от 67% до 80% населения планеты (2017), формируется обширная база данных о каждом владельце; накапливаются данные о пользователях интернета, особенно социальных сетей. С появлением «интернета всего» (the Internet of Everything, loE) число объектов, генерирующих данные, становится беспрецедентным: только количество подключенных «вещей» сейчас достигает, по разным источникам, 30-50 млн. (Человек перестал доминировать в инфопро-странстве с 2008 года, когда подключенных «вещей» стало больше, чем людей).
Наряду с количественным ростом объемов датифи-кации в условиях интернета всего открывается возможность единого онлайнового представления информации о природе живой и неодушевленной, о предметах и объектах любого уровня — и появляется гибридная модель взаимодействия акторов. Новизна данной модели для социума заключается в том, что технологии, программы, «вещи» участвуют во взаимодействии с человеком как объектом коммуникации практически напрямую. Коммуникация при этом не просто опосредована определёнными технологиями, она целенаправленно формируется владельцами как самих данных, так и благодаря использованию результатов их анализа, с учетом индивидуальных особенностей каждого объекта (на основе анализа его данных).
Человек становится частью цифровых гибридных сетей в буквальном смысле. Так, концепция интернета био-нановещей (the Internet of Bio Nano Things, loNT) предполагает, что имплантация бионановещей (в первую очередь в медицинских целях) определяет конвергенцию человека и искусственного источника информации, формирует принципиально новый формат гибридного актора, а также новый формат интеллектуальной гибридной сети, которая пока в буквальном смысле человекоразмер-на, но может быть подключена к прочим сетям и стать их частью. То есть большие данные оказываются биотехно-
8 Отметим, что обозначение особенностей больших данных как исключительно У-характеристик вряд ли возможно признать методологически обоснованным; также это отражает уровень академической рефлексии.
De facto человек цифрового века (digital human, digital native) в условиях датификации априорно становится источником данных и включается в новые гибридные модели датифицированной коммуникации с программами (роботами, машинами, «вещами»); сам отчасти становится «вещью», частью или площадкой для встроенной гибридной интеллектуальной системы [Koucheryavy et al., 2017]. Таким образом, появляется новый социальный актор гибридного типа, который не просто психологически, но и физически (и физиологически) опосредован цифровой датификацией и априорно зависит от владельцев данных.
Предлагаем определить человека датифицирован-ного, datafied person или Homo datus как человека, чья персональная жизнь, профессиональная и социальная деятельность напрямую связаны с генерированием и применением результатов анализа данных, вплоть до включения в гибридные датифицированные интеллектуальные системы. При этом необходимо разграничить особенности различных типов Homo datus: человек как прямой источник данных априорно отчужден от них, то есть является объектом в датифицированной экономике. Субъектами являются те, кто использует данные и владеет ими. К непосредственным субъектам-пользователям данных возможно отнести data scientists, дата брокеров. Опосредованные субъекты-пользователи данных — это все те, кто применяет на законных основаниях их результаты, а также держатели дата хабов и т.д. Прямые субъекты — это владельцы данных и результатов их анализа, которые доминируют в экономической модели 4.0.
Зависимость человека (и человечества) от владельцев технологий и цифровых данных достигла критической отметки (даже если принимать во внимание только мобилизацию доступа). Дальнейшее развитие технологий предполагает, что человек в datafied реальности может оказаться не только источником данных или со-субъектом гибридной коммуникации, но ее объектом. В условиях экономики 4.0 необходимость в массе потребителей вообще может быть исчерпана.
Таким образом, цифровая датификация обусловливает точки бифуркации, которые отражают новейшую ситуацию конфликта технологий и человека в капиталистической datafied экономике и обществе, наиболее существенными из которых являются отчуждение данных от их владельцев и создание гибридных субъектов и сетей коммуникации.
Цифровое неравенство в датифицированном обществе и вызовы для Homo Datus
В датифицированном обществе появляются принципиально новые параметры цифрового неравенства, которые весьма парадоксальны. Цифровое неравенство/цифровой разрыв, как правило, рассматривается с точки зрения возможностей регулярного доступа и использования информационно-коммуникационных технологий и, из-за неравных возможностей доступа, как разновидность социального расслоения. Выявлено более 15 форматов неравенства, которые зависят от возраста, дохода, культуры до языка и навыков9.
В условиях датификации решение традиционных проблем цифрового неравенства (доступ, фактическое
9 «Рациональная политика устранения цифрового разрыва. Наилучшие мировые практики», отчет подготовлен Economist Intelligence Unit при поддержке компании Tele2. https://www.itweek.ru/infrastructure/article/detail.php?ID=143778
использование и эффективность применения цифровой информации и т.д.) будет оптимизировать доступ и присутствие пользователя в сети — и тем самым усугублять датифицированный цифровой разрыв, поскольку чем проще и шире доступ к интернету, тем больше пользователь оставляет цифровых следов и своих данных, которые от него отчуждены, но используются корпорациями. То есть чем выше уровень активности применения интернета Homo datus, тем выше для него уровень потенциальной опасности в да-тифицированном инфопространстве.
Существенным отличием является и то, что обеспечение физического доступа к цифровой информации, как при digital divide для человека не является настолько важным, насколько важен доступ к результатам ее анализа. Цифровая коммуникация в принципе создает не-видимое для иной оптики, в условиях же датификации и сами данные, и результаты анализа доступны только заказчикам, что создает более глубокое основание для развития digital divide на уровне смыслов и манипуляции данными, глобальной по масштабу, а в условиях интернета всего — универсальной по сути.
Сегодня формирование алгоритмического языка взаимодействия всех субъектов и объектов в datafied экономике и обществе находится в зоне ответственности, в первую очередь, государства и корпораций. De facto только государство или бизнес имеют возможность собирать, использовать и торговать данными, принимать решения на основе личных данных, тогда как рядовой человек может только надеяться получить контроль над своими данными de jure. При этом законодательное регулирование датификации в большинстве даже развитых экономик находится на стадии становления.
Централизованное государственное управление данными (как в России) или децентрализованное корпоративное (как в развитых экономиках) в любом случае является монопольным — и создает ситуацию новой формы цифрового датифицированного неравенства.
Таким образом, в условиях цифровой датификации обладание, анализ и управление данными, централизованное или децентрализованное, формирует ситуацию нового формата digital divide — датифицированное цифровое неравентсво/разрыв.
Предлагаем определить цифровое дата неравенство как незащищенные законодательством
а) доступ к использованию персональных и иных приватных данных,
б) воздействие дата технологий, основанных на приватных информационных и коммуникационных данных,
которые ведут к экономическому и социальному неравенству.
Законодательно защищать граждан может только государство. Таким образом, государственная патерналистская модель экономики, ориентированная на данные (как в РФ), выглядит оптимистично.
В России экономика определяется как государственно-корпоративная, проблемы регулирования данных по-прежнему дискуссионны даже в рамках новой стратегии национального развития экономики «Программа цифровой экономики» (2017-2025). Статус граждан, Hominis datus, которые хотя и включены в число базовых акторов цифровой экономики, наряду с государством, бизнесом, научным сообществом, пока не зафиксирован стратегически. Всё это определяет нацио-
нальную специфику проблемы и особенности data driven процессов в России.
Цифровая датификация как новый онтологический поворот?
Данные с современных итерациях «интернета всего» представляют уникальную возможность создания единого пространства взаимодействия человека и мира и целостного понимания процессов. Для формирования релевантной научно-теоретической рамки исследования цифровой датификации представим попытку ее концептуализации в парадигме востребованной в современных научных исследованиях метафоры «поворота».
Концепция поворота появляется в XX веке как отражение попытки найти единое основание для объяснения реальности, (по)вернуться к истокам, чтобы объяснить мир в его целостности, взаимодействие человека и мира как некую изначальную данность: например, всё (мир и человек) есть текст (лингвистический поворот (linguistic turn)) или образ (визуаль-ный/иконический поворот (visual/iconic turn)) и т.д. Отметим, что современные исследователи в большинстве своем как «поворот» маркируют не философскую интенцию (по)вернуться к целостному видению мира и человека в нем, но лишь как «поворот внимания» к определенным явлениям, изменение акцентов (например, антропологический поворот в литературе означает перенос акцента на человека из аудитории, уход от литературоцентричности и т.д.)
Основным элементом модели реальности в большинстве поворотов является информация, а также способ ее создания / получения, анализа и потребления. Референты реальности (язык/текст, изображение и т. д.) оказываются опосредованы технологиями, влияние которых становится с течением времени всё более радикальным. Все значимые повороты, несмотря на различиях в интерпретации самого термина, и информации как основного элемента, отражают частное понимание реальности (лат. Reflexio [Heidegger, 1962].
Анализ больших данных и датификации с точки зрения информации и коммуникации предполагает необходимость зафиксировать историческую, техническую и социальную значимость нескольких поворотов, которые сформировали нынешнее положение вещей. Компьютерный/вычислительный поворот/computational turn отражает появление новой универсальности на основе оцифровки, математизации, алгоритмизации и компьютеризации всего. Интернет является следующим поворотом в развитии взаимодействия человека с физическим миром, поскольку открывает новые возможности для взаимодействия между людьми, программами и людьми с помощью компьютерных про-грамм/«машин». Всемирная сеть не только накапливает данные, как это было в случае computational turn, но создает пространство гибридной коммуникации, в котором программы работают автономно [Шилина, 2012]. Например, поисковый робот, созданный Яндексом еще в 2010-х годах, собирал информацию из открытых источников и формировал пресс-портреты медийных персон, то есть выполнял функции PR специалиста. Сегодня робожурналистика и дата журнализм стали самостоятельными направлениями ежедневной работы в ньюсрумах и т.д.
В интернете всего модель коммуникации становится универсальной для человеческих и «не-человеческих» особей, обладает возможностью обратной связи всех объектов. Эта гибридная «реальность» возвращает
нас к идее единства всего и общей единицы датифи-цированной цифровой информации как основы целостного видения человека и мира.
Итак, цифровизация и цифровая датификация служат универсальной основой для появления новых универсальных гибридных акторов, процессов, систем. Гибридная цифровая коммуникация в режиме 24/7 с возможностью обратной связи становится универсальной для человека и не-человека, для живой и неодушевленной природы, для человека и мира как такового. Цифровая информация может быть сохранена в гигантских объемах, использована многократно, практически неограниченно. Машинный анализ гибридных данных становится инструментом познания человека и реальности как таковой. Впервые возникают предпосылки функционирования общего «языка данных» и двухсторонней модели постоянного общения между субъектом и объектом — между человеком и миром.
Таким образом, появление цифровой опосредованной интернетом датификации позволяет зафиксировать ситуацию нового поворота в определении онто-статуса человека и мира — датифицированного поворота как поворота универсального типа, поскольку дается возможность универсального, синтетического осознания реальности, conversio [Heidegger, 1962].
На новейшем этапе в условиях интернета бионано-вещей и интернета всего большие цифровые данные становятся биотехносоциальным метафеноменом.
Цифровая датификация служит основой появления и взаимодействия новых универсальных гибридных акторов, сетей и процессов. Человек датифицированный, Homo datus, включается в гибридные системы людей и «вещей», становится частью этих сетей. Подобные гибридные сети универсальны, и становятся предпосылкой для создания новых форматов и глобального пространства личной и социальной коммуникации.
Датификация позволяет выявить универсальную единица цифровой гибридной информации для human и non-human и зафиксировать ситуацию нового поворота универсального типа в определении онтостатуса человека и мира.
Однако в датифицированном, то есть полностью технологически детерминированной обществе, данные отчуждены от их производителей, и только от целепо-лагания непосредственных владельцев данных зависит дальнейшее глобальное развитие и информационная безопасность. Регулирование потенциальных конфликтов возможно в первую очередь этически [Shil-ina et al., 2017] и, несомненно, законодательно. Подобную ситуацию возможно обозначить как ключевую точку бифуркации в «датифицированном сегодня» и основной формат цифрового датифицированного неравенства на уровне «обладания смыслами».
Цифровое неравенство в датифицированном обществе определим, как незащищенные законодательством доступ к использованию персональных и иных приватных данных и воздействие дата технологий, основанных на приватных информационных и коммуникационных данных, которые ведут к экономическому и социальному неравенству.
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
Проблемой датифицированного неравенства является управление данными — централизованное государственное (как в России) или децентрализованное корпоративное (как в развитых экономиках), которое в любом случае является монопольным. Законодатель-
но защищать граждан может только государство, то есть российская государственная патерналистская модель экономики и общества, ориентированного на данные, выглядит оптимистично.
Большие данные сегодня есть новейшая государственная стратегия «Большой» России. Датификация направлена в первую очередь на развитие экономики, которая должна стать цифровая системой, в которой добавленная стоимость создается ИКТ. Приоритетными задачами развития системы являются ИКТ, телекоммуникации и законодательство. Тем не менее, российская экономика по большей части продолжает оставаться экономикой государственно-корпоративной, арендного типа, технологии слишком дороги, поэтому уже существующие решения остаются более рентабельными и т.д.. Это определяет поле потенциальных проблем и национальную специфику российской модели. Научно-теоретические исследования датификации в социальном контексте позволяют выявить точки бифуркации и разрабатывать практические рекомендации купирования потенциальных конфликтов.
Статья проверена программой «Антиплагиат». Оригинальность 96,12%.
1. Онлайн исследования в России 3.0 / Отв. ред.: А. В. Шашкин, С. Г. Давыдов. М.: OMI RUSSIA, 2012-2016.
2. Шилина М.Г. Текстогенные трансформации инфосферы. Методологический эскиз становления Интернета. М., 2012. — 738 с.
3. Шилина М.Г. Big&Open Data как фактор трансформации профессиональной социальной коммуникации? // Коммуникация. Медиа. Дизайн. — М.: НИУ ВШЭ, ф-т коммуникаций, медиа и дизайна. — М., 2016, № 3. — С. 19-33. https://cmd-journal.hse.ru/2016—1.html
4. Anderson, C. (2008) The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired 16(7).
5. Boydd and Crawford, K. (2012) Critical Questions for Big Data. Information, Communication &Society15(5): 662-679.
6. Dalton C. and Thatcher, J. (2016) «What does a critical data studies look like, and why do we care? Seven points for a critical approach to ‘big data’.» Society and Space open site (2014). http://societyandspace.org/2014/05/12/what-does-a-critical-data-studies-look-like-and-why-do-we-care-craig-dalton-and-jim-thatcher/October 23. (accessed 15/05/2018)
7. Heidegger, IVI. (1962) Die Technik und die Kehre. Pfullingen: Neske. S. 37-47.
8. Ishikawa, H. (2015) Social big data mining. Boca Raton: Taylor & Francis Group, CRC Press.
9. Kitchin, R. (2014) Short Presentation on the Need for Critical Data Studies. The Programmable City blog.http://www.nuim.ie/progcity/2014/04/short-presentation-on-the-need-for-critical-data-studies/ Accessed May 10, 2014.
10. Koucheryavy, Y. Kirichek, R., Yastrebova, A., Shilina, M. (2017) Data, ‘dusha’, and the Internet of Skills music: would a connected Art Glove help to preserve heritage better? The Russian Journal of Communication. Routledge. Taylor & Francis Group, UK. Vol.9. No 3. P. 263-267. doi.org/10.1080/19409419.2017.1376529
11. McKinsey Global Institute. «Big Data: The Next Frontier for Innovation, Competition, and Productivity.» McKinsey Global Institute. May, 2014. Available at: www.mckinsey.com/Insights/MGI/Research/Technology_and_ Innovation/Big_data_The_next_frontier_for_innovation. (accessed 15/05/2018)
12. Mayer-Schönberger, V. Cukier, K. Big Data: A Revolution That Will Transform How We Live, Work, and Think .John Murray — UK., 2013.
13. Shilina, M., Couch, R. and Peters, B. (2017) Data: an ethical overview. The Russian Journal of Communication. 2017. Vol.9. No 3. Routledge. Taylor & Francis Group, UK. P.229-240. http://www.tandfonline.com/doi/full/10.1080/ 19409419.2017.1376529
14. Taylor, L. (2015). Towards a contextual and inclusive data studies: A response to Dalton and Thatcher. Society and Space blog.
15. Van Dijck, J. (2014) Datafication, dataism and dataveil-lance: big data between scientific paradigm and ideology. Surveillance & Society 12(2): 197-208.