Что не является характеристикой больших данных
Перейти к содержимому

Что не является характеристикой больших данных

  • автор:

2.3 БОЛЬШИЕ ДАННЫЕ: ТРИ ГЛАВНЫХ ПРИЗНАКА

К особой категории можно отнести большие данные (Big Data). Этот термин связан с техническими аспектами сбора и обработки данных; он не предполагает конкретные виды данных. Смысл термина Big Data значительно шире, чем просто указание на большой объем данных: он указывает также на высокую скорость поступления данных и разнообразие источников и форматов получаемой информации.

Big Data принято определять по трем V.
Лейни Д. Инфономика. Информация как актив: монетизация, оценка, управление. М.: Точка, 2020.

Volume (объем) данных представляет собой количество данных, доступных для анализа с целью извлечения полезной информации. Ключевым для развития технологий обработки больших данных стал рост объемов данных вследствие интернет-активности. Например, на YouTube загружается 300 часов видео каждую минуту, а объем мобильного трафика достиг 6,2 млрд гигабайт в месяц.

Velocity (скорость) обработки данных — это скорость потока создания, хранения, анализа и визуализации данных. Быстрота изменений приводит к необходимости обработки большого количества данных за короткий промежуток времени. Так, Google обрабатывает 40 тысяч поисковых запросов в секунду — то есть 3,5 млрд запросов в день.

Variety (разнообразие) данных заставляет анализировать данные разных типов из различных предметных областей. Кроме того, большие данные включают в себя не только структурированные, но полуструктурированные и неструктурированные данные — и последних большинство. К большим данным относятся аудио- и видеофайлы, изображения, данные постов в социальных сетях и другие текстовые форматы, данные о переходе по ссылкам, машинные данные, данные датчиков.

ГОСТ выделяет еще одну, четвертую ключевую характеристику:

ГОСТ Р ИСО/МЭК 20 546−2021 «Информационные технологии. Большие данные. Обзор и словарь». Введен в действие с 1 ноября 2021 года.

Variability (вариативность) данных — это изменения в скорости передачи данных, их формате и (или) структуре, семантике и (или) качестве, которые влияют на работу с данными. Вариативность приводит к необходимости реорганизации архитектур, интерфейсов, методов обработки, влияет на интеграцию, слияние, хранение, применимость и использование данных.

Иногда к первым четырем V добавляются еще шесть дополнительных признаков: veracity (достоверность), visualization (визуализация), validity (валидность), vulnerability (уязвимость), volatility (волатильность) и value (ценность).

The 10 Vs of Big Data // TDWI. Дополнительные признаки описывают уже не характеристики больших данных, а скорее проблемы, возникающие в связи с их использованием.

Big Data

Big data — что это такое? В буквальном переводе эта фраза означает большие данные. В традиционном толковании большие данные — это набор огромных объемов информации, настолько сложной и неорганизованной, что она не поддается обработке традиционными инструментами управления базами данных. Big Data просто не вписываются в традиционную структуру из-за своей величины.

Под этим термином также понимают не саму информацию или отдельную технологию, а комбинацию современных и проверенных инструментов работы с гигантскими потоками данных, что помогает получать практическую информацию.

Если суммировать, то биг дата можно определить, как возможность управлять колоссальным объемом разрозненных данных с нужной скоростью и в нужные временные рамки, чтобы обеспечить их обработку и анализ больших данных в реальном времени.

Просто о больших данных

Каждый раз, когда кто-то открывает приложение на смартфоне, посещает сайт, регистрируется в Сети на каком-то ресурсе или даже вводит запрос в поисковую систему, собирается какой-то массив данных.

Большие данные схема

Пользователи обычно больше сосредоточены на результатах того, что они делают в Интернете. Их не особенно волнует то, что происходит «за кулисами». Например, человек открывает браузер и набирает в поиске «большие данные», а затем переходит по этой ссылке, чтобы прочитать наш глоссарий. Один только этот запрос способствует созданию определенного количества больших данных. Если представить, сколько людей проводят время в Интернете, посещая разные сайты, загружая изображения и так далее, становится понятно, о каких огромных объемах информации может идти речь.

Характеристики больших данных

Есть некоторые термины, связанные с большими данными, которые нужны, чтобы описать их и понять суть. Они называются характеристиками больших данных.

В традиционной трактовке «биг дейта» имеют 3 основных характеристики. В английском языке их обозначают как 3V:

  • Volume, Объем: сколько данных. Компании, занимающиеся big data, должны постоянно масштабировать свои решения для хранения данных, поскольку им постоянно требуются большие объемы дискового пространства.
  • Velocity, Скорость: насколько быстро обрабатываются данные. Поскольку большие данные генерируются каждую секунду, компаниям необходимо реагировать в режиме реального времени, чтобы справиться с такими потоками.
  • Variety, Разнообразие: какие типы данных обрабатываются и сколько их. Большие данные имеют множество форм. Они могут быть структурированными, неструктурированными или представленными в разных форматах — таких, как текст, видео, изображения и так далее.

Хотя сводить большие данные до трех V удобно, современный подход считает, что это — упрощенная схема, которая может вводить в заблуждение. Что является обязательной характеристикой, а что нет? Например, компания может управлять относительно небольшим объемом разнообразных данных или обрабатывать огромные объемы очень простых. И в том, и в другом случае одна из характеристик — или объем, или разнообразие — не совпадает. Тем не менее, речь по-прежнему идет о big data.

Кроме того, чтобы дополнить постоянно развивающиеся технологии в этой области, аналитики ввели дополнительные 2V, которые также относятся к характеристикам big data и применяются для их описания.

  • Value, Ценность: имеют ли данные ценность. Сами по себе сбор и хранение больших данных не имеют никакой практической пользы, если они не были проанализированы и не был получен результат.
  • Veracity, Правдивость: насколько данные истинны. Большие данные, какими бы большими они ни были, тоже могут содержать неверную информацию. Неопределенность данных — это то, что стоит учитывать при работе с big data.

Последняя характеристика требует некоторых пояснений. Необходимы заранее определенные критерии, по которым собранные big data можно оценивать на предмет их истинности. Тут важно правильно оценить стоящую задачу — собранные данные должны проверяться как на точность, так и в соответствии с контекстом.

Как и в реальной жизни, истина у каждого своя. Например, критерии «правды» для оценки стоимости бизнеса вряд ли совпадут с параметрами оценки ценности конкретного клиента — например, для экспресс-выдачи кредита. В первом случае берутся в расчет финансовые результаты компании и сравнение с другими аналогичными, во втором — индивидуальная кредитная история, наличие просрочек и размер официальных доходов конкретного человека. И в том, и в другом варианте нужны подсказки — какой объем информации это займет, какие признаки информации выделять и по каким критериям анализировать в реальном времени, чтобы это принесло нужный бизнес-результат.

Структурированные и неструктурированные данные

Большие данные включают в себя все разновидности данных, включая информацию из электронной почты, социальных сетей, текстовые потоки и так далее. Управление ими требует использования как структурированных, так и неструктурированных данных.

Структурирование данных — это получение информации, которая имеет определенную длину и формат. Примеры использования структурированных данных включают числа, даты или группы слов и чисел, называемые строками.

Определение неструктурированных данных идет от названия. Они отличаются от структурированных тем, что их структура непредсказуема. Примеры неструктурированных данных включают документы, электронную почту, блоги, цифровые изображения, видео и даже фото со спутника. Они также объединяют некоторые данные, генерируемые машинами или датчиками. Фактически, неструктурированные данные составляют большую часть внутренних данных компании, а также внешних, которые поступают из общедоступных онлайн-источников — таких, например, как соцсети.

Большие данные источники

В недавнем прошлом большинство компаний не могли ни собирать, ни хранить такой огромный объем неструктурированных данных. Это было слишком дорого или слишком сложно. Даже если удалось бы собрать такую информацию, у них не было инструментов, позволяющих анализировать её и использовать результаты для принятия решений. Существовавшие платформы были сложными в использовании и не давали результатов в разумные сроки, поэтому часто использовались выжимки из данных. Это существенно искажало общую картину, так как критерии отбора информации были субъективными.

Технологии big data (больших данных)

Сегодня разработаны разные технологии, которые используются для обработки больших данных и управления ими. Из них наиболее широко используются фреймворки и платформы, разработанные Apache. По данным MarketsandMarkets, доля этой компании на рынке больших данных составляет 23,5% на конец 2020 года даже с учетом влияния пандемии. Вот что входит в их стартовый набор для управления big data.

  • Apache Hadoop — платформа, которая позволяет выполнять параллельную обработку и распределенное хранение данных;
  • Apache Spark — среда распределенной обработки данных общего назначения;
  • Apache Kafka — платформа потоковой обработки;
  • Apache Cassandra — распределенная система управления базами данных NoSQL.

Самая известная парадигма программирования, применяемая сегодня для работы с big data, называется MapReduce. Разработанная Google, модель позволяет выполнять распределенные вычисления с огромными наборами данных в нескольких системах параллельно.

MapReduce состоит из 2х частей:

  • Map, Карта данных. Технология сортирует и фильтрует, а затем классифицирует данные, чтобы их было легче анализировать.
  • Reduce, Уменьшение. Вычислительная модель объединяет все данные и предоставляет сводку.

Сферы применения больших данных

Большие данные находят множество применений в различных отраслях. Вот некоторые наиболее значимые из них.

Обнаружение мошенничества

Большие данные помогают управлять финансовыми рисками, обнаруживать попытки мошенничества и анализировать подозрительные торговые сделки.

Реклама и маркетинг

Большие данные помогают маркетологам понимать модели поведения пользователей, анализировать их и собирать информацию о мотивах потребления.

Сельское хозяйство

Большие данные в сельском хозяйстве используют для повышения урожайности. Это может быть сделано путем посадки разных семян и саженцев для теста. В big data ведутся записи, обработка и сохранение данных о том, как они реагируют на различные изменения окружающей среды. Затем собранные и проанализированные данные используются для планирования посадки выбранных сельскохозяйственных культур.

Существует также множество аналитических проблем, решить которые ранее было невозможно из-за технологических ограничений. После появления big data компании больше полагаются на этот рентабельный и надежный метод простой обработки и хранения огромных объемов данных. Технологии успешно применяются в сфере HR, здравоохранении, для улучшения городской среды, при проектировании полезных гаджетов и даже электромобилей Tesla.

Профессии в сфере больших данных

Знания о больших данных — один из важных навыков, необходимых для современных профессий, которые сегодня востребованы на рынке — в России и за рубежом. Спрос на этих специалистов вряд ли упадет в ближайшее время — ведь накопление данных со временем будет только расти. Вот некоторые из популярных специальностей.

  • Аналитик big data. Анализирует и интерпретирует большие данные, визуализирует их и создает отчеты, помогающие предпринимателям принимать обоснованные бизнес-решения.
  • Специалист по работе с большими данными. Ведет сбор данных, оценивая источники и применяя алгоритмы и методы машинного обучения.
  • Архитектор данных, Data Architect. Проектирует системы и инструменты баз, способных работать с большими данными.
  • Менеджер баз данных. Контролирует производительность системы баз данных, выполняет устранение неполадок и обновляет оборудование и программное обеспечение.
  • Инженер big data. Разрабатывает, обслуживает и поддерживает программные решения для обработки больших данных.

Проблемы больших данных

Говоря о современных больших данных, нельзя игнорировать тот факт, что с ними все еще связаны некоторые очевидные проблемы. Вот некоторые из них.

Быстрый рост данных

Данные, растущие такими быстрыми темпами, трудно затрудняют получение на их основе понимания. Каждую секунду создается все больше и больше информации, из которой необходимо извлекать действительно актуальные и полезные данные для дальнейшего анализа.

Хранение

Такие большие объемы данных сложно хранить и управлять ими без соответствующих инструментов и технологий.

Синхронизация источников данных

Когда организации импортируют данные из разных источников, данные из одного источника могут быть устаревшими по сравнению с данными из другого.

Безопасность

Огромный объем данных может легко стать мишенью для хакеров и постоянной угрозой компьютерной безопасности. Поэтому перед компаниями, управляющими big data, стоит еще одна проблема — обеспечить безопасность своих данных с помощью надлежащей аутентификации, шифрования данных и так далее.

Ненадежные данные

В силу своих объемов и разности источников большие данные не могут быть точными на 100%. Они могут содержать избыточную или, наоборот, неполную информацию, а также противоречия.

Другие проблемы

Это некоторые другие проблемы, которые возникают при работе с большими данными. Самые известные из них — это корректная интеграция данных, наличие у персонала навыков работы с big data, затраты на профессиональные решения и обработка большого количества данных вовремя и с нужной точностью.

Будущее big data

Данные становятся все более сложными — как в структурированном, так и в неструктурированном виде. Появляются и новые источники — например, датчики на оборудовании или метрики взаимодействия с сайтом в виде потоков кликов. Для удовлетворения этих меняющихся бизнес-требований важно, чтобы нужная информация была доступна в нужное время.

По прогнозам MarketsandMarkets , даже небольшим компаниям в ближайшие 10 лет предстоит освоить практические способы работы с большими данными, чтобы оставаться конкурентоспособными — изучить новые способы сбора и анализа растущего объема информации о клиентах, продуктах, услугах и так далее.

Что такое большие данные (big data), чем они отличаются от обычных данных и в чем состоит проблема правового регулирования big data

Закон.Ру – официально зарегистрированное СМИ. Ссылка на настоящую статью будет выглядеть следующим образом: Рожкова М.А. Что такое большие данные (big data), чем они отличаются от обычных данных и в чем состоит проблема правового регулирования big data [Электронный ресурс] // Закон.ру. 2019. 22 апреля. URL: https://zakon.ru/blog/2019/4/22/chto_takoe_bolshie_dannye_big_data_chem_oni_otlichayutsya_ot_obychnyh_dannyh_i_v_chem_sostoit_proble

Последнее время на разных по тематике конференциях весьма активно обсуждается проблематика больших данных (далее – big data), и многие эксперты начинают или заканчивают свои выступления тезисом в духе «big data – это новый вызов, стоящий перед юридическим сообществом». В рамках настоящей статьи попробуем разобраться в принципиальных различиях между big data и «просто» данными, а также оценить значимость этих различий для целей правового регулирования.

На сегодняшний день большинство юристов понимает big data как огромные массивы разнообразной информации (данных). Формированию такого понимания во многом способствовало растиражированное во многих публикациях употребление Клиффордом Линчем[1] этого термина применительно к взрывному росту мировых объемов информации и многообразию данных. Поэтому традиционная трактовка big data «много, много разных данных» 🙂

На самом деле огромный физический объем и разнообразие типов данных –общеизвестные характеристики big data представляют собой только одну сторону даже не медали, а многогранника. В рамках настоящей работы будут рассмотрены некоторые черты big data, значимые для уяснения сущности этого многоаспектного явления.

  1. Динамичность прироста, потребовавшая созданияметодов сбора, накопления и хранения, альтернативных традиционным системам управления базами данных

В отечественном ГК нашел отражение подход, согласно которому данные представляют собой некие информационные единицы, статично хранящиеся в электронных таблицах или базах данных. Правда, при разработке части четвертой ГК это понимание несколько модифицировалось: данные было предложено понимать в качестве «самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов)» (п. 2 ст. 1260 ГК [2]). Это, вероятно, стало следствием того, что для разработчиков Кодекса ориентиром служили исключительно базы известных справочно-правовых систем.

Применительно к big data нет никаких оснований говорить о статике: это динамичный, безостановочный процесс появления новых данных, часть которых изначально не структурирована и не обработана иным образом, а часть уже выступала предметом обработки. То есть прежде всего big data представляют собой постоянный поток огромных объемов информации, непрерывно поступающей из различных источников. Как отмечается во многих публикациях, к категории big data относится большинство потоков данных свыше 100 Гб в день.

Этот непрекращающийся поток данных поступает из различных источников, которые можно условно объединить в две основные группы:

– во-первых, технические источники, которые создают порядка 90% всей новой информации. Эта группа охватывает, в частности, интернет вещей (англ. Internet of Things, IoT, включающий в свой состав и промышленный интернет вещей (англ. Industrial Internet of Things, IIoT)), который «поставляет» информацию со всевозможных действующих датчиков, котроллеров, приборов учета потребления, устройств, устройств аудио- и видеорегистрации, измерительных комплексов и проч.; искусственный интеллект (англ. Artificial Intelligence, AI) и машинное обучение (англ. Machine Learning, ML).

– во-вторых, социальные источники, включающие, в частности, социальные медиа (англ. social media), под которыми понимаются разнообразные способы электронной коммуникации, позволяющие людям обмениваться информацией: социальные сети, виртуальные миры, специализированные форумы, профессиональные соцсети, блоги, фотохостинги, сайты отзывов, сайты знакомств и проч. (информация образуется из потока постов, комментариев, лайков, поисковых запросов, оценок, фото, аудио- и видеозаписей, отзывов и проч.); розничную торговлю (англ. retail), предоставляющую информацию о совершенных транзакциях, сведения из товарных чеков, из дисконтных карт и карт лояльности покупателей, из RFID-меток и проч.; здравоохранение, собирающее сведения о поставленных диагнозах и предложенных методиках лечения, восприимчивости пациентов к медицинским препаратам, оценке эффективности этих препаратов и проч., что находит отражение в медицинских картах, результатах лабораторных исследований и так далее.

Непрерывное появление – постоянным потоком – огромных объемов упомянутой информации потребовало разработки принципиально других методов сбора, накопления, обработки и хранения, нежели привычные базы данных, подразумевающие упорядоченную («по строкам и столбцам») организацию собранных сведений. Кроме того, в отличие от традиционных баз данных, в которых данные измеряются количеством информационных единиц («материалов» в терминологии разработчиков отечественного ГК), применительно к big data традиционно говорят о 3Vs: volume (физическом объеме); velocity (скорости прироста); variety (многообразию самих данных, их источников и проч.).

Итогом этого стало то, что современные подходы, инструменты и методы сбора, накопления, обработки и хранения big data характеризуются как альтернативные традиционным системам управления базами данных. И с технической точки зрения big data рассматривают именно как новые технологии, используемые для сбора, накопления, хранения и обработки данных.

Изложенные факты, на мой взгляд, значимы для целей права и приводят к тому, что нормы авторского и смежных прав, регламентирующие базы данных, уже не годятся для регулирования отношений, связанных со сбором, накоплением, обработкой и хранением big data. Поясняя это заключение, можно указать следующее.

В отечественном законодательстве база данных определена как совокупность самостоятельных материалов, систематизированных так, что они могут быть найдены и обработаны компьютером (п. 2 ст. 1260 ГК РФ). При этом авторско-правовой охране подлежит не содержание, а форма базы данных.

Как я уже писала в параграфе 3.4.3. своей статьи об имущественных правах на нематериальные объекты, базы данных отнесены к числу РИД и могут стать объектами авторских и (или) смежных прав. Вместе с тем правовая охрана распространяется не на все без исключения базы данных: являясь таковой в техническом смысле[3], база данных может не получить правовую охрану в качестве объекта интеллектуальных прав (подобно тому, как изобретение, не подтвержденное патентом, не признается изобретением с правовой точки зрения). А для того, чтобы база данных рассматривалась как объект авторских или смежных прав, она должна соответствовать установленным законом критериям.

  1. База данных может стать объектом авторскихправ и получить правовую охрану в соответствии с положениями гл. 70 ГК «Авторское право», если она признается составным произведением – если при подборе и компоновке ее составляющих (то есть по сути при определенииструктурыбазы данных) был реализован новаторский подход, использовались оригинальные творческие идеи, креативность (отсюда появилось название «креативная база данных»). В том случае, если база компилировалась безо всяких творческих усилий (например, составление осуществлялось исключительно в алфавитном и хронологическом порядке), то такая база не может быть причислена к составным произведениям и соответственно не является объектом авторского права. То есть гл. 70 ГК охраняет не содержание баз данных, а порядок подбора и компоновки ее составляющих (вследствие этого всякое иное лицо не может использовать тот же порядок при структурировании своей базы данных).

Применительно к сбору, накоплению, обработке и хранению big data не идет речи о каком-либо подборе и компоновке – современные системы допускают сбор, накопление, обработку и хранение данных как структурированных, так и неструктурированных[4] (англ. unstructured data; к которым относят, в частности, данные из соцсетей, видео- и аудиофайлы, данные GPS, спутниковые изображения, данные о перемещении мобильного абонента, данные с серверов, файлы PDF и проч.). Вследствие этого за хранилищами big data сложно усмотреть значение базы данных в смысле гл. 70 ГК.

  1. База данных может стать объектом смежных прав и получить правовую охрану в соответствии с положениями гл. 71 ГК «Права, смежные с авторскими» (см. § 5 гл. 71 «Право изготовителя базы данных»), если будет признано, что она является результатом существенных финансовых, материальных, организационных или иных вложений (инвестиций) изготовителя базы в ее создание (отсюда распространенное название – «инвестиционная база данных»). Инвестиционной может быть признана всякая база данных, которая содержит не менее 10 000 «самостоятельных информационных элементов (материалов)» (п. 1 ст. 1334 ГК), причем не имеет абсолютно никакого значения, какие данные включены в эту базу. Важно заметить, что нормами § 5 гл. 71 ГК охраняется не содержание, а по сути целостность базы данных с тем, чтобы защитить инвестиции, вложенные в ее создание (иникакое лицо не имеет право без согласия правообладателя извлекать из базы данных материалы и осуществлять их последующее использование в любой форме и любым способом).

Применительно к хранилищам big data прежде всего надо отметить проблематичность их отнесения к базам данных (с учетом сказанного выше). Да и допустимость распространения положений § 5 гл. 71 ГК на хранилища big data вызывает серьезные вопросы. Это, в частности, связано с тем, что множество лиц может одновременно собирать и хранить данные, полученные из одних и тех же открытых источников, – в этих условиях не представляется возможным определить, права какого лица будут подлежать защите в соответствии с положениями § 5 гл. 71 ГК.

Таким образом, можно заключить, что нормы об интеллектуальной собственности, по всей видимости, не предназначены для правовой охраны big data – регулирование отношений по поводу big data должно осуществляться по другим правилам.

  1. Вторичность и возможность многократного использования big data для достижения разнообразных целей

Другая особенность big data, которая является весьма значимой, состоит в том, что эти данные не создаются специально для проведения анализа, а возникают естественным образом: упомянутый поток данных – это результат непрерывной генерации данных, которые появляются в процессе осуществления различной деятельности и/или при решении разных задач. Иными словами, под big data как правило понимают вторичные данные, которые первоначально предназначались для других целей, их рассматривают как побочный результат различных процессов.

Так, пользователи соцсетей размещают в своих аккаунтах личную информацию и фото, преследуя цель поведать о себе миру; автоматическое сообщение контроллером сведений о состоянии и работоспособности технического узла предназначено для предотвращения нарушений его работы; онлайн-отзывы о ресторане/гостинице/прокате авто обычно направлены на улучшение качества услуг соответствующих компаний; передача с метеостанции данных о температуре воздуха, осадках, снежном покрове нацелена на генерацию необходимых сведений о метеорологических условиях и т.д. Вместе с тем вся эта информация вливается в бесконечный поток big data.

Как указывалось выше, вначале идет сбор и накопление таких данных с их последующим хранением (например, Uber накопил данные о более чем 5 млрд. поездок, а Tesla – о вождении на совокупной дистанции более чем 2 млрд. км). Эти накопленные данные уже рассматриваются как некий экономический актив компаний.

И тут-то вспоминается прозвучавшая еще в 2006 году и ставшая афоризмом фраза «Данные – это новая нефть!» (англ. “Data is the new oil!”), которая приписывается британскому математику Клайву Хамби[5].

Примечательно, что смысл этой фразы не в признании равноценности данных и нефти, а в констатации того, что, как и сырая нефть, необработанные (сырые) данные не представляют собой особой ценности: для того, чтобы данные создавали прибыль, они должны быть использованы – подвергнуты анализу, визуализированы, интегрированы и т.д. для принятия того или иного решения. Иными словами, огромные объемы собранной и накопленной информации, требующие существенных затрат на хранение, имеют только потенциальную коммерческую ценность. Реальную коммерческую ценность данные, полученные из потоков big data, могут приобрести лишь тогда, когда они используются для решения той или иной научной/социальной/коммерческой задачи.

Говоря об использовании big data, под ним понимают прежде всего аналитику больших данных (англ. big data analytics), которая признается «новой формой производства знаний» и предполагает обработку и структуризацию данных, создание алгоритмов анализа данных, агрегацию и анализ данных, выявление связей между данными, установление закономерностей и скрытых тенденций, построение прогнозов и т.п. При этом, по моему мнению, внимания заслуживают следующие моменты:

1) для целей big data analytics используются данные, собранные в разном контексте и полученные из разнообразных источниковтехнических и социальных. И сами данные уже не подразделяются строго на относящиеся только к узко предметной профессиональной сфере (например, медицинской, географической или финансовой) или четко определенной области – для решения поставленной задачи может быть задействована самая различная информация.

Так, современные автомобили сегодня накапливают данные о водителе, погоде и окружающей среде, самом авто и допущенных системой ошибок, подключенных устройствах и др.[6] Предполагается, что в дальнейшем использование этих данных позволит системе, в частности, своевременно оповестить водителя о плохих дорожных условиях, а также автоматически активировать программы, необходимые для обеспечения безопасности поездки.

Другой пример: компания Spaceknow обращается к использованию снимков из космоса для прогнозирования цены на нефть: алгоритмы анализа способны определять уровень заполнения крупнейших нефтехранилищ в мире, отталкиваясь от угла падения тени[7].

2) big data analytics предполагает создание специальных алгоритмов анализа данных и иных инструментов. Вследствие этого big data рассматривается уже не как совокупность данных, а как техническое решение, алгоритм. Иными словами, применительно к процессу big data analytics значимость приобретает уже не столько объем данных, сколько специально разрабатываемые инструменты и технологические решения, которые позволяют решить поставленную задачу.

В качестве примера можно привести разработку российского стартапа Synqera[8]. Созданная им вычислительная платформа анализирует информацию о покупателе – историю его покупок, покупательские предпочтения, возраст, пол и даже настроение (на кассах магазинов сенсорные экраны с датчиками распознают эмоции покупателей). Полученный результат обогащается бизнес-информацией об акциях или скидках магазина, а также данными из открытых источников (из соцсетей или о погоде[9]). А по итогам покупателю отправляются таргетированные сообщения, предоставляются персональные скидки и специальные предложения и т.п. Примечательно, что анализ данных осуществляется в течение 40 секунд – времени ожидания, которые покупатель в среднем проводит на кассе в ожидании оплаты товаров. Основанием для разработки платформы стало исследование, подтверждающее, что покупатели тратят миллионы на импульсные покупки, поэтому время, проведенное на кассе, и было предложено использовать для стимуляции таких импульсных покупок.

Здесь же нельзя не вспомнить курьезный случай, когда алгоритм, разработанный для сети магазинов Target, на основании обработанных данных установил беременность американской школьницы до того, как об этом узнала она сама и ее родители, и начал предлагать скидки на детские товары и памперсы[10]. Примечательно, что в результате этого случая было принято решение скорректировать алгоритм применительно к несовершеннолетним.

3) big data analytics допускает использование одних и тех же данных для достижения различных целей: для этого они соответствующим образом трансформируются и агрегируются – с добавлением новых наборов данных или без таковых. То есть анализу могут быть подвергнуты все доступные для аналитики данные либо выборки из собранных и накопленных компанией данних – в зависимости от поставленной задачи. Причем упомянутые данные перемещаются непредсказуемо, могут использоваться бесконечное число раз и в целях, которые заранее сложно предвидеть.

Изложенное позволяет акцентировать внимание на том, что неверно понимать big data только как огромные объемы многообразной информации[11].

Применительно к сбору, накоплению, обработке и хранению данных термин «big data» используется для обозначения, во-первых, огромных объемов разнообразной информации, и, во-вторых, технологий сбора, накопления, обработки и хранения, которые признаются альтернативой системам управления базами данных. Применительно к аналитике больших данных термин «big data» употребляется обычно для обозначения именно алгоритмов (всевозможных технических решений), тогда как объемы данных уходят на второй план, что демонстрируют приведенные примеры.

Исходя из сказанного завершить эту часть статьи представляется правильным ответом на вопрос, можно ли рассматривать результаты использования big data в качестве РИД (такое мнение иногда высказывается в публикациях). На мой взгляд, ответ очевиден: учитывая, что big data analytics осуществляется машиной посредством применения специальных алгоритмов анализа данных и разнообразных технических решений, нет никаких оснований говорить о творческой деятельности человека и возникновении РИД. Создание самого алгоритма – это уже другой вопрос, который представляется крайне интересным, но не будет рассматриваться в настоящей статье.

  1. Персональные данные как составляющая big data

В развитие вышесказанного хотелось бы обратить внимание и на еще один момент. О создании данных речь идет применительно к тем случаям, когда они генерируются техническими источниками (интернет вещей, искусственный интеллект, машинное обучение). В отношении данных из социальных источников, по всей видимости, следует говорить не о создании, а о накоплении / сборе данных. Этот момент весьма значим для решения вопроса о том, кто может рассматриваться в качестве правообладателя («владельца») данных того или иного вида. И здесь мы вплотную подходим к проблеме соотношения big data и персональных данных.

Достаточно часто в литературе встречаются утверждения о тонкой грани или недостаточной четкости разграничения big data и персональных данных.

На самом деле такой грани/разграничения вовсе не существует: в потоке поступающей из разных социальных источников информации, разумеется, содержатся и личные сведения (персональные данные), представляющие собой весьма разнообразную информацию, о чем я писала ранее. Причем при сравнительно небольшом объеме (см. выше о процентном соотношении объемов данных, поступающих из технических и социальных источников) именно персональные данные обладают наибольшей коммерческой ценностью.

Данное обстоятельство как раз и является объяснением тому факту, что в обсуждениях проблематики big data эксперты нередко уходят в сферу персональных данных, и получение согласия на (многократное) использование персональных данных – самый животрепещущий вопрос.

Таким образом, еще одной весьма значимой характеристикой big data является то, что персональные данные свободно вливаются в потоки big data, становясь их составляющими. И именно их присутствие в составе big data вызывает большинство вопросов, не возникающих применительно к данным, поступающим из технических источников. Да и проблемы, требующие законодательного урегулирования, – это проблемы именно персональных данных, тогда отношения по поводу big data, на мой взгляд, не нуждаются в подробном правовом регулировании.

P.S. лента новостей IP CLUB в сфере права интеллектуальной собственности и цифрового права (IP & Digital Law) в:

[1] Редактор журнала “Nature”, которому приписывается введение этого термина в обиход в 2008 г. См.: https://www.nature.com/articles/455001a

[2] В п. 2 ст. 1260 ГК база данных определена как «представленная в объективной форме совокупность самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ)»

[3] В информатике под базами понимается совокупность данных, предназначенная для длительного хранения в особом, организованном виде, который определяется структурой (схемой) этой базы данных и правилами ее управления.

[4] Выделяют также и полуструктурированные данные.

[6] В публикациях встречаются указания на то, что каждое транспортное средство наподобие электромобилей Tesla вскоре будет генерировать до 25 Гб данных за час.

[9] Американский телеканал The Weather Channel создал data-платформу, с помощью которой отслеживается влияние местной погоды на настроение аудитории. По результатам обработки данных специалисты телеканала отправляют рекламодателям рекомендации о том, как и когда показывать рекламу, чтобы она была наиболее эффективной.

Big Data

Big Data — это бесконечные объемы оцифрованной информации. В 2008 году редактор научного журнала Nature Клиффорд Линч рассказал о потоке «больших данных». Теперь этим термином описывают все, что копится и обрабатывается в сетях и ПК. Источники Больших данных — каналы, по которым мы получаем текстовые материалы, изображения, видео, аудио, графики:

  • интернет;
  • считывающие устройства, датчики, трекеры;
  • соцсети, СМИ;
  • данные со спутника и измерительных приборов;
  • облачные хранилища;
  • научные открытия, медицинские исследования;
  • статистика компаний, городов, государств.

Те данные, которые уже обработала нейросеть или аналитик, называют структурированными. Информационные ресурсы непрерывно растут, поэтому большая часть Big Data всегда не структурирована.

Data Science или наука о данных — это математический и статистический анализ. Цель этого процесса — обработать массивы неструктурированной информации и найти в них что-то ценное для конкретных задач.

Характеристики Больших данных

К основным признакам информации VVV — volume/объем, velocity/скорость, variety/разнообразие, со временем добавили еще три V — veracity/достоверность, variability/изменчивость, value/ценность. Сейчас актуальна еще одна характеристика — безопасность.

  • Объем. Материалы занимают терабайты и петабайты памяти. К 2025 году Big Data увеличится до 175 зеттабайт. Обрабатывают такие объемы через грид-вычисления («виртуальный суперкомпьютер»), нейросети, специальные формулы и программы.
  • Скорость создания. Данные быстро генерируются и постоянно обновляются в режиме реального времени. Все мы в этом участвуем: 66% людей пользуются сотовой связью, и 60% регулярно выходят в Интернет.
  • Разнообразие. Любые цифровые форматы (анимация, фильмы, транзакции, аудиофайлы, показания сенсоров) относятся к Big Data. Они могут быть упорядоченными или скапливаться хаотично. Data mining — процесс, который помогает найти закономерности и привести данные к единому виду.
  • Достоверность. Информация для анализа должна быть неподдельной, из надежных источников. Иначе результаты будут бесполезными.
  • Изменчивость. Большинство данных поступают не последовательно, со спадами и всплесками.
  • Ценность. Чтобы оценить пользу данных, их делят на две категории. Важные и сложные — финансовая аналитика, показатели медицинских приборов, статистика населения, сигналы со спутников. Второстепенные и простые — фотографии из соцсетей, комментарии под видео, городской справочник.
  • Безопасность. Файлы должны быть очищены от вирусов и защищены от взлома. Конфиденциальность данных волнует почти половину потребителей — 48% в 2019 году отказались от компаний, которые недостаточно заботятся о безопасности. И следующие 5 лет 74% предпринимателей планируют развивать этику работы с данными.

Как работает технология Big Data

Google разработали MapReduce — самую известную модель вычислений для Больших данных. На ее примере опишем технологию работы с Big Data:

  1. Массив информации проходит через программные коды MapReduce.
  2. Программа разделяет данные на форматы.
  3. Параллельно обрабатывается каждая часть массива.
  4. В финале все результаты объединяются на отдельном узле.

Искусственные нейросети пропускают через себя нужные материалы по этому же принципу. Они получают и обрабатывают новую информацию, то есть постоянно обучаются.

Как используют Big Data

Компании изучают своих пользователей, отслеживают мировые тенденции и делают прогнозы. Такие корпорации, как Google, Facebook, Microsoft, имеют больше данных для анализа Big Data благодаря широкой аудитории. Рассмотрим, как это работает в разных сферах.

Маркетинг. Большие данные в торговле помогают изучать предпочтения клиентов: какой товар пользуется спросом в будние и выходные дни, как меняются предпочтения из сезона в сезон. На основании результатов, гипермаркеты корректируют ассортимент, ценовую политику, оформление зала и рекламу. Так, Amazon проводит полную аналитику поведения своих покупателей, чтобы рекомендовать им подходящие товары.

Найм сотрудников. HR-аналитику проводят, чтобы вычислить текучесть кадров, загруженность персонала, каналы привлечения новых сотрудников. Рекрутеры обрабатывают много заявок на вакансии, собирают сведения о каждом кандидате, проводят собеседования, делают заметки и по результатам выбирают подходящих.

Банки анализируют поведение клиентов и предлагают выгодные кредитные условия.

Большие данные применяют и для безопасности платежей. Например, если пользователь снял крупную сумму далеко от его места жительства, банк может заподозрить, что карта попала в руки мошенников и временно заблокировать ее.

Медицина. В здравоохранении с помощью технологии можно собирать данные о привычках пациентов, об образе жизни, хирургических вмешательствах, амбулаторных обследованиях, а после — предлагать лечение.

Также Большие данные помогают анализировать МРТ, КТ снимки и анализы. И управлять медицинским персоналом: следить, сколько пациентов принимают врачи, какое лечение назначают и удается ли вылечить людей.

Госструктуры. Большие данные помогают следить за населением, выявлять преступников и мошенников. Например, можно проанализировать где, в какое время граждане чаще нарушают порядок и разработать график патрулирования.

Сведения о нарушителях получают через видеокамеры, GPS-датчики, анализ комментариев, публикуемого контента, сообществ в интернете.

Транспорт. Большие данные помогают системам навигации построить маршрут в объезд пробкам и просчитывают загруженность дорог. ГЛОНАСС собирает координаты, контролирует скорость движения. Так система Яндекс.Такси показывает водителю районы с высоким спросом.

Логистика. Здесь Big Data нужна, чтобы следить, успевают ли сотрудники принимать заказы, соблюдают ли сроки поставки и как заполняется склад. Для обработки используют машинные данные со сканеров посылок в почтовых офисах, а также отзывы людей в интернете.

Обработка фото. Программы для обработки фото считывают недостатки и автоматически корректируют их или предлагают фильтры, которые тоже работают на основании Больших данных. Есть приложения, в которые можно загрузить селфи и найти своего «двойника» или разыскать человека по фото. А в интернет-магазинах есть функция поиска похожих товаров.

В медиа Большие данные — это реакции пользователей на контент: лайки, репосты, комментарии, просмотры. Медиаресурсы научились предлагать пользователям то, что может их заинтересовать. Платформа Netflix учитывает продолжительность фильмов, жанр и даже паузы во время просмотра для подбора рекомендаций.

Методики анализа и обработки Больших данных

Машинное обучение и нейронные сети. Искусственный интеллект можно запрограммировать на распознавание лиц, математические расчеты, прогнозирование. Для этого нужны большие объемы достоверных данных из разных источников. Например, шахматист из Санкт-Петербурга загрузил сыгранные виртуальные партии в многомерную аналитическую модель и изобрел новую систему подготовки к турнирам. Так начинается много успешных стартапов.

Прогнозная аналитика. Чтобы сделать прогноз, аналитика использует шаблоны, которые построены на предыдущем опыте. С ней можно предсказать цену доллара, нефти или платежеспособность клиента банка.

Имитационное моделирование. Здесь нужно сымитировать изменения: в прошлых отчетах и графиках повысить или понизить показатель, например, цену продукта. Расчеты дохода и результаты отчетов будут меняться, так вы увидете риски.

Статистический анализ. Чем больше информации для статистики, тем выше достоверность. Статистика вычисляет средние значения. Также с помощью статистики можно определить закономерности (корреляцию).

Data Mining построена на:

  • классификации — разделении данных на группы;
  • кластеризации — поиск сходств;
  • ассоциации — распознавании похожих образов;
  • регрессионном анализе — поиск факторов, которые могут изменить результаты;
  • анализе отклонений — поиск нетипичной информации.

Визуализация аналитических данных — это финальный этап анализа. Результаты получают в виде 3D-модели, графика, диаграммы, карты и пиктограммы, гистограммы.

Описательная аналитика. Ее цель — изучать данные, которые поступают на компьютеры. Анализ Больших данных помогает понять, почему некоторые события приводят к успеху, а другие — к неудаче. Затем строится модель будущих действий и решений. Данные рекламных кабинетов — пример описательной аналитики.

Предписательская аналитика находит кризисные ситуации и рассчитывает, как избежать неудач в будущем, создает сценарии, которые помогают избежать повтора ошибок.

Диагностическая аналитика выясняет причины происходящего, находит между событиями взаимосвязь и аномалии.

Кто работает с Большими данными

Для работы с Big Data нужен навык программирования, опыт работы с системами баз данных и аналитики, знание языка java и математического анализа.

Дата-сайентист находит закономерности, строит модели и гипотезы и прогнозирует возможные варианты событий. Может предсказать, сколько товара будет продано магазином в сезонную распродажу, или какой погоды ждать в конце лета. Для этого дата-сайентист исследует статистику прошлых лет.

Аналитик данных проводит анализ, описывает результаты и приводит их в понятный для восприятия вид.

Дата-инженер организует сбор информации, хранение и первоначальную обработку.

Инженеры создают программное обеспечение, которое автоматизирует задачи исследования данных.

Проблемы и перспективы Big Data

Big Data помогает:

  • развивать новые технологии;
  • вести медицинскую статистику;
  • прогнозировать будущее компаний и государств;
  • отслеживать экологическую ситуацию;
  • создавать «умные» города и делать городскую среду комфортной.

Информации становится все больше, сведения для нейросетей постоянно обновляются. Для торговли это вечный двигатель: компании генерируют половину Больших данных, проводят исследования, результаты применяют для развития бизнеса и увеличивают их доход.

Из-за переизбытка информации с Big Data могут возникать проблемы. Например:

  • Не хватает вычислительной мощности. Обработкой Big Data занимаются специальные вычислительные компьютеры. Это дорогие ресурсы, которые доступны только компаниям-гигантам.
  • Вопросы приватности. Компании собирают информацию, в том числе и персональную. Многие пользователи против этого и даже обращаются в суд. Иски подавали на Google, Facebook.
  • Честность работы с данными и безопасность. Есть случаи, когда на данных пытаются нелегально заработать. Продают недостоверные клиентские базы или просто конфиденциальную информацию. В этом обвинили антивирусную систему Аваст. Хакеры взламывают серверы, которые хранят Большие данные, и данные попадают в третьи руки.

Что важно запомнить

  • Объем, скорость создания, разнообразные форматы, безопасность, ценность, изменчивость — главные признаки Больших данных.
  • Обработкой Big Data занимаются дата-аналитики, дата-инженеры и дата-сайентисты с помощью программирования.
  • Применяют Big Data в медицине, маркетинге, логистике и строительстве, навигации, госструктурах и медиа.
  • К минусам технологии можно отнести необходимость следить за безопасностью данных, поддерживать вычислительные ресурсы, приватность пользователей и клиентов компаний. А к плюсам — помощь в решение медицинских и экологических задач человечества, контроль распределения государственного бюджета, создание комфортной городской среды.
  • Перспективы Больших данных долгосрочные и многообещающие. Нейросети быстро развиваются и пользуются популярностью.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *