Кто такой и чем занимается Data QA Engineer
Автор этой статьи в блоге Stack Overflow — Data QA Engineer, то есть инженер обеспечения качества данных. По его словам, у него есть друзья, занятые в сфере технологий и разработки ПО, которые не совсем понимают, что такое тестирование данных, зачем оно нужно и как оно вписывается в мир программирования.
Это вполне объяснимо: наука о данных — совершенно новая область, и даже те, кто работает с данными каждый день, должны оставаться открытыми ко всем изменениям в работе. О профессии Data QA Engineer рассказываем к старту курса по Data Engineering.
Чтобы разобраться с тем, как работает тестирование данных, сначала нужно разобраться с тем, что такое инженерия данных.
Инженерия данных и их анализ
Давайте начнём с того, что такое данные. Данные — это агрегированная информация, которая хранится в инструменте для ведения бизнеса. Будет ли это инструмент в виде электронной таблицы или базы данных, зависит от предприятия, но мы начнём именно с этого места, где данные создаются.
Сырые данные в источнике мало кому полезны. Здесь и приходит на помощь инженерия данных. Инженерией данных мы называем процесс получения сырых данных и их превращения в полезные: это извлечение, преобразование, загрузка, то есть Extract, Transform, Load — ETL.
После извлечения данных из источников их можно преобразовать согласно потребностям бизнеса и загрузить в инструменты бизнес-анализа. После этого бизнес-аналитики и финансовые аналитики смогут воспользоваться наборами данных, чтобы создать отчёты, диаграммы и другие метрики по запросу. Именно метрики информируют людей, которые принимают решения.
Преобразование данных
Преобразование данных — это, пожалуй, самый важный момент в инженерии данных. Возьмём пример — розничный бизнес с несколькими магазинами. В старых магазинах используется устаревшая система точек продаж (POS), а в новых — более современная система.
В каждом типе POS-системы транзакции записываются и хранятся по-разному и в разных базах данных. Если владелец бизнеса хочет видеть еженедельный отчёт о продажах, это потребует агрегирования транзакций из обеих систем.
Иными словами, необходим процесс преобразования, который позволит получить информацию о транзакциях из каждой системы и свести разрозненные системы воедино таким образом, чтобы они обрели смысл. Здесь возникнут вопросы о данных транзакции и о связи этих данных с отчётом продаж. Как в старой и новой системах учитываются возвраты, если сравнивать их с фактической продажей?
Посмотрим внимательнее. Старая POS хранит всё в базе данных, которая несовместима с базой данных новой POS, поэтому нет возможности просто объединить информацию. Прежде чем транзакции можно будет свести воедино, необходим этап преобразования данных. Напомню, что владелец бизнеса просто хочет получать агрегированную информацию о продажах в виде отчёта.
Потребность в отчёте о продажах и объединение разрозненных систем, — вот два важнейших элемента, которые определяют смысл набора данных. В нашем примере мы искали сначала определение «продаж», а позже нам понадобился отчёт по ним. Как вы понимаете, туманное и субъективное определение продаж бизнесом может сильно затруднить тестирование данных.
Измерение качества данных
Определить качество данных без какого-либо эталона измерения невозможно. Как правило, в рамках процессов тестирования эталоном являются отчётные показатели. Возникает вопрос: как найти нечто измеримое, чтобы проверить продукт с точки зрения данных?
Шесть измерений качества данных
Текущий отраслевой стандарт валидации [проверки корректности] данных — тестирование моделей данных при помощи шести измерений качества данных, конвейеров, архитектуры и многого другого. Эти шесть измерений впервые определены в документе «Шесть основных измерений для оценки качества данных». Документ написан британским отделением Ассоциации управления данными (DAMA) в 2013 году.
Шесть измерений — это в основном согласованная серия проверочных показателей. Эти показатели используются для оценки качества любого набора данных и помогают инженерам по качеству данных и Data-инженерам создавать измеримые показатели валидности, которые можно улучшить. Вот эти метрики:
- Согласованность. Если данные копируются в несколько баз данных, систем, таблиц и отчётов, они должны оставаться неизменными, что делает их согласованными. Например, текущий почтовый индекс клиента всегда должен состоять из пяти цифр (девяти, если вы используете ZIP+4), независимо от того, где обнаружены данные.
- Точность. Возможно, самый туманный показатель качества данных — это то, насколько точно они отражают реальное явление или объект. Пример: в таблице есть столбец, представляющий общую сумму в долларах по всем транзакциям клиента. Другой столбец представляет общую сумму транзакций. Значения этих столбцов должны чётко прослеживаться до источников, где возможно доказать, что итоги соответствуют транзакциям, которые имели место.
- Корректность. В любом конкретном поле набора данных, скорее всего, есть требование к типу данных. Вы не ожидаете увидеть числа в поле state, значения которого ограничены двухбуквенными обозначениями штатов США: NY, CA или IL. Целое число в этом поле — некорректные данные.
- Уникальность. Для каждой уникальной записи, ожидаемой в базе данных, должно существовать поле, которое уникально идентифицирует каждую запись, например номер счёта клиента в случае базы данных интернет-магазинов. Уникальность номера счёта может иметь решающее значение для идентификации повторяющихся операций по счёту одного клиента.
- Полнота. Данные являются неполными, если в них отсутствуют критически важные поля. Например, в записи о финансовой транзакции, возможно, для каждой операции должна быть метка времени. Если её нет, набор данных о транзакциях неполный.
- Своевременность. Своевременность данных определяется потребностями бизнеса. Например, если набор данных необходимо обновлять ежедневно, метрика тестирования своевременности набора данных также будет означать «ежедневно».
Тестирование и проверка любого набора данных должны охватывать каждое из этих измерений. Особенно это касается автоматизированных модульных тестов, но об этом позже. Если вы хотите погрузиться в тему, прочитайте эту замечательную статью.
Тестирование данных в процессе инженерии данных
Теперь, когда мы знаем о шести измерениях качества данных, о том, как инженерия данных работает в целом, а также знаем о критической важности бизнес-определений потребности в данных, задача состоит в том, чтобы собрать всё это вместе и составить план тестирования.
Инженеры по качеству данных находятся в самом центре инженерии данных; мы поддерживаем техническую работу инженеров по предоставлению набора данных и проверяем данные вместе с бизнес-аналитиками.
Типы QA-тестов данных
В тестировании ПО есть несколько распространённых типов тестов качества. Эти тесты выявляют ошибки, подтверждают работоспособность компонентов и исследуют ожидаемое поведение программного обеспечения. Такие тесты полезны и в тестировании данных. Если вы хоть немного знакомы с ними, значит, вы уже кое-что понимаете в тестировании данных. Это
- Модульные тесты — это небольшие тесты, встроенные в код моделирования данных, чтобы определить небольшие точки останова внутри критических блоков кода, которые необходимы для обеспечения базовой функциональности. К примеру, возможно, есть столбец, в данных которого не должно быть значений NULL. Быстрый модульный тест может проверить поле.
- Интеграционные тесты проверяют работу совокупности частей программы или конвейера, а не какой-то одной части. В примере с конвейером данных интеграционные тесты проверяют, что весь процесс ETL успешно выполняется от начала до конца.
- Дымовые тесты — это быстрые тесты для проверки наиболее важных и обычных частей конвейера данных на наличие сбоев. Термин возник при тестировании компьютеров, когда первым испытанием было включить машину в сеть и проверить, не идёт ли из неё дым. Как вы понимаете, если появлялся дым, инженеры выключали машину и пробовали снова.
- Регрессионные тесты — это серия тестов для проверки основных операций программы. Набор тестов рассматривает стандартные функциональные части кода, которые никогда не должны изменяться, поэтому тесты называют регрессионными. Обычно это основной набор, который выполняют перед выпуском продукта. В смысле данных регрессия обычно охватывает критически важные преобразования.
- Тестирование новой функциональности — тесты для проверки новых компонентов («функций»), которые были добавлены в программу поверх её текущих операций. Они добавляются в наборы регрессионных тестов, если новые функции критичны для производственных релизов и должны оставаться неизменными.
Это обычные типы тестов, которые многие команды разработчиков ПО используют регулярно. И они могут применяться в тестировании данных.
Модульные тесты — секретное оружие валидации
Data QA Engineer должен повышать ценность работы инженеров для бизнеса и предоставлять полезную обратную связь. Data QA почти всегда начинается с ручного тестирования, особенно на предприятиях с устаревшими базами и технологиями хранилищ данных.
На ноутбуке инженера по контролю качества данных, скорее всего, будет несколько сотен SQL-скриптов. Но такое ручное тестирование по-прежнему должно проверять шесть аспектов качества данных, не становясь узким местом производственных релизов. При этом автоматизация тестирования данных вполне возможна, особенно когда речь идёт о модульных тестах и ассертах (ассерты — это тесты, которые проверяют предположения).
По моему опыту, одна из важнейших задач инженера по контролю качества данных заключается в распространении информации о модульных тестах, встроенных в конвейер данных.
Модульные тесты, реализованные инженером данных во время разработки преобразования данных, могут выявить ошибки в данных ещё до того, как инженеры по контролю качества данных увидят набор данных.
Data Engineer не привыкли к модульным тестам: это больше практика разработки ПО, но я не единственный, кто считает, что инженерии данных нужно больше модульного тестирования в плане культуры. Популярные фреймворки с открытым исходным кодом, к примеру data build tool (dbt), имеют встроенные модульные тесты, которые могут предотвратить проблемы с полнотой, уникальностью и своевременностью данных. Другие инструменты проверки с открытым исходным кодом, такие как Great Expectations, размещают поверх конвейера данных набор модульных тестов-ассертов.
Автоматизация
Автоматизация в мире качества данных — важнейший аспект. Например, используя сочетание модульного тестирования и тестирования полноты данных, Data QA Engineer могут написать небольшой, быстрый автоматизированный тест, который проверяет наличие любых значений NULL в критически важном поле данных.
Чем больше в вашем конвейере данных автоматизированных тестов, которые различными способами проверяют критические параметры качества данных, тем меньше работы приходится выполнять Data Engineer.
Что, если бы вместо генерации таблицы, просмотра её с помощью SQL каждый раз и подключения к базе данных, инженер по данным имел встроенный набор регрессионных тестов, который выполнял бы ежедневные проверки за него? Такими видами автоматизации и разработки тестов и заняты Data QA Engineer.
Итоги
Тестирование данных — это уникальная область, она развивается и изменяется каждый день. Общепризнанных стандартов качества данных не так много, и даже такие стандарты, как шесть измерений качества данных, вызывают споры. Всё больше областей Data Science, таких как машинное обучение и искусственный интеллект, развиваются и создают новые способы проверки точности, согласованности, полноты и других критериев качества данных.
Качество данных сегодня в значительной степени зависит от субъективного значения набора данных, а также от потребностей людей на том конце конвейера данных. Этот факт затрудняет поиск эталонов тестирования и улучшения качества данных, но можно воспользоваться знаниями о полезных типах тестов, а также знаниями об измерениях качества данных. Чем больше мы будем понимать, как использовать данные, тем активнее будут развиваться метрики качества данных, и тем лучше мы будем понимать тестирование данных.
Продолжить изучение Data Engineering и Data Science вы сможете на наших курсах:
- Узнать подробности акции
- Курс по Data Engineering (10 недель)
- Профессия Data Scientist (24 месяца)
Профессии и курсы
Data Science и Machine Learning
- Профессия Data Scientist
- Профессия Data Analyst
- Курс «Математика для Data Science»
- Курс «Математика и Machine Learning для Data Science»
- Курс по Data Engineering
- Курс «Machine Learning и Deep Learning»
- Курс по Machine Learning
Python, веб-разработка
- Профессия Fullstack-разработчик на Python
- Курс «Python для веб-разработки»
- Профессия Frontend-разработчик
- Профессия Веб-разработчик
Мобильная разработка
- Профессия iOS-разработчик
- Профессия Android-разработчик
Java и C#
- Профессия Java-разработчик
- Профессия QA-инженер на JAVA
- Профессия C#-разработчик
- Профессия Разработчик игр на Unity
От основ — в глубину
- Курс «Алгоритмы и структуры данных»
- Профессия C++ разработчик
- Профессия Этичный хакер
А также
Инженер по качеству данных (Data Quality Engineer)
Уважаемые инженеры Data Quality!
Международная продуктовая IT-компания, разрабатывающая софт для индустрии трейдинга и инвестиций приглашает вас в команду Data Platform!
Задачи:
- написание тестов для выявления найденных дефектов;
- покрытие тест кейсами бизнес данных компании;
- построение “индекса” качества данных по доменам или сервисам для прозрачности заказчиков платформы;
- нахождение причин дефектов данных;
- эскалация инцидентов data steward (владельцу данных).
Требования:
- Python и Scala/Java, чтобы создавать компоненты для автоматизации тестирования; SQL
- понимание построения DWH системы;
- опыт тестирования Big Data и выявления аномалий;
- Английский язык.
Предстоит:
заниматься покрытием автоматизированными тестами финансовых отчетов, создавать модуль по самописному компоненту мониторинга данных.
Условия:
- все по ТК РФ;
- белая ЗП;
- ДМС (включая стоматологию);
- оплачиваем корпоративный спортзал;
- релокационный пакет.
Мы работаем только онлайн, связаться с нами можно по следующим каналам:
Тренинг Data Quality Engineering от Epam
Владеете английским языком на уровне В1, знакомы с базами данных и Unix-подобными ОС и умеете программировать? Тогда регистрируйтесь на бесплатный тренинг по Data Quality. Обучение доступно только для жителей Твери, Санкт-Петербурга, Самары и Нижнего
ЧТО ТАКОЕ DATA QUALITY Чем занимается Data Quality инженер? Data Quality Engineer – это инженер по качеству. Он занимается проверкой информации, которая должна быть удобна в использовании, соответствовать бизнес-требованиям и установленным метрикам качества. Кроме того, инженеры Data Quality выстраивают процессы автоматических проверок данных на разных уровнях системы и этапах её разработки. Какие задачи выполняют Data Quality инженеры? разрабатывают метрики качества данных; участвуют в разработке специальных утилит для оценки данных; выстраивают процессы автоматических проверок данных; анализируют ошибки в данных; проверяют информацию в системе на соответствие бизнес-требованиям и установленным метрикам. В EPAM мы работаем с современными масштабируемыми облачными сервисами на базе Amazon Web Services, Google Cloud, MS Azure. Также широко используем технологии Big Data: Hadoop, ELK stack, Spark, Kafka и т.д. ЧТО Я УЗНАЮ И ЧЕМУ НАУЧУСЬ На бесплатном тренинге по Data Quality вы: изучите современные технологии обработки и анализа данных; научитесь применять Python для создания инструментов валидации данных; освоите SQL как универсальный «язык доступа к данным»; приобретете опыт работы с Data Warehouses; изучите основы Linux для использования облачных сервисов; познакомитесь с классической теорией тестирования ПО. Также у вас будет доступ к: бесплатным курсам английского языка; бесплатным soft skills тренингам; профессиональному комьюнити Data Quality инженеров EPAM; студенческим IT-ивентам.
Тестировщик больших и маленьких данных: тренды, теория, моя история
Всем привет, меня зовут Александр, и я Data Quality инженер, который занимается проверкой данных на предмет их качества. В этой статье речь пойдёт о том, как я к этому пришёл и почему в 2020 году это направление тестирования оказалось на гребне волны.
Мировой тренд
Сегодняшний мир переживает очередную технологическую революцию, одним из аспектов которой является использование всевозможными компаниями накопленных данных для раскрутки собственного маховика продаж, прибылей и пиара. Представляется, что именно наличие хороших (качественных) данных, а также умелых мозгов, которые смогут из них делать деньги (правильно обработать, визуализировать, построить модели машинного обучения и т. п.), стали сегодня ключом к успеху для многих. Если 15-20 лет назад плотной работой с накоплением данных и их монетизацией занимались в основном крупные компании, то сегодня это удел практически всех здравомыслящих.
В связи с этим несколько лет назад все порталы, посвящённые поиску работы по всему миру, стали переполняться вакансиями Data Scientists, так как все были уверены, что, получив себе в штат такого специалиста, можно построить супермодель машинного обучения, предсказать будущее и совершить «квантовый скачок» для компании. Со временем люди поняли, что такой подход почти нигде не работает, так как далеко не все данные, которые попадают в руки такого рода специалистам, пригодны для обучения моделей.
И начались запросы от Data Scientists: «Давайте купим ещё данных у этих и у тех.…», «Нам не хватает данных. », «Нужно ещё немного данных и желательно качественных. ». Основываясь на этих запросах, стали выстраиваться многочисленные взаимодействия между компаниями, владеющими тем или иным набором данных. Естественно, это потребовало технической организации этого процесса — подсоединиться к источнику данных, выкачать их, проверить, что они загружены в полном объёме и т. п. Количество таких процессов стало расти, и на сегодняшний день мы получили огромную потребность в другого рода специалистах — Data Quality инженерах — тех кто следил бы за потоком данных в системе (data pipelines), за качеством данных на входе и на выходе, делал бы выводы об их достаточности, целостности и прочих характеристиках.
Тренд на Data Quality инженеров пришёл к нам из США, где в разгар бушующей эры капитализма никто не готов проигрывать битву за данные. Ниже я представил скриншоты с двух самых популярных сайтов поиска работы в США: www.monster.com и www.dice.com — на которых отображены данные по состоянию на 17 марта 2020 года по количеству размещенных вакансий полученных, по ключевым словам: Data Quality и Data Scientist.
Очевидно, что эти профессии никоим образом не конкурируют друг с другом. Скриншотами я просто хотел проиллюстрировать текущую ситуацию на рынке труда в плане запросов на Data Quality инженеров, которых сейчас требуется сильно больше, чем Data Scientists.
В июне 2019 года EPAM, реагируя на потребности современного ИТ-рынка, выделил Data Quality направление в отдельную практику. Data Quality инженеры в ходе своей повседневной работы управляют данными, проверяют их поведение в новых условиях и системах, контролируют релевантность данных, их достаточность и актуальность. При всём при этом, в практическом смысле Data Quality инженеры действительно немного времени посвящают классическому функциональному тестированию, НО это сильно зависит от проекта (пример я приведу далее).
Обязанности Data Quality инженера не ограничиваются только рутинными ручными/автоматическими проверками на «nulls, count и sums» в таблицах БД, а требуют глубокого понимания бизнес нужд заказчика и, соответственно, способностей трансформировать имеющиеся данные в пригодную бизнес-информацию.
Теория Data Quality
Для того чтобы наиболее полно себе представить роль такого инженера, давайте разберёмся, что же такое Data Quality в теории.
Data Quality — один из этапов Data Management (целый мир, который мы оставим вам на самостоятельное изучение) и отвечает за анализ данных по следующим критериям:
Думаю, не стоит расшифровывать каждый из пунктов (в теории называются «data dimensions»), они вполне хорошо описаны на картинке. Но сам процесс тестирования не подразумевает строгое копирование этих признаков в тест-кейсы и их проверку. В Data Quality, как и в любом другом виде тестирования, необходимо прежде всего отталкиваться от требований по качеству данных, согласованных с участниками проекта, принимающими бизнес-решения.
В зависимости от проекта Data Quality инженер может выполнять разные функции: от обыкновенного тестировщика-автоматизатора с поверхностной оценкой качества данных, до человека, проводящего их глубокое профилирование по вышеуказанным признакам.
Очень подробное описание процессов Data Management, Data Quality и смежных отлично описаны в книге под названием «DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition». Очень рекомендую данную книгу как вводную в этой тематике (ссылку на нее найдете в конце статьи).
Моя история
В ИТ-индустрии я прошёл путь от Junior тестировщика в продуктовых компаниях до Lead Data Quality Engineer в компании EPAM. Уже примерно года через два работы в качестве тестировщика у меня было твёрдое убеждение в том, что я делал абсолютно все виды тестирования: регрессионное, функциональное, стрессовое, стабильности, безопасности, UI и т. д. — и перепробовал большое количество инструментов тестирования, поработав при этом на трёх языках программирования: Java, Scala, Python.
Оглядываясь назад, я понимаю, почему набор моих профессиональных навыков оказался столь разнообразен — я участвовал в проектах, завязанных на работе с данными, большими и маленькими. Именно это привело меня в мир большого количества инструментов и возможностей для роста.
Чтобы оценить многообразие инструментов и возможностей получения новых знаний и навыков, достаточно просто взглянуть на картинку ниже, на которой изображены самые популярные из них в мире «Data & AI».
Такого рода иллюстрации составляет ежегодно один из известных венчурных капиталистов Matt Turck, выходец из разработки ПО. Вот ссылка на его блог и фирму венчурного капитала, где он работает партнёром.
Особенно быстро я профессионально рос, когда я был единственным тестировщиком на проекте, или, по крайней мере, в начале проекта. Именно в такой момент приходится отвечать за весь процесс тестирования, и у тебя нет возможности отступить, только вперёд. Поначалу это пугало, однако теперь мне очевидны все плюсы такого испытания:
- Ты начинаешь общаться со всей командой как никогда, так как нету никакого прокси для общения: ни тест-менеджера, ни коллег тестировщиков.
- Погружение в проект становится невероятно глубоким, и ты владеешь информацией обо всех компонентах как в общем, так и в подробностях.
- Разработчики не смотрят на тебя как на «того парня из тестирования, который непонятно чем занимается», а скорее, как на равного, производящего невероятную выгоду для команды своими автотестами и предвидением появления багов в конкретном узле продукта.
- Как результат — ты более эффективен, более квалифицирован, более востребован.
Пример конкретного проекта
К сожалению, в силу обязательств о неразглашении я не могу подробно рассказывать о проектах, на которых я работал, однако приведу примеры типичных задач Data Quality Engineer на одном из проектов.
Суть проекта — реализовать платформу для подготовки данных для обучения на их основе моделей машинного обучения. Заказчиком была крупная фармацевтическая компания из США. Технически это был кластер Kubernetes, поднимающийся на AWS EC2 инстансах, с несколькими микросервисами и лежащим в основе Open Source проектом компании EPAM — Legion, адаптированным под нужды конкретного заказчика (сейчас проект перерожден в odahu). ETL-процессы были организованы при помощи Apache Airflow и перемещали данные из SalesForce системы заказчика в AWS S3 Buckets. Далее на платформу деплоился докер образ модели машинного обучения, которая обучалась на свежих данных и по REST API интерфейсу выдавала предсказания, интересующие бизнес и решающие конкретные задачи.
Визуально всё выглядело примерно так:
Функционального тестирования на этом проекте было предостаточно, а учитывая скорость разработки фичей и необходимости поддержания темпов релизного цикла (двухнедельные спринты), необходимо было сразу задумываться об автоматизации тестирования самых критичных узлов системы. Большая часть самой платформы с Kubernetes основой покрывалась автотестами, реализованными на Robot Framework + Python, но поддерживать и расширять их также было нужно. Кроме того, для удобства заказчика, был создан GUI для управления моделями машинного обучения, задеплоенными на кластер, а также возможность указать откуда и куда необходимо перенести данные для обучения моделей. Это обширное дополнение повлекло за собой расширение автоматизированных функциональных проверок, которые по большей части делались через REST API вызовы и небольшое количество end-2-end UI-тестов. Примерно на экваторе всего этого движения к нам присоединился ручной тестировщик, который отлично справлялся с приёмочным тестированием версий продукта и общением с заказчиком по поводу приёмки очередного релиза. Кроме того, за счёт появления нового специалиста мы смогли документировать нашу работу и добавить несколько очень важных ручных проверок, которые было трудно сразу автоматизировать.
И наконец, после того как мы добились стабильности от платформы и GUI надстройкой над ней мы приступили к построению ETL pipelines при помощи Apache Airflow DAGs. Автоматизированная проверка качества данных осуществлялась при помощи написания специальных Airflow DAGs которые проверяли данные по результатам работы ETL процесса. В рамках этого проекта нам повезло, и заказчик предоставил нам доступ к обезличенным наборам данных, на которых мы и тестировались. Проверяли данные построчно на соответствие типам, наличие битых данных, общее количество записей до и после, сравнение произведенных ETL-процессом преобразований по агрегации, изменению названий колонок и прочего. Кроме того, эти проверки были масштабированы на разные источники данных, например кроме SalesForce ещё и на MySQL.
Проверки конечного качества данных осуществлялись уже на уровне S3, где они хранились и были в состоянии ready-to-use для обучения моделей машинного обучения. Для получения данных из конечного CSV файла, лежащего на S3 Bucket и их валидации, был написан код с использованием boto3 клиента.
Также со стороны заказчика было требование на хранение части данных в одном S3 Bucket’e, части в другом. Для этого также потребовалось писать дополнительные проверки, контролирующие достоверность такой сортировки.
Обобщённый опыт по другим проектам
Пример самого обобщённого перечня активностей Data Quality инженера:
- Подготовить тестовые данные (валидные\невалидные\большие\маленькие) через автоматизированный инструмент.
- Загрузить подготовленный набор данных в исходный источник и проверить его готовность к использованию.
- Запустить ETL-процессы по обработке набора данных из исходного хранилища в окончательное или промежуточное с применением определённого набора настроек (в случае возможности задать конфигурируемые параметры для ETL-задачи).
- Верифицировать обработанные ETL-процессом данные на предмет их качества и соответствие бизнес-требованиям.
Инструменты
Одной из техник такого контроля за данными может быть организация цепных проверок на каждой стадии обработки данных, так называемый в литературе «data chain» — контроль данных от источника до пункта финального использования. Такого рода проверки чаще всего реализуются за счёт написания проверяющих SQL-запросов. Понятное дело, что такие запросы должны быть максимально легковесными и проверяющими отдельные куски качества данных (tables metadata, blank lines, NULLs, Errors in syntax — другие требуемые проверки атрибуты).
В случае регрессионного тестирования, в котором используются уже готовые (неизменяемые\незначительно изменяемые) наборы данных, в коде автотестов могут храниться уже готовые шаблоны проверки данных на соответствие качеству (описания ожидаемых метаданных таблиц; строчных выборочных объектов, которые могут выбираться случайно в ходе теста, и прочее).
Также в ходе тестирования приходится писать тестовые ETL-процессы, при помощи таких фреймворков как Apache Airflow, Apache Spark или вовсе black-box cloud инструмент типа GCP Dataprep, GCP Dataflow и прочее. Это обстоятельство заставляет тест-инженера погрузиться в принципы работы вышеуказанных инструментов и ещё более эффективно как проводить функциональное тестирование (например, существующих на проекте ETL-процессов), так и использовать их для проверки данных. В частности, для Apache Airflow имеются уже готовые операторы для работы с популярными аналитическими базами данных, например GCP BigQuery. Самый базовый пример его использования уже изложен тут, поэтому не буду повторяться.
Кроме готовых решений, никто не запрещает вам реализовывать свои техники и инструменты. Это не только будет пользой для проекта, но и для самого Data Quality Engineer, который тем самым прокачает свой технический кругозор и навыки кодирования.
Как это работает на реальном проекте
Хорошей иллюстрацией последних абзацев про «data chain», ETL и вездесущие проверки является следующий процесс с одного из реальных проектов:
Здесь во входную «воронку» нашей системы попадают разные данные (естественно, нами и подготовленные): валидные, невалидные, смешанные и т. п., потом они фильтруются и попадают в промежуточное хранилище, затем их снова ждёт ряд преобразований и помещение в конечное хранилище, из которого, в свою очередь, и будет производится аналитика, построение витрин данных и поиск бизнес-инсайтов. В такой системе мы, не проверяя функционально работу ETL-процессов, фокусируемся на качестве данных до и после преобразований, а также на выходе в аналитику.
Резюмируя вышесказанное, вне зависимости от мест, где я работал, везде был вовлечён в Data-проекты, которые объединяли следующие черты:
- Только через автоматизацию можно проверить некоторые кейсы и достичь приемлемого для бизнеса релизного цикла.
- Тестировщик на таком проекте — один из самых уважаемых членов команды, так как приносит огромную пользу каждому из участников (ускорение тестирования, хорошие данные у Data Scientist, выявление дефектов на ранних этапах).
- Неважно на своём железе вы работаете или в облаках — все ресурсы абстрагированы в кластер типа Hortonworks, Cloudera, Mesos, Kubernetes и т. п.
- Проекты строятся на микросервисном подходе, преобладают распределённые и параллельные вычисления.
Отличительные особенности Data Quality тестирования
Кроме того, для себя я выделил следующие (сразу оговорюсь ОЧЕНЬ обобщённые и исключительно субъективные) отличительные черты тестирования в Data (Big Data) проектах (системах) и других направлениях:
Полезные ссылки
- Теория: DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition.
- Тренинг-центр EPAM
- Рекомендуемые материалы для начинающего Data Quality инженера:
- Бесплатный курс на Stepik: Введение в базы данных.
- Курс на LinkedIn Learning: Data Science Foundations: Data Engineering.
- Статьи:
- Business Intelligence and Data Quality;
- ETL Testing;
- What Is Data Profiling? Process, Best Practices and Tools;
- Test Data Generation: What is, How to, Example, Tools;
- 5 Test Data Generation Techniques You Need to Know.
- Data Quality Concepts | Data Quality Tutorial | Data Warehousing Tutorial;
- Data Profiling using SSIS;
- Data Profiling and Pipeline Processing with Spark.
Заключение
Data Quality — это очень молодое перспективное направление, быть частью которого означает быть частью некоего стартапа. Попав в Data Quality, вы окунётесь в большое количество современных востребованных технологий, но самое главное — перед вами откроются огромные возможности для генерирования и реализаций своих идей. Вы сможете использовать подход постоянного улучшения не только на проекте, но и для себя, непрерывно развиваясь как специалист.
- тестирование
- тестирование данных
- большие данные
- развитие тестировщика
- Блог компании EPAM
- Big Data
- Data Engineering