Машинное обучение каталогизация что это
Перейти к содержимому

Машинное обучение каталогизация что это

  • автор:

Сервисы AWS для сферы мультимедийных развлечений

Клиенты, работающие в сфере мультимедийных развлечений, сталкиваются с масштабными изменениями в отрасли: компании заново изобретают способы создания контента, оптимизируют цепочки поставок мультимедиа и конкурируют за внимание аудитории на платформах для потоковой передачи, трансляции и непосредственной доставки продукта потребителю. AWS предлагает клиентам из сферы мультимедийных развлечений набор специализированных облачных возможностей для преобразования отрасли по таким шести направлениям: производство контента, цепочка поставки мультимедийного продукта и его упаковка, трансляция, непосредственная доставка потребителю, потоковая передача, интеллектуальная аналитическая обработка данных и монетизация. С помощью AWS вы можете выбрать подходящих партнеров и инструменты для своих рабочих нагрузок, чтобы ускорить запуск производственной среды и получить прибыль за более короткий срок.

Новая область применения решения для мультимедиа и развлечений: монетизация

Ознакомьтесь с новой страницей решения для монетизации, чтобы узнать, как AWS может помочь вам увеличить доход от рекламы, улучшив при этом вовлеченность клиентов и возможности персонализации на разных платформах и каналах.

Netflix является крупнейшей телевизионной Интернет-сетью

Netflix использует AWS практически для всех своих потребностей в области вычислений и хранения данных, включая базы данных, аналитику, механизмы рекомендаций, транскодирование видео и многое другое – сотни функций, которые в общей сложности задействуют более 100 000 серверных инстансов на AWS.

FOX

Миллионы зрителей взаимодействуют с контентом компании FOX посредством платформ для трансляций и OTT-платформ. FOX использует AWS, чтобы стать лидером в сфере доставки контента мирового класса в реальном времени и по требованию.

Peacock

Стриминговый сервис Peacock, запущенный глобальной медиа-технологической компанией Comcast Corp. 15 июля 2020 года, появился в эпоху повышенного потребительского спроса на услуги потокового видео.

Untold Studios

Студия Untold Studio работает над производством и постпроизводством оригинального музыкального, телевизионного и рекламного контента для ряда компаний, специализирующихся на мультимедийных развлечениях.

FORMULA 1

Компания FORMULA 1 спроектировала автомобиль для гоночного сезона 2022 года на основе моделирования, выполненного в AWS. Разработчикам удалось уменьшить потерю прижимной силы во время гонки с 50 % до 15 %.

Машинное обучение каталогизация что это

rgdb-podari-rebenku

Главная Инновационные технологии Инновационные технологии
Нейронные сети и искусственный интеллект: какой предстаёт ЭБС завтрашнего дня?
29.08.2021 21:21

Необходимость цифровых преобразований в академической среде была чётко сформулирована заместителем председателя Правительства РФ Дмитрием Чернышенко во время совещания с ректорами российских вузов. Следующий этап цифровой трансформации, связанный в том числе с реализацией задач, изложенных в нацпроекте «Наука», программе «Цифровая экономика» и ряде других государственных инициатив, коснётся вузовских библиотек, организаций и компаний, сотрудничающих с вузами, в особенности в области предоставления доступа к электронным ресурсам.

neyronnye-seti-tikhonov

Таким образом, обозначается необходимость уже сейчас модернизировать и совершенствовать существующие электронно-библиотечные системы (ЭБС), обеспечивающие учебные и научные организации контентом в цифровом формате. Наиболее перспективное направление развития этих платформ связано с применением машинного обучения и нейронных сетей, что соответствует общему представлению о возможностях искусственного интеллекта (ИИ). Первые шаги в этом направлении уже сделаны: так, ЭБС «Лань» разработала прототип сервиса каталогизации с совершенно новым механизмом распределения учебных и научных изданий на основе технологий машинного обучения.

О перспективах развития электронных платформ и уже внедряемых технологиях рассказывает Станислав ТИХОНОВ, руководитель отдела разработки ЭБС «Лань».

— Станислав, сейчас всеобщая нацеленность на масштабную цифровую трансформацию ставит во главу угла такие термины и понятия, как ИИ, нейронные сети, машинное обучение. Расскажите, что вкладывается в каждое из этих понятий и в чём их различия.

— Распространённость этих терминов влечёт за собой неточность их осмысления. Так, ИИ в массовом представлении совершенно понятная, хоть и эфемерная сущность: это будто бы то же самое, что и наш мыслительный процесс, только искусственно созданный. Термин «машинное обучение» рождает ассоциации, связанные с Теслой, а вот нейронная сеть — нечто совершенно неопределённое. С технической точки зрения всё наоборот.

ИИ — это некоторая отсутствующая сущность, на данный момент нечто скорее метафизическое и не до конца осмысленное даже теми, кто занимается исследованиями в этой области. Можно сказать, что мы лишь подбираемся к его осмыслению.

Машинное обучение — общее обозначение всех технологий по автоматизации анализа данных, и одна из них как раз нейронная сеть. Следует отметить, что эти понятия не равны по своему объёму; нейросети лишь один из инструментов, которых немало. В целом, действительно, в СМИ и в повседневной жизни эти термины используются как синонимы, хотя за каждым из них стоит своё определение.

— Какой из этих терминов в итоге ближе к прототипу сервиса каталогизации, разработанному ЭБС «Лань»?

— Корректнее всего будет говорить о применении нейронных сетей. На самом деле с этими технологиями (а нейронные сети тоже бывают разных видов для решения различных задач) мы все так или иначе знакомы: распознавание текста и визуальных образов, воспроизведение текста голосом — всё это реализуется благодаря нейронным сетям. Самый близкий нам всем пример: качество изображения, полученного при фотосъёмке со смартфона, повышается благодаря нейросетям.

Сама идея тоже органична и естественна: искусственная нейронная сеть построена по принципу организации и функционирования биологических сетей нервных клеток живого организма. Так, например, во время занятий спортом, в процессе тренировки наши мышцы откликаются на сигналы нервной системы и чем больше и эффективнее мы тренируемся, тем лучше у нас получается.

— Расскажите подробнее о проекте, разработанном ЭБС «Лань». Чем он может быть полезен читателям, пользователям ЭБС, и библиотекарям — тем, кто работает в кабинете администратора?

— Сейчас мы подготовили прототип сервиса каталогизации, в ближайшее время будем готовы его интегрировать в ЭБС. Этот сервис позволит ускорить размещение книг на платформе, а самое главное, автоматизировать распределение изданий по тематическим направлениям и областям знаний. Ранее этот непростой процесс осуществлялся вручную.

Планируется, что обученная нейросеть станет самостоятельно классифицировать книги согласно тематическим категориям и областям знания и подбирать их по запросу пользователя по дисциплинам. Для пользователей и администраторов ЭБС это инструмент комфортной работы с платформой, которая чутко и адресно откликается на запрос, однако в действительности, когда прототип сервиса запустят, визуально изменения будут незаметными. Они выразятся только в том, что улучшится работа системы: она станет выдавать более точные результаты.

— Каким образом в целом происходит работа с искусственной нейросетью?

— Предварительно необходимо располагать большим объёмом данных, которые будут анализироваться. Все нейронные сети работают на базе датасета (dataset) — определённым образом упорядоченного набора данных. В упрощённом представлении это может быть любая таблица, где размечены строки, а в каждой из ячеек что-то расположено. Способов анализа этих данных довольно много, поскольку работа разных нейросетей основана на различных принципах (математический анализ, Big Data и т.д.) и каждая справляется с определённым типом задач.

В целом работа с данной технологией машинного обучения состоит из нескольких этапов: сначала мы собираем датасет, а затем ищем наиболее подходящую для решения нашей аналитической задачи нейросеть. Бывает так, что подходящей нейросети нет, тогда её можно создать самому, правда, на это уходят годы и огромные человеческие ресурсы. Скорее всего, оптимальная нейросеть найдётся, и тогда её нужно будет обучать.

— Как происходит обучение и какой механизм тренировки нейросети применялся в случае с сервисом каталогизации?

— Что касается обучения нейронных сетей, то в зависимости от их специфики и особенностей применяются различные технологии. В общем случае обуче ние происходит по принципу фидбека (обратной связи): мы конфигурируем нейросеть, «скармливаем» ей датасет и анализируем полученные результаты, указывая верные ответы, которые учитываются при дальнейшей выдаче результатов. Это может быть «живое» обучение, когда на вопросы нейросети отвечает человек, подтверждая или опровергая выданные ею результаты, или автоматизированное, когда нейросети «скармливается» датасет с набором ответов.

В случае с нашим сервисом каталогизации обучение происходило на основе векторных моделей книг, для которых выделялись необходимые атрибуты, например дисциплины. Сейчас прототип сервиса показывает очень высокий процент достоверности выдачи результатов.

— С какими трудностями может быть связан процесс обучения нейронной сети для дальнейшего выполнения такой задачи, как каталогизация?

— Во-первых, должен быть достаточный объём данных, которые нейросеть станет анализировать. В случае с сотнями тысяч книг в ЭБС «Лань» с этим не было трудностей. Следует учитывать, что нейросеть может работать и при относительно небольшом количестве данных, но тогда и достоверность результатов будет сомнительна. Мы решили пойти по пути создания качественного сервиса, поэтому и анализировали большой объём изданий.

Во-вторых, применительно к работе нейросетей важны не только данные, но и связи, которые между ними устанавливаются. Чем сложнее выстроены связи, чем больше факторов они учитывают, тем точнее и достовернее результаты.

В-третьих, несколько различается работа с научной литературой разной направленности и с учебной. Так, технические специалисты чаще применяют однозначные термины, в то время как в книгах социально-гуманитарной направленности используются более обтекаемые понятия.

— Какие перспективы влечёт за собой разработка и внедрение прототипа сервиса каталогизации, созданного ЭБС «Лань»?

— Наша основная цель — улучшение работы с клиентом, поэтому в перспективе развитие сервиса каталогизации будет нацелено на то, чтобы автоматизированно формировать подборки книг для конкретного читателя, непосредственно под его запрос.

Такое усовершенствование сервисов ЭБС лишь первые шаги на пути трансформации платформы. Это длинный и непростой путь, но в данный момент он как никогда важен. Очевидно, что уже сейчас необходимо внедрять технологии машинного обучения для модернизации сервисов агрегаторов. Уверен, что следование трендам технологического развития сегодня важно для всей отрасли.

neyronnye-seti-nikiforov

Александр НИКИФОРОВ, директор ЭБС «Лань», лидер проекта «Консорциум сетевых электронных библиотек» (СЭБ)

Что такое искусственный интеллект, нейронные сети? Минуя корректное с технической точки зрения определение, уже сейчас можно сказать, что это инструмент для достижения тех целей, которые стоят перед электронно-библиотечными системами (ЭБС) завтрашнего дня. Выбранный ЭБС «Лань» вектор развития: к пользовательской платформе с ценным и разнообразным контентом для обучения, преподавания и научной деятельности — предполагает применение современных технологий, и машинное обучение — одна из наиболее перспективных.

Цели, которые стоят перед нами, — совершенствовать возможности платформы и сервисы для комфорта пользователей — созвучны тем целям, которые разделяют не только подписчики «Лани», но и в целом все участники нашего некоммерческого проекта СЭБ, уже сейчас объединившего 284 вуза, которые разместили в едином фонде более 37 тыс. изданий.

Такая масштабная инициатива, уже поддержанная Агентством стратегических инициатив и доказавшая свою востребованность в академической среде, требует соответствующих по качеству и удобству сервисов обработки контента и работы с ним. Разрабатываемый нами прототип ML-каталогизатора позволит ускорить обработку изданий, передаваемых новыми участниками, и их размещение в едином фонде.

Вот почему для «Лани» внедрение технологий машинного обучения и нейронных сетей — логичный и необходимый путь развития.

Опубликовано в номере июнь 2021

Машинное обучение каталогизация что это

Интерактивная библиотека

Интерактивная библиотека

Машинное обучение внедряют в американских библиотеках, но почти не используют в российских. «Либинформ» выяснял, с чем это может быть связано

Нейросети, искусственный интеллект и машинное обучение, по мнению американских исследователей, в ближайшем будущем будут массово использоваться в библиотечной отрасли. Крупнейшие американские и европейские библиотеки в настоящее время активно изучают возможности новых технологий, но о российском опыте известно мало. Корреспондент «Либинформа» Трухан Мордвинов изучил доклады об экспансии машинного обучения в западных библиотеках и узнал, что агентами AI-революции в России стали электронно-библиотечные системы.

Машинное обучение в американских библиотеках: движение по пути смелых экспериментов

Внедрение продуктов на основе искусственного интеллекта (Artificial intelligence, AI) и машинного обучения (Machine Learning, ML) в североамериканских библиотечных центрах обсуждается на отраслевых конференциях и в публичных докладах. «Несмотря на то, что эти технологии активно используют пока только крупнейшие библиотеки и ведущие вузы, в деле включения библиотек в процесс разработки ML-алгоритмов заметен прогресс», — пишет составитель прошлогоднего доклада о состоянии отрасли Райан Корделл, профессор Северо-восточного университета (США). Эксперты, опрошенные Корделлом, разделяют мнение, что технологии автоматизации на базе ML в конечном итоге облегчают доступ пользователей к информации.

Пилотной площадкой для внедрения таких технологий стала Библиотека Конгресса, где сценарии компьютерной автоматизации разрабатываются в «Лаборатории» (LC Labs). «Важность таких разработок, с одной стороны, заложена в стратегии развития этой библиотеки — публичного хаба для доступа к профессиональной информации, с другой стороны — обусловлена постоянно растущим объемом оцифрованных и электронных изданий», — подчеркнул в своем отчете Корделл.

Прикладные алгоритмы автоматизируют многие рутинные процессы в библиотеке, и автор доклада предполагает, что этот опыт неизбежно станет всеобщим. Упрощается точная оцифровка изданий (OCR), заполнение каталогов, полуавтоматическое извлечение и обновление метаданных электронных документов, а также составление баз данных и баз знаний, текстовых и мультимедийных.

ИИ успешно решаются некоторые нетривиальные задачи, такие как кластерный анализ больших данных, в контексте библиотек — текстовых массивов информации. При этом сам принцип работы в этом случае достаточно прозаичный: алгоритмы находят искомые объекты и последовательности в заданном корпусе текстов и оформляют их в стандартизированный набор данных; на ручную обработку некоторых массивов ушли бы годы, было отмечено в докладе.

«Передовой опыт обработки значительных текстовых массивов с помощью машинного обучения, — пишет Корделл, — есть у электронной библиотеки Hathi Trust: алгоритмы постоянно анализируют не только метаданные, но и содержание представленных там текстов, а также определяют различные их свойства, например различают художественные и публицистические произведения, новостные заметки, анализируют стиль письма и словарный запас каждого автора». Библиотеки вузов также включились в исследование ML: в 2019 году Университет Юты с помощью машинного обучения сгенерировал метаданные для своих цифровых коллекций.

Интересные результаты дает использование алгоритмов при анализе изображений. Например, в 2018 году Университет технологий Вирджинии запустил мемориальный проект Civil War Photo Sleuth. Его пользователи могут бесплатно загрузить на сайт фотографии своих предков, которые участвовали в гражданской войне в США, а алгоритмы помогут идентифицировать наградные знаки на загруженных снимках и, в целом, сверить сведения из семейных архивов с точными данными исторической базы данных.

В 2019 году доктор философии и инноватор Бенджамин Ли запустил еще один интересный проект — экспериментальное веб-приложение Newspaper Navigator. Оно открывает доступ к массиву фотографий из архива американской прессы (в него включены газеты, выходившие с 1900 по 1963 гг.). Данные для приложения собрала нейросеть, она проанализировала доступные ей архивы, нашла иллюстрации и отметила распознанные на них объекты тегами, а результаты своей работы выгрузила в датасет (скачиваемый набор данных). Проект, построенный по канонам открытого доступа, по замыслу автора призван помочь историкам, социологам и антропологам в их будущих исследованиях.

Также известны примеры библиотечного ML, пригодные для манипуляций с мультимедиа. Широкую известность получил алгоритм Брайана Фу, разработанный в стенах Библиотеки Конгресса. Он находит в архивах мультимедиа музыкальные фрагменты. Машинное обучение позволило авторам другого амбициозного проекта Dig That Lick создать базу данных джазовых паттернов и поисковую систему, которую наверняка оценят и российские исследователи музыки прошлого столетия.

Эпоха новой цифровой этики в контексте развития библиотек

«Диджитализация библиотечного дела ставит перед профессиональным сообществом и новые вопросы», — пишет Райан Корделл. В частности, это вопросы ответственного отношения к информации и этичного использования технологий, которые с одинаковой легкостью помогают реализовать выдающиеся междисциплинарные научные проекты, но также могут генерировать (например, в составе нейросетей) выдуманные новости (fakenews) и/или создавать поддельные личности в социальных сетях.

Потенциальная опасность заложена в самой архитектуре алгоритмов искусственного интеллекта и машинного обучения, каждый из которых, по словам исследовательницы Кэтрин О’Нил, представляет собой мнение, описанное на языке математики, что не исключает возможность для манипуляций, пишет она, впрочем, не объясняя, о каких конкретно манипуляциях может идти речь. «ИИ может персонализировать, генерировать и фильтровать контент, — написала в своей недавней статье специалист по компьютерной безопасности, профессор университета Мохаммеда V Фатима Румате. — Речь идет о ненадежной информации, публикуемой в СМИ и поддерживаемой ИИ» — уточнила она.

Похожие опасения в отчете о библиотечных технологиях за 2019 год высказывал Джейсон Гриффи: «Без осторожности они могут проявить алгоритмическую предвзятость, подорвать конфиденциальность и интеллектуальную свободу и потенциально усилить фильтрацию информации» — резюмируют выводы ученого Елена Другова и Ирина Журавлева в статье для «Университетской книги».

Вопросы этики, в свою очередь, по-новому определяют роль библиотечного IT-специалиста как исследователя, медиатора, переводчика и редактора, парирует Райан Корделл. Такой специалист, во-первых, должен ответственно использовать технологии, а во-вторых, он призван контролировать результаты работы алгоритмов: исправлять допущенные ими ошибки. Библиотечный редактор также предотвратит случайное удаление общественно важной информации из цифровых архивов.

Все описанные выше трансформации предъявляют принципиально новые требования к квалификации сотрудников библиотек, но не умаляют их роли. К тому же, даже самые совершенные алгоритмы, при всех их достоинствах, все еще не могут справиться с некоторыми простейшими интеллектуальными операциями: например, безошибочно ранжировать некоторое множество документов по их важности в контексте той или иной задачи.

Решить проблемы классификации и концептуализации коллекций электронных документов американская библиотечная отрасль планирует в партнерстве с вузами и с помощью краудсорсинга. Предполагается, что волонтеры из университетов, студенты и исследовательские группы из библиотек будут вносить правки в создаваемые датасеты, что сделает цифровые коллекции более удобными для исследований будущего.

Кроме того, архитектура автоматизированных технологий не лишена, по мнению Корделла и других ученых, своих достоинств, которые в ближайшем будущем сильно изменят не только структуру, но и сам состав архивных библиотечных коллекций.

В первую очередь речь идет об отсутствии у алгоритмов субъективного отношения к тем или иным объектам из библиотечных коллекций. Анализируя фонды [Библиотеки Конгресса — прим. ред.], исследователи библиотечного ML выяснили, что на протяжении долгих лет из газетных и книжных коллекций исключались издания этнических сообществ, некоторых уязвимых социальных групп. С приходом цифровой эпохи в середине 2000-х ситуация повторилась: оцифровывались издания доминировавшей группы белых американцев со средним достатком. Усиленная непредвзятыми алгоритмами система менеджмента электронных документов, позволит в будущем сформировать в библиотеках наиболее полные архивы изданий, отмечается в американском публичном отчете.

Российский контекст: искусственный интеллект в электронных библиотеках

Несмотря на очевидную экспансию новых технологий на Западе, об отечественных библиотечных разработках из этой области известно мало. Российское государство только планирует создание условий для отечественных разработок, следует из текста президентского указа № 490 «О развитии искусственного интеллекта в Российской Федерации»: программное обеспечение, в котором используются технологии искусственного интеллекта, для решения задач в различных сферах деятельности, должно быть разработано к 2030 году.

На недавней отраслевой конференции «Фонды библиотек в цифровую эпоху», посвященной технологиям, внедрение искусственного интеллекта в библиотечных центрах почти не обсуждалось. Вместо этого, следует из программы конференции, профессиональное сообщество интересовали, например, новые государственные стандарты (ГОСТ) и изменения в законодательстве о госзакупках.

«Инновации в библиотечную отрасль приходят в основном из коммерческого сектора, а эксперименты с ИИ проводят платформы электронно-библиотечных систем и в меньшей степени — издатели», — рассказал «Либинформу» директор ЭБС Лань Александр Никифоров. Ранее, в марте 2021 года, на конференции Forum.DigitalEducation 2021 он заявил о планах компании по использованию ИИ и машинного обучения: «Цифровизация, применение искусственного интеллекта и нейронных сетей, создание персонализированных рекомендательных сервисов и движение в сторону разработки и обеспечения индивидуальных траекторий обучения — вот перспективы электронных библиотек завтрашнего дня».

Никифоров подтвердил журналисту «Либинформа», что электронно-библиотечная система Лань уже адаптировала некоторые технологии на базе ИИ на своей платформе. «Сейчас обкатываем прототип сервиса каталогизации, — заявил он, — для этого мы провели анализ документов из электронной библиотеки с помощью алгоритмов машинного обучения».

Как обеспечить высокое качество данных для машинного обучения и почему это важно?

О методах обеспечения качества данных и их роли для машинного обучения (ML) рассуждает Донал Данн, который отвечает в Informatica за маркетинг продуктов и решений.

Обеспечение качества данных в новой парадигме

Качество данных не новая проблема. Однако раньше оно в большей степени обсуждалось в контексте хранилища и операционных систем. Сегодня мир данных значительно изменился. Объёмы и разнообразие данных постоянно растут, появились озёра для хранения структурированных и неструктурированных данных в больших объёмах. Кроме того, методы машинного обучения пережили второе рождение. Это всё привело к тому, что от аналитиков и инженеров по данным всё чаще звучит вопрос: «Как обеспечить качество данных, которое подходило бы под эту новую парадигму работы с данными?».

Зачем нужно качество данных при использовании ML

Для эффективного использования машинного обучения качество данных играет важнейшую роль. Неполные, дублирующиеся, несогласующиеся друг с другом сведения могут значительно ухудшить результаты, которые вы получаете с помощью методов ML (кластеризации, использование прогностических моделей и прочее).

Некачественное обучение моделей ML приведут к тому, что бизнес-пользователи не смогут доверять результатам вашего исследования данных или будут принимать на основе этих результатов неверные решения. Давайте подробнее рассмотрим, как избежать проблем в качеством данных.

Инструмент по профилированию для поиска проблем с качеством данных

Начать стоит с инструментов для каталогизации и профилирования данных. Профилирование помогает определить, какие действия по обработке и очищению данных нужно предпринять следующими.

  • Нехватка данных. Если в дата-сете не хватает значений в каких-либо полях, безусловно, это повлияет на обучение моделей. Нехватку нужно будет как-либо компенсировать. Что вы будете делать? Удалите записи с недостающими значениями полностью? Вставите в пустые поля случайные значения? Используете усреднённое, медианное значение, заполните пустое поле значением из ближайшей записи или что-то ещё? С одной стороны, любой из этих подходов может помочь. С другой, – привести к потере важных деталей или к противоречиям.
  • Неточность данных. Например, точность данных из CRM-системы чаще всего зависит от того, насколько точно информация была внесена в эту систему вручную. Salesforce – вендор одной из лидирующих CRM-систем. Компания провела исследование, в результате которого выяснила, что 20% записей о клиентах, на самом деле, бесполезно из-за неточных данных. Неточности часто возникают, когда пользователь пытается изменить значение по умолчанию. Например, он создаёт возможность продажи и изменяет дату в записи с 01-01-00 на реальную дату во всплывающем меню. Определять, какие значения подойдут для обучения модели, а какие нет, нужно для каждого конкретного случая. Так, иногда неточные данные могут быть полезны для определения мошенничеств.
  • Дубликаты данных. Если данные дублируются в одной системе – это проблема. Но если данные поступают из нескольких систем, то проблема дублирующихся данных будет стоять гораздо острее. Например, Джим Смитт в CRM-системе может проходить как Джеймс Смитт в биллинговой системе. В системе обслуживания клиентов его имя может превратиться в Джеймса Дж Смитта. Дублирующиеся данные приведут к тому, что модель может переобучаться, поэтому важно определить эффективную процедуру определения и удаления дубликатов. При этом удаление дублирующихся данных может быть проблематичным и может потребовать много времени).
  • Отсутствие стандартизации. Стандартизация может быть и простой, и сложной. Пример простой стандартизации – перевод всех текстовых запросов в один регистр (все прописные, все строчные, прописные буквы для начала предложений или названий).

Более сложный процесс стандартизации подразумевает приведение разных вариантов названий одной и той же компании к единой версии (“Pacific Gas and Electric”, “PG&E”, “PGE” должны стать Pacific Gas & Electric”). А задача по сведению к единому знаменателю обозначения цвета («чёрный», «черн» и так далее) или параметров товаров может потребовать особенно много времени.

Большую роль играют правила обеспечения качества данных

Когда у вас появится ясная и точная картина данных и их формата, который нужен вам для обучения моделей ML, вы сможете перейти к определению правил очищения данных. Эти правила нужны, чтобы данные были точными с семантической и синтаксической точек зрения, автоматически исправлялись и стандартизировались.

При этом обо всех исключениях из правил должны формироваться отчёты. Процесс создания отчётов об исключениях помогает найти и исправить слабые места в данных, а также сделать эти слабые места заметными для дальнейшего профилирования и анализа. Кроме того, по мере того как компания начинает использовать новые источники информации, правила обеспечения качества данных могут использоваться повторно. Отмечу, что обеспечение качества данных нельзя установить раз и навсегда. Чтобы поддерживать высокий уровень результативности моделей и постоянное его улучшать, нужно постоянно мониторить и управлять качеством данных во всех источниках информации. При этом важно учитывать все моменты, которые перечислены выше.

Спросите себя: как ещё может помочь инструмент для обеспечения качества данных?

Выше перечислено только несколько способов очистить информацию для ML с помощью инструментов обеспечения качества данных. На самом деле их гораздо больше. Для того, чтобы получить более подробную консультацию по теме, пишите на почту info@dis-group.ru Также читайте о том, как Альфа-Банк Казахстан повышает качество данных.

А перед тем, как в следующий раз начнёте реализовывать свою следующую инициативу с машинным обучением, не забудьте спросить себя:

  • Тратите ли вы больше времени на улучшение качества данных, чем на улучшение моделей ML?
  • Используете ли вы сложные модели машинного обучения, чтобы компенсировать низкое качество данных?
  • Можно ли доверять результатам анализа данных, которые вы получили с помощью машинного обучения?

Последние новости

«Бимэйстер» и DIS Group договорились о совместном продвижении российских решений для цифровой трансформации

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *