Сжимать изображения с помощью mrc что это
Перейти к содержимому

Сжимать изображения с помощью mrc что это

  • автор:

Сжимать изображения с помощью mrc что это

DSpace logo

  1. Электронная библиотека БГТУ
  2. Материалы конференций и семинаров
  3. Студенческие конференции
  4. 69-я научно-техническая конференция учащихся, студентов и магистрантов
  5. 69-я научно-техническая конференция учащихся, студентов и магистрантов, 2-13 апреля, Минск : сборник научных работ : в 4 ч. Ч. 4 / Белорусский государственный технологический университет. — Минск : БГТУ, 2018. — 513 с.

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.belstu.by/handle/123456789/26953

Название: Сжатие изображений при помощи MRC-компрессии
Авторы: Зайцев, А. Н.
Ключевые слова: MRC-компрессия
сжатие изображений
бинаризация
сегментаторы
сегментация
PDF-документы
Дата публикации: 2018
Издательство: БГТУ
Библиографическое описание: Зайцев, А. Н. Сжатие изображений при помощи MRC-компрессии / А. Н. Зайцев // 69-я научно-техническая конференция учащихся, студентов и магистрантов, 2-13 апреля 2018 г., Минск : сборник научных работ : в 4 ч. Ч. 4 / Белорусский государственный технологический университет. — Минск : БГТУ, 2018. – С. 292-296.
URI (Унифицированный идентификатор ресурса): https://elib.belstu.by/handle/123456789/26953
Располагается в коллекциях: 69-я научно-техническая конференция учащихся, студентов и магистрантов, 2-13 апреля, Минск : сборник научных работ : в 4 ч. Ч. 4 / Белорусский государственный технологический университет. — Минск : БГТУ, 2018. — 513 с.

Файлы этого ресурса:

Файл Описание Размер Формат
Zajcev_Szhatie izobrazhenij.pdf 146.94 kB Adobe PDF Просмотреть/Открыть

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Сжатие изображений

Для уменьшения размера файлов можно настроить сжатие изображений с помощью одного из указанных ниже способов.

  • Выберите предварительно настроенный элемент управления сжатием в диалоговом окне Профили PDF Create для выбранного профиля.
  • В случае документов с текстом и рисунками, отсканированных в файлы изображений, воспользуйтесь функцией сжатия MRC.

В программе PDF Create можно выбрать наилучшее соотношение между качеством изображения и размером файла. Чем выше степень сжатия, тем меньше размер файла и хуже качество изображения. Если необходимо сохранить исходное качество изображения, выберите вариант Без потери.

Элементы управления сжатием

Программа содержит следующие предопределенные элементы управления сжатием:

без потерь (уровень 100);

высокое качество (уровень 75);

среднее качество (уровень 50);

низкое качество (уровень 25);

заполнитель изображения (уровень 5);

без изображений (уровень 0).

Эти элементы управления можно использовать с автоматическими настройками и в пользовательских настройках. Дополнительные сведения см. в разделе Элементы управления сжатием.

Указанные выше алгоритмы сжатия полезны в общих случаях и также могут быть эффективны при сжатии PDF-файлов, содержащих как текст, так и изображения. Технология сжатия MRC (Mixed Raster Content) полезна в следующих случаях:

  • если в качестве входных данных используются файлы изображений, полученные в результате сканирования;
  • если эти файлы содержат текст и изображения либо фон в цвете или в градациях серого цвета;
  • если необходимо сократить размер PDF-файла.

Традиционные методы сжатия применяются ко всему содержимому файла, поэтому сжатие может оказаться слишком высоким для одних элементов, недостаточным для других и неоптимальным для всех элементов файла. Алгоритм MRC обрабатывает текстовые элементы отдельно от изображений или фона и применяет оптимальный уровень сжатия к каждому из элементов. Это существенно (до десяти раз) сокращает размер PDF-файла по сравнению с традиционными методами сжатия при том же или лучшем качестве. Алгоритм MRC не дает преимущества при использовании с черно-белыми изображениями, текстовыми файлами или файлами, содержащими только изображения, поскольку в этих случаях программа проверяет входные файлы и не применяет алгоритм, даже если он был выбран пользователем.

Программа Create Assistant содержит предопределенный профиль для сжатия MRC, однако можно применять этот метод и в других профилях.

Использование профиля «PDF со сжатием MRC» в Create Assistant

  1. Откройте программу Kofax PDF Create Assistant.
  2. В окне выбора профиля выберите PDF со сжатием MRC.
  3. Нажмите кнопку Профили, чтобы проверить параметры в диалоговом окне Профили PDF Create. В качестве степени сжатия автоматически будет выбран вариант Без потери качества (уровень 100), а флажок MRC будет установлен. Оставьте эти параметры как есть и при необходимости измените другие настройки (например, параметры безопасности, водяного знака и т. д.).
  4. Нажмите кнопку Параметры, чтобы отобразить диалоговое окно Параметры преобразования MRC PDF. Выберите качество изображений для сжатия MRC, а затем закройте диалоговое окно.

Использование сжатия MRC с любыми профилями

  1. Откройте программу Kofax PDF Create Assistant.
  2. В поле «Профиль» выберите профиль.
  3. Нажмите кнопку Профили.
  4. В диалоговом окне Профили PDF Create выберите для степени сжатия значение Без потери (уровень 100) и установите флажок MRC.
  5. Нажмите кнопку Параметры, чтобы отобразить диалоговое окно Параметры преобразования MRC PDF. Выберите качество изображений для сжатия MRC и нажмите кнопку «ОК».
  6. В диалоговом окне Профили PDF Create проверьте и при необходимости измените другие параметры (например, параметры безопасности, водяного знака и т. д.). Нажмите кнопку ОК.

Сжатие MRC не следует применять вместе с другими методами сжатия во избежание чрезмерного снижения качества. Использование профиля MRC без изменений предотвращает это, задавая программное сжатие «без потери качества» (100%) и отключая другие алгоритмы. При обработке файлов без применения профилей следует задать малую степень программного сжатия или отключить его, если после этого предполагается использовать алгоритм MRC.

Для создания PDF-файла с возможностью поиска из входных файлов, содержащих только изображения, со сжатием MRC установите оба флажка.

MRC — Machine Readable Cataloging File

Файлы MRC были разработаны в 1960-х годах для хранения библиографических данных в машинно-читаемом формате. Они используются не только для хранения данных, но и для обмена записями между библиотеками. Вскоре этот формат стал стандартом в США, а затем в Канаде и, в итоге, в Европе.

В файл MRC можно поместить большое количество данных — например, сведения о библиографических источниках, авторах, информацию о сообществе и т.д. Кроме того, файлы MRC также могут иметь другое расширение. Их также можно сохранить с помощью расширения .marc.

Вот небольшой, но неполный список программ, которые могут открывать документы MRC:

Как технология MRC уменьшает размер PDF-документов

Формат PDF уже давно прижился как средство сохранения документов, которые затем не предполагается редактировать. Все PDF файлы можно условно разделить на два класса. Первый&nbsp– это документы, которые были свёрстаны в цифровом виде, и затем были сконвертированы в PDF. Инструкция к какому-нибудь устройству будет, скорее всего, именно таким файлом. Внутри он выглядит как текст и графика плюс команды форматирования, описывающие, как надо располагать элементы на странице.

Второй класс&nbsp– это документы, полученные в результате сканирования бумажных изображений. Их можно пропустить через ABBYY FineReader, и они превратятся в первый тип, а можно просто сохранить в PDF как картинки. И этим часто имеет смысл пользоваться, когда хочется сохранить исходный вид документа. Несмотря на то, что ABBYY FineReader довольно хорошо распознаёт документы, возникают ошибки распознавания, какие-то важные элементы на странице не находятся, в общем, то, что получается, по виду несколько отличается от исходного документа.

Поэтому часто имеет смысл сохранять в PDF изображение исходной картинки, а под него подкладывать распознанный текст для того, чтобы можно было найти документ по ключевым словам или воспользоваться copy-paste. Смущает только один момент – такие PDF-файлы имеют немаленький размер, от полумегабайта на страницу и больше. Соответственно, если отсканировать среднего размера учебник по матанализу, получится файл мегабайт на 200.

Такой размер объясняется тем, что внутри в PDF отсканированные, растровые изображения сжаты обычными картиночными кодеками, JPEG, JPEG2000, LZW или ZIP. Соответственно, меньше, чем занимают обычные JPEG-файлы для таких страничек, не получается. Чтобы уменьшить размер, обычно прибегают к разного рода ухищрениям – уменьшают разрешение, сильно занижают сжатие картинки, в результате чего сильно страдает качество текста в таких PDF.

Или тогда приходится отказываться от PDF и сохранять всё в DjVu. Получается довольно маленький размер, но действительность такова, что не все пользователи полученного файла с лёгкостью смогут его прочитать – всё-таки Adobe Acrobat стоит на гораздо большем числе компьютеров, чем DjVu-просмотрщик.
И тут на помощь приходит технология PDF MRC (от “Mixed Raster Content”) – ответ Adobe формату DjVu. Это тот же PDF, но заимствующий многие элементы из DjVu, и может читаться всеми популярными PDF-читалками. При использовании MRC размер страницы уменьшается раза в 4 при сохранении качества отсканированного изображения. Это происходит благодаря решению разделить изображение на слои и каждый слой сжимать наиболее подходящим кодеком. Текст сжимается кодеком JBIG2, всё остальное сжимается с помощью JPEG/JPEG2000/ZIP с разным качеством.

Как устроен внутри PDF MRC? Рассмотрим простой пример, а затем постепенно будем его усложнять.
Пускай у нас есть скан белой страницы с чёрным текстом, например, страницы из книги (все картинки кликабельны).

Скан, JPEG, 1,2 Мб

Полезная информация – только буквы, всё остальное можно игнорировать. Найдём весь текст на странице, например, логично для этого запустить FineReader и распознать страницу. Затем выделяем весь найденный текст в отдельный слой, и сжимаем его с помощью кодека JBIG2. Получаем 50 килобайт на страницу против 400 у JPEG и 200 у чёрно-белого факсового кодека CCITT4.

JBIG2 специально создан для сжатия текста. При работе он объединяет внешне похожие изображения букв в кластеры. Примерами таких кластеров, например, могут служить все буквы ‘a’, напечатанные одним шрифтом одинакового размера. Немного отличающиеся буквы ‘a’, например, с искажениями от сканирования, или напечатанные другим шрифтом, попадут в другие кластеры. В результате получается словарь, в котором объединены часто встречающиеся одинаковые буквы. Затем для каждой буквы запоминается её место. Получается весьма компактно.

JBIG2, 50 Кб. PDF с дополнительной информацией имеет размер 80 Кб

Теперь усложним задачу. Пускай у нас есть неравномерный фон, который не хочется терять.

Tiff, 500 Кб

Для этого нам понадобится уже два слоя. Первым из них по-прежнему будет текст, сжатый JBIG2. А во второй слой попадёт всё, что остаётся от исходной картинки после вырезания букв и закрашивания дырок от них. Второй слой мы можем достаточно сильно сжать с помощью JPEG, так как на нём обычно нет особо ценной информации.

Итоговый PDF имеет размер 35 Кб против 190, которые мы бы получили, просто сжав всю картинку в JPEG.

Текст, JBIG2, 18 Кб

Фон, 11 Кб, JPEG

Итоговый PDF MRC, 35 Кб

Следующее усложнение. До сих пор мы выводили только чёрно-белый текст. Пусть теперь у нас будет встречаться цветной текст.

Tiff, 700 Кб

По-прежнему жмём текст чёрно-белым кодеком JBIG2, но под цветные буквы подкладываем так называемую цветовую маску – ещё один слой, который видно в «прорезях», сделанных буквами. Этот слой содержит мало цветов, и прекрасно упаковывается, например, с помощью ZIP.

Текст, JBIG2, 11 Кб

Цветовая маска, ZIP, 3 Кб

Текст + цветовая маска выглядят так:

Фон, JPEG, 40 Кб

Со сжатием фона важно не переусердствовать – на него может попасть текст, который не был распознан как текст. И если мы сожмём его слишком сильно, такой текст будет трудно читать.

Итоговый PDF MRC, 60 Кб

Итак, набралось уже 3 слоя: текст, цветовая маска, которая раскрашивает текст, и фон. Осталось разделаться с элементами, которые не являются ни текстом, ни фоном. Например, это картинки или фотографии. С ними ничего особенного сделать нельзя, и мы просто добавим их в фон, сжимая JPEG или JPEG 2000 с высоким качеством.

Tiff, 600 Кб

Текст, JBIG2, 25 Кб

Цветовая маска, ZIP, 5 Кб

Фон, JPEG, 40 Кб

PDF MRC готов. Он содержит несколько слоёв, каждый из которых содержит разные кусочки картинки и сжат наиболее подходящим кодеком.

Итоговый PDF MRC, 72 Кб

Конечно же, есть изображения, которые не выигрывают в размере от использования MRC. Например, пытаться сжать так фотографию пейзажа нет никакого смысла, меньше, чем JPEG не получится. Или текст, напечатанный на фоне, содержащем много мелких деталей.

Из такой картинки PDF MRC не получится

Однако для многих документов, которые мы встречаем в повседневной жизни, MRC даёт отличные результаты.

И напоследок – несколько примеров PDF MRC, которые можно получить с помощью ABBYY FineReader, ABBYY FineReader Engine или ABBYY Recognition Server:

PDF, JPEG PDF, MRC
524 Кб 218 Кб
618 Кб 175 Кб
412 Кб 113 Кб

Итого, мы получаем сжатие в 2-6 раз при том же качестве, и это не предел. PDF MRC – ещё очень молодая технология, и она продолжает активно развиваться. Будут улучшения и в сторону улучшения качества, и в сторону уменьшения размера.

Все примеры PDF, приведённые в этой статье, получены с помощью ABBYY FineReader Engine 10, настройки по умолчанию.

Василий Панфёров,
Департамент продуктов для разработчиков

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *