Чем отличается djvu от pdf?
Чисто визуально форматы Djvu и Pdf имеют много общего, однако по своим параметрам и характеристикам существенно отличаются. Самым главным отличием является то, что изображения у «дежавю» растровые, а у pdf – векторные. У каждого формата есть свои преимущества и некоторые недостатки. Рассмотрим основные различия djvu и pdf.
При создании Pdf-файла, можно увеличивать вектор резолюции, не потеряв при этом данных, с djvu же дело обстоит иначе — можно задать только максимальные границы растровых резолюций. Другими словами, качество файла pdf гораздо выше «дежавю».
Несмотря на то, что файлы DjVu имеют не такое качество, как Pdf-файлы, их размер ничтожно маленький, беря во внимание тот факт, что включает он в себя просто громадное количество сложных таблиц, изображений, символов, громоздких формул и других элементов текста.
При большой смысловой нагрузке «дежавю» открываются очень быстро.
От несанкционированного доступа более защищены PDF-файлы.
При преобразовании файлов формата pdf алгоритм подсказывает какое максимально выгодное соотношение параметров размер-качество следует выбрать.
На данный момент есть возможность преобразовывать один формат в другой и успешно использовать их преимущества. Множество программ позволяют читать оба формата, например, известные читалки: Pdf Reader & DjVu Reader.
- Главная
- Похожее ПО
- Формат djvu
- Чем открыть
- Чем редактировать
- Конвертер djvu в pdf
- djvu vs pdf
- FAQ
- Для Windows
- Для Android
- WinDjView
- STDU Viewer
Djvu или pdf что лучше
(только для цели создания электронной версии бумажной книги)
1. Введение
Те, кто самостоятельно сканирует бумажные книги и создаёт из них их электронные версии, нередко задаются вопросом: «Какой формат предпочесть для создания электронной книги — DjVu или PDF?».
Эти форматы во многом похожи — в плане использования их для создания электронных версий бумажных книг. Сравнение 2-х форматов (DjVu и PDF) является темой, которая не раз вызывала ожесточённые споры на различных Интернет-форумах — с многочисленными доводами «за» и «против».
Давайте всё-таки попробуем разобраться — каковы же именно преимущества и недостатки 2-х форматов, какой же из них следует предпочесть и в каких случаях.
Читая различные Интернет-форумы и статьи, нередко можно заметить, что многие люди довольно несведущи в истинных достоинствах и недостатках обоих форматов. Особенно это касается формата DjVu — ему приписываются (по незнанию) самые немыслимые недостатки — на основании чего формат подвергается клеймению в качестве «плохого». Однако, и поклонники формата PDF не всегда знают (или же не осознают) его недостатки.
Незнание подробностей об истинных возможностях и свойствах форматов PDF и DjVu порождает порой всевозможные мифы и заблуждения.
В этой статье я попытаюсь подробно разобрать каждый такой миф и по возможности вскрыть причины его возникновения.
В общем и в целом, заблуждения о превосходстве формата PDF возникают по двум причинам:
— Пользователям просто не с чем сравнить — постоянно работая с PDF, и не рассматривая для сравнения (качественные) DjVu-файлы, они даже не представляют себе, что, оказывается, «может быть ещё лучше».
— Пользователи формата PDF не работают с ним на программном уровне — а только на уровне использования готовых PDF-программ. Как следствие, от них полностью сокрыты существенные недостатки формата PDF (очевидные PDF-программисту).
Заблуждения о (мнимых) недостатках формата DjVu возникают в основном по следующим причинам:
— Пользователи ошибочно сравнивают достоинства и недостатки векторного PDF и DjVu. Это совершеннейшая подмена понятий и грубейшая ошибка — сравнивать следует исключительно растровый PDF и DjVu.
— Из-за недостаточного качества (имевшихся в недалёком прошлом) программ по работе с форматом DjVu, их недостатки (конкретных DjVu-программ) ошибочно (и по незнанию) переносят на весь формат DjVu в целом.
— Некоторые не разделяют логически этапы сканобработки и (следующий за ним) этап создания DjVu. В этом случае трудности и проблемы этапа сканобработки ошибочно отождествляются с трудностями создания формата DjVu. Данное заблуждение порождается в основном тем фактом, что поклонники формата PDF создают свои PDF-файлы практически напрямую из сырых сканов (либо с минимательными обработками).
2. Мифы о формате DjVu
Давайте перечислим основные мифы о формате DjVu.
Мифы и заблуждения относительно формата DjVu:
1. DjVu даёт плохое качество изображения, не позволяя в принципе делать электронные книги столь же высокого качества, что и растровый PDF.
2. DjVu «портит картинки» (полутоновые или цветные).
3. DjVu не поддерживает OCR-слой.
4. DjVu ничем не индексируется (по своему тексту).
5. DjVu нельзя «править» (документы DjVu не могут быть изменены после создания).
6. В DjVu нельзя делать свои пометки (типа цветных наклеек с текстом).
7. DjVu сделать неизмеримо более сложно, нежели чем растровый PDF.
8. DjVu не поддерживает защиту данных паролем.
9. DjVu не поддерживает метаданные.
10. DjVu не может хранить в себе произвольные данные (видео-, аудио).
Все эти утверждения являются ошибочными.
В отношении каждого из этих утверждений истинно лишь ровно противоположное утверждение.
Далее мы рассмотрим подробнее и детально опровергнем каждый из этих мифов. Но пока что начнём издалека и рассмотрим в общем и в целом оба формата — PDF и DjVu.
О сравнении свойств PDF и DjVu
Формат PDF был создан в 1991 году корпорацией Adobe. Формат DjVu был создан в 1996 году компанией AT&T.
При попытке сравнить оба формата возникают две не слишком очевидные проблемы. Дело в том, что эти форматы вовсе не идентичны в концептуальном плане — проще говоря, они были созданы с немного разными целями и для решения не совсем одинаковых задач.
Проблема № 1. Разница в свойствах.
А именно, формат PDF можно условно поделить на 2 подвида: векторный и растровый. В то время как формат DjVu — исключительно растровый (точнее, он нечто среднее между векторным и растровым — но условно его можно считать растровым). Это служит основой распространённой ошибки сравнения PDF и DjVu: когда пытаются сравнить векторный PDF и растровый DjVu — заявляя при этом, что «PDF лучше». Конечно же, векторный PDF несомненно лучше, чем DjVu (и качеством, и размером). Однако это абсолютно некорректное сравнение. Сравнивать следует только лишь растровый PDF и DjVu. К сожалению, многие просто не понимают разницы между векторным и растровым PDF. И, например, начинают доказывать, что делать надо именно векторный PDF — а не растровый.
Следует понимать, что векторный PDF — это всегда есть производное от тех документов, которые изначально появились на свет в электронном виде. Например, научные статьи — их создавали путём ручного набора на компьютере. Другое дело, когда ставится задача оцифровки изначально не-электронного документа (например, бумажной книги). В этом случае создание векторного PDF выглядит как практически нереальная задача (по трудозатратам), поэтому приходится выбирать вариант растрового PDF.
Проблема № 2. Разница в предназначении.
Это самый главный момент. И он же самый тонкий и самый неочевидный.
У форматов PDF и DjVu разная идеология. Формат PDF создавался для печатного воспроизведения документа, а формат DjVu создавался для электронного воспроизведения документа. Другими словами, задача PDF — сделать переносимый вариант электронного документа, который будет одинаково распечатываться на принтере в любом уголке мира. То есть цель PDF — создать бумажную распечатку с электронного документа (гарантированно идентичную на любой платформе, операционной системе и т.п.).
А формат DjVu был создан для того, чтобы наиболее оптимальным образом «превратить» бумажный документ в электронный — и дальше пользоваться уже этим электронным документом с максимальным удобством (никогда не делая из него снова бумажный документ — путём распечатки на принтере). Для этого у DjVu предусмотрено множество специфических свойств (см. далее раздел «Свойства формата DjVu») — отсутствующих, кстати, у PDF. У DjVu нет такой задачи «получить идентичную распечатку на принтере» — которая стоит перед PDF.
Отсюда вытекает естественный вывод:
Для создания электронных версий бумажных книг наиболее оптимально использовать формат DjVu. Ведь он был создан специально для этой цели. И там всё для этого предусмотрено — наиболее оптимальным образом.
А формат растрового PDF лишь «приспособили» для этой задачи. Ведь PDF (и векторный, и растровый) вообще-то создавался совсем не для этого — он был изначально был задуман всего лишь навсего для точного бумажного воспроизведения (на принтере) электронного документа.
Далее в этой статье я буду сравнивать лишь растровый (а не векторный) PDF с DjVu.
Свойства формата «растровый PDF»
ПРЕИМУЩЕСТВА:
1. Известность и популярность
Основным преимуществом PDF перед DjVu является его популярность и широкоизвестность. Формат PDF популярен в мировом масштабе, в то время как формат DjVu известен преимущественно только в Рунете — на Западе о нём почти никто не знает.
2. Открытость стандарта
Формат PDF стандартизован международным комитетом по стандартам ISO (что-то вроде аналога российских ГОСТов). Стандарт формата DjVu управляется исключительно фирмой-владельцем прав на него (в данный момент это Caminova). Поэтому DjVu можно назвать своего рода «закрытым» стандартом — имея в виду его неподвластность общественным интересам (в лице независимых страндартизующих структур — таких как ISO). Забегая вперёд скажу, что это единственный объективный недостаток DjVu по сравнению с PDF.
3. Обилие программ по работе с форматом
Для работы с форматом PDF существует великое множество всевозможных программ — как коммерческих, так и бесплатных. Количество программ по работе с DjVu на порядки меньше. Хотя тут не всё гладко — большинство программ по работе с PDF — платные, бесплатных довольно мало, и их возможности весьма ограничены. Но порой даже и возможности платных PDF-программ ограничены — например, когда нужно подредактировать векторный PDF с кириллическими шрифтами — подробности см. в моей статье Книгосканирование и формат PDF.
НЕДОСТАТКИ:
1. Завышенная сложность внутреннего устройства формата
Формат PDF довольно сложен по своей внутренней структуре. Одна лишь его спецификация занимает более тысячи страниц.
Как следствие, имеется высокая сложность программной работы с форматом PDF, малое количество удобных программных библиотек по работе с форматом, а также неполная поддержка формата практически всеми не-фирменными (не-Adobe) программными библиотеками (!). В частности, известные трудности вызывает даже такая простейшая задача, как декодирование произвольного PDF-файла в формат TIF — подробности см. в моей статье Книгосканирование и формат PDF.
2. Ориентированность на бумажную печать, а не на электронный вид
(В этом пункте речь идёт, по-видимому, всё же о векторном PDF — а не о растровом).
Формат ориентирован в основном на создание бумажных распечаток из PDF-файла. Он и создан был для того, чтобы в любом конце света можно было распечатать PDF-документ на принтере в неизменном виде.
PDF не является электронно-ориентированным форматом. Он плохо масштабируется (особенно на мобильных компьютерах — «мельчит» текст), он «тормозит» при скроллинге (как векторный PDF, так и растровый), он не позволяет открыть недокаченный файл — чтобы открыть PDF, его требуется всегда полностью скачать, поскольку заголовок PDF находится в конце файла. PDF часто порождает проблемы при просмотре его непосредственно в броузере.
Подробнее см. статьи (на эту тему):
Свойства формата DjVu
ПРЕИМУЩЕСТВА:
1. Специализированность для электронизации бумажных текстов
DjVu всегда использует 3-слойную сегментацию контента, обеспечивающую оптимальное сжатие. PDF может использовать такую сегментацию лишь опционально — и, как правило, она бывает «криво» реализована. Можно сказать, что растровый PDF был лишь приспособлен для электронизации бумажных текстов — в то время как DjVu был специально создан именно для этого.
2. Ориентированность на электронный вид документа
- Возможность просмотра недокаченного DjVu (т.е. просмотра уже скаченных страниц многостраничного DjVu)
- Выборочный просмотр страниц через индексный файл (Indirect-режим)
- Прогрессивная прорисовка (детали DjVu-изображения «проявляются» всё больше и больше по мере закачки файла — как в JPG).
- Непосредственный рендеринг (благодаря вейвлетному сжатию, применяемому в DjVu, на экране компьютера отображается лишь тот кусочек DjVu-страницы, который и должен отображаться на экране — т.е. вся текущая страница не загружается в память целиком).
3. Низкие ресурсные требования
DjVu требует от компьютера гораздо меньше ресурсов, нежели чем растровый PDF. Поэтому DjVu может работать на откровенно слабых переносных компьютерах.
4. Малый размер файла
DjVu обеспечивает минимально возможный размер файла. Как правило, в несколько раз меньший, чем растровый PDF (при сходном качестве). Многие пользователи, особенно сейчас, стали утверждать, что «теперь размер уже не важен», поскольку широко распространился доступный по цене быстрый Интернет. Я считаю, что с этим утверждением нельзя согласиться. Потому что никто не отменял такое понятие, как «экономическая целесообразность». И, если, к примеру, одна и та же коллекция электронных книг в виде растрового PDF требует 5 DVD-дисков для своей записи — а в виде DjVu — только 1 DVD-диск (при том же самом визуальном качестве) — то пусть не говорят, что «это не имеет значения». Кроме того — далеко не везде имеется недорогой, быстрый и неограниченный Интернет.
5. Простота и оптимальность внутренного устройства формата
С DjVu легко работать программно. Многие операции делаются гораздо проще программно, чем они же c растровым форматом PDF (например, склейка страниц).
НЕДОСТАТКИ:
1. Закрытость стандарта
Стандарт DjVu не подавался в ISO для утверждения.
2. Относительная неразвитость программного обеспечения для работы с форматом
Этот недостаток нельзя назвать принципиальным. Почему-то некоторые утверждают, что «формат DjVu плохой, потому что для работы с ним мало программ, а те, что есть, не так удобны, как программы для работы с PDF». Оценивать тот или иной формат лишь по качеству программ для работы с ним — очевидно неправильно. Программы — дело наживное, сегодня их нет, а завтра появятся. Главное — хорош или плох тот или иной формат в принципе. К тому же в настоящее время имеется изрядное количество свободно-бесплатных программ по работе с форматом DjVu (и новые DjVu-программы постоянно появляются).
3. Возможность ошибки «инь» при кодировании в DjVu
Это известная проблема (официально именуемая «transposed letters»), но она сводится практически к нулю при использовании разрешения 600 dpi при создании DjVu (что обеспечивается автоматически при использовании Scan Tailor во время создания DjVu).
Практический пример сравнения форматов «растровый PDF» и DjVu
Рассмотрим один и тот же файл, сделанный в двух форматах: растровый PDF и DjVu. Точнее, изначально этот файл был в растровом формате PDF — я его переделал ещё и в формат DjVu.
Вот этот файл (в 2 форматах):
Давайте, рассматривая этот пример, одновременно разберём подробно ранее перечисленные мифы о формате DjVu.
Миф № 1: DjVu даёт плохое качество изображения, не позволяя в принципе делать электронные книги столь же высокого качества, что и растровый PDF.
При рассмотрении обоих этих файлов в соответствующих просмотрщиках первое, что бросается в глаза — их практически идентичное визуальное качество. Самый взыскательный наблюдатель вряд ли сумеет на глаз различить, какой из этих двух файлов «хуже» по качеству визуального отображения контента. Это полностью развеивает миф о якобы принципиальной неспособности формата DjVu делать (в нём) качественные электронные книги.
Этот миф, скорее всего, порождён нехваткой/плохим качеством некоторых программ по сканобработке (например, СканКромсатор) — что приводило (и приводит по сей день) к массовому производству недостаточно качественных DjVu-книг.
Второй момент, о котором стоит сказать — это удобство использования. Попробуйте «прокрутить» мышкой в просмотрщике сначала PDF-файл примера — а затем DjVu-файл примера. PDF-файл будет скроллироваться либо «волнами» (в Adobe Acrobat Reader), либо «рывками» (в Foxit PDF Reader). А полутоновое изображение вообще будет «моргать»! (у меня — при прокрутке в Foxit PDF Reader). А вот DjVu-файл примера (в WinDjView) — скроллируется плавно, вообще без каких-либо видимых задержек. Задержки при скроллировании — это источник раздражения пользователя.
Третий интересный момент — это размеры файлов. Обратите внимание: один и тот же файл в DjVu «весит» в 5,5 раз меньше (!), чем он же в формате растровый PDF. И это при идентичном качестве изображения.
Миф № 2: DjVu «портит картинки» (полутоновые или цветные).
В файле-примере присутствует полутоновая иллюстрация (из-за чего он кодировался через DjVu Imager). Однако — в DjVu-версии этого файла нет даже и намёка на какую-либо «порчу картинок». Этот наглядный пример, думаю, полностью уничтожает ещё один миф относительно DjVu (о «порче картинок»).

На рисунке 1 показан пример «порчи картинок» (на примере изображения, обычно используемом в тестовых целях при демонстрации работы алгоритмов растровой графики).
Оказывается, DjVu всё-таки прекрасно умеет качественно передавать в аутентичном виде любые исходные бумажные текстовые носители информации (книги, журналы, газеты, и т.п.). Разбор мифов № 1 и 2 это отлично подтверждает.
Разберём подробно оставшиеся мифы о формате DjVu.
Миф № 3: DjVu не поддерживает OCR-слой.
Как известно, это не так. Как раз-таки, формат DjVu предусматривает специальный OCR-слой — которым очень просто программно манипулировать. Существует и довольно популярна программа DjVuOCR — которая позволяет внедрить в DjVu-файл результы его OCR в программе ABBYY FineReader. Фирменные программы от Caminova вообще имеют встроенный Iris OCR — позволяющий распознать и внедрить OCR прямо в DjVu-кодировщике.
Видимо, данный миф возник оттого, что ещё до создания программы DjVuOCR в Сети оказалось множество DjVu-книг без OCR-слоя — вот кто-то и сделал поспешный «вывод» — что якобы «DjVu не поддерживает OCR-слой». Плюс некоторые, по-видимому, и поныне не знают о существовании DjVuOCR.
Пример DjVu-файла со встроенным OCR-слоем смотрите далее на Рис. 2.
Растровый формат PDF также поддерживает возможность встроить OCR — однако использование данного функционала в своей самодельной программе крайне затруднено — ввиду высокой сложности формата PDF.
Миф № 4: DjVu ничем не индексируется (по своему тексту).
DjVu можно проиндексировать рядом программ (имеется в виду создание возможности поиска по ключевым словам по OCR-слоям множества DjVu-книг). Например, dtSearch (плюс iFilter DjVu-плагин к нему), Google Desktop (плюс DjVu-плагин к нему), Archivarius 3000 (признаваемый многими как наилучшее средство индексирования DjVu), Yandex Персональный Поиск — и прочие.
Происхождение этого мифа вызвано, скорее всего незнанием того факта, что многие популярные индексаторы поддерживают индексирование DjVu только через установку в них специализированного DjVu-плагина для них (а по умолчанию там DjVu не поддерживается).
Миф № 5: DjVu нельзя «править» (документы DjVu не могут быть изменены после создания).
Это вообще довольно интересный миф. На самом деле, всё наоборот — DjVu позволяет «править» себя ровно в той же мере, что и растровый PDF. Просто программ, умеющить править готовый DjVu, пока что очень мало — а некоторые варианты правки DjVu пока вообще не реализованы ни в одной программе.
К числу программ, умеющих править готовый DjVu-файл, следует отнести такие, как DjVuOCR, DjVu Imager, DjVu Pal, Document Express Editor — и ряд других. Каждая из этих программ умеет править готовый DjVu-файл по-своему. Document Express Professional — управляет аннотациями, DjVuOCR — OCR-слоем, DjVu Imager — может поменять состав слоёв DjVu, DjVu Pal — умеет менять состав слоя-раскраски DjVu.
Возможно и более глубокое редактирование готового DjVu (пока нереализованное нигде). Например, можно сделать редактор маски DjVu (пока гипотетическая несуществующая программа). Маска DjVu состоит из мелких объектов, именуемых «шейпы» (от англ. «shapes»). Как правило, каждая буква представлена отдельным шейпом. Редактор маски DjVu мог бы произвольно менять состав и количество шейпов — а также их месторасположение на DjVu-странице. Особенно ценной такая возможность была бы для E-Ink-читалок — она позволила бы без перекодирования «форматировать» DjVu под размер экрана конкретного мобильного устройства.
Другое возможное применение редактора маски DjVu — исправление ошибки «инь» прямо в готовом DjVu (путём подмены неправильных шейпов на правильные). Или же снижение размера готового DjVu (за счёт оптимизации словаря разделённых символов маски, ручной замены схожих шейпов на одинаковые).
Конечно же, этот миф был вызван незнанием о программах (или несуществованием их в прошлые времена), умеющих «править» DjVu.
Миф № 6: В DjVu нельзя делать свои пометки (типа цветных наклеек с текстом).
Рис. 2. Пример DjVu-файла с аннотациями и OCR-слоем.
- Область выделения (прямоугольная)
- Прямоугольная гиперссылка
- Овальная гиперссылка
- Полигональная гиперссылка
- Текстовая аннотация
- Аннотация-линия (опционально — стрелка).
Также на рисунке 2 показано наличие OCR-слоя в этом DjVu-файле — в виде инвертированного выделения (белые буквы на чёрном фоне). Так выглядит выделение OCR-текста в WinDjView. Произвольно выделенный участок OCR-текста можно, к примеру, скопировать в Буфер Обмена и затем вставить в текстовый файл, скажем, в Блокноте.
Миф № 7: DjVu сделать неизмеримо более сложно, нежели чем растровый PDF.
Это, пожалуй, самый коварный миф. Понять его происхождение было непросто. Как оказалось, причина возникновения этого мифа в том, что люди, сканирующие в растровый PDF, оказывается, просто не занимались облагораживанием сырых сканов (зачастую даже не подозревая о такой возможности) — а напрямую со сканера кодировали сканы в формат растрового PDF (!). Конечно, им создание DjVu показалось «сложнее», чем создание растрового PDF.
Вообще-то проблема сложности создания DjVu (или растрового PDF) полностью выходит за рамки обсуждения 2-х форматов. Это проблема стадии сканобработки — а не стадии сохранения результатов (либо в растровый PDF, либо в DjVu). И решать её нужно такими программами, как ScanKromsator, Scan Tailor и аналогичные — а не DjVu-программами.
Таким образом, сложность создания растрового PDF или DjVu практически одинаковая. Просто те люди, кто привык сканировать в растровый PDF, отродясь не пользовались ни СканКромсатором, ни Скан Тейлором. Взамен они предлагают (в качестве аргумента) при сканировании подбирать порог яркости сканера (и сканировать сразу в чёрно-белое, а страницы с иллюстрациями сканировать повторно в сером режиме (!), а также класть листы на стекло сканера при сканировании без перекоса (чтобы не надо было потом делать Deskew), а необходимые графические обработки сканов после сканирования они предлагают делать в Фотошопе, утверждая, что это «легко». Разумеется, предложенный ими путь плох — поскольку, во-первых, предполагает затраты излишнего количества ручного труда, а во-вторых, при этом ещё и не обеспечивает желаемого качества электронной книги.
Проще говоря — сделать электронную книгу действительно непросто — но это не вина DjVu (и не вина несовершенства DjVu-программ). Это лишь «вина» программ вроде СканКромсатор или Скан Тейлор.
Кстати — при создании растровых PDF-книг можно (и даже нужно) тоже применять либо СканКромсатор, либо Скан Тейлор — также, как и при создании DjVu.
Миф № 8: DjVu не поддерживает защиту данных паролем.
Миф № 9: DjVu не поддерживает метаданные.
Так было раньше — но не сейчас. Теперь формат DjVu официально поддерживает PDF DocInfo-метаданные (в продукте DjVu Shell Extension Pack от компании Caminova (Цитата оттуда: «Now uses PDF DocInfo compatible property names to conform to the djvuchanges.txt.»). В будущем весьма вероятно внедрение поддержки XMP- и BibTex -метаданных (уже предложено по установленной процедуре на сайте DjVuLibre). Таким образом, DjVu уже сейчас поддерживает часть метаданных формата PDF (что облегчает их взаимную конверсию). Подробнее см. XMPMetadata for DjVu (на английском языке).
Миф № 10: DjVu не может хранить в себе произвольные данные (видео-, аудио).
В соответствии со спецификацией формата DjVu, DjVu-файл может содержать произвольные чанки (т.е.кусочки содержимого с произвольной текстовой меткой-названием). По стандарту, любой программный DjVu-парсер (просмотрщик) обязан просто игнорировать неизвестные чанки — а значит, можно создать свой самодельный DjVu-просмотрщик с поддержкой самых экзотических чанков — например, внедрённого в DjVu аудио- или видео-контента.
Подведение итогов
Давайте попробуем просуммировать все «за» и «против» в отношении выбора, какой формат использовать — растровый PDF или DjVu. Исходя из всего вышесказанного, можно подытожить следующее.
Если нужно сделать переносимую копию изначально электронного документа — DOC-файла из MS Word, или экселевскую таблицу — то лучше, чем векторный PDF, трудно что-либо придумать. Ведь DjVu вообще не приспособлен для подобного использования. И пытаться разгромно критиковать DjVu в этом случае абсолютно некорректно.
Зато когда речь идёт об оцифровке (как можно меньшей кровью — но одновременно в хорошем качестве) изначально бумажного документа (книги, газеты, журнала и т.п.) — то в этом отношении формату DjVu просто нет равных. DjVu превосходит растровый PDF буквально во всех отношениях — а вовсе не только за счёт меньшего размера (как утверждают многие ортодоксальные апологеты растрового формата PDF). DjVu — проще, изящнее, быстрей и совершенней, чем растровый PDF. Если перейти на язык метафор, то можно сказать, что «DjVu — это молодость и прогресс, а растровый PDF — это старость, и убожество». Формат PDF — это настоящий монстр (в плане нелепой навороченности своей внутренней структуры).
Формат DjVu позволяет создавать электронные книги высочайшего качества — ничем не уступающие (и даже наоборот, превосходящие) растровому PDF (во всех отношениях). Это на самом деле лишь вопрос умения сделать качественную сканобработку (такими программами, как ScanKromsator и Scan Tailor) — ещё до DjVu-кодирования.
Однако, сторонники растрового PDF задают следующий вопрос: «Если DjVu так хорош — то почему же на Западе о нём практически никто не знает, а все там используют только (растровый) PDF?».
Ответ прост — как это часто бывает в нашей жизни, по-настоящему хороший продукт не всегда одерживает верх над посредственным. Всё дело в том, что корпорация Adobe имеет на порядки больше финансовых возможностей — нежели чем владельцы формата DjVu. К примеру, аналогичная ситуация наблюдается с операционной системой Windows — будучи хуже, чем аналогичные продукты конкурентов (по крайней мере, в прошлом), она, тем не менее, сумела завоевать господство на рынке.
Кроме того, владельцы прав на формат DjVu во многом сами виноваты в не-популярности DjVu на Западе. Многие годы они проводили совершенно вялую и аморфную политику на рынке. Начнём с того, что они элементарно зачастую не отвечали на электронные письма (даже известным западным DjVu-деятелям — а не только мне). Потом они производили (и до сих пор производят) нелепые и дурацкие программы по работе с форматом DjVu (сверхдорогие, огромные по размеру, и т.п.). Чего только стоила шизофреническая затея с виртуальным картриджем для всех DjVu-программ (это было несколько лет назад) — проще говоря, они хотели заставить потребителя платить индивидуально за каждую созданную DjVu-страницу! Слава богу, что этот бред давно умер естественной смертью — и теперь коммерческие DjVu-программы активируются просто по вводу серийного номера.
Владельцы DjVu так и не не опубликовали по сей день спецификацию версий DjVu. А ведь это же элементарнейшая вещь — так сказать, азы нормального бизнеса. Как говорится, хоть стой, хоть падай. Да и фирмы-владельцы формата DjVu менялись, как в калейдоскопе — за последние 5 лет. Сначала AT&T, затем LizardTech, потом Celartem, а теперь вот Caminova. Такое впечатление, что они прямо не знают, куда бы им сбагрить этот несчастный формат DjVu. Много лет отсутствовала в свободном доступе пробная версия DjVu SDK (снова появившись лишь недавно — после многолетнего перерыва).
Есть ещё одно существенное обстоятельство: Caminova не предоставляет бесплатный SDK для декодирования DjVu (и правки аннотаций). Этот функционал входит в состав платного DjVu SDK — что, очевидно, сильно сдерживает популяризацию формата DjVu. Когда-то в прошлом один из очередных владельцев DjVu распространял бесплатно с официального сайта легально-бесплатный коммерческий DjVuDecode SDK (для коммерчески-бесплатного DjVu-декодирования — он есть у меня в разделе «DjVu-программы») — но потом, видимо, взяла верх обычная глупая жадность — и DjVu SDK для декодирования убрали с сайта (и теперь даже использовать его легально нельзя — без письменного разрешения от фирмы).
Леон Боту, один из создателей формата DjVu, однажды так выразился о политике компании LizadTech в области DjVu (на тот момент LizadTech владела правами на формат DjVu):
They are cutting the hen that lays the golden eggs.
Что в переводе на русский означает: «Они режут курицу, которая несёт золотые яйца».
К счастью, в Рунете ситуация с форматом DjVu диаметральна противоположна. DjVu переживает у нас бурный рост популярности. Этому не смогло помешать даже нелепое неудобство официальных DjVu-программ — им на замену были сделаны простые и удобные самодельные DjVu-программы — во всех отношениях их превосходящие.
Просто слишком многие в Рунете уже поняли, насколько это замечательная вещь — формат DjVu. И неважно, что его не хотят признавать на Западе — мы-то живём не на Западе (или по крайней мере, активно пользуемся Рунетом), и нас DjVu вполне устраивает — потому что он объективно не просто хорош — а замечателен и великолепен.
Примечание:
Ссылки (только на тему сравнения PDF и DjVu):
Самые важные:
1. Как сканировать (Форум сайта JURASSIC.RU) — обсуждение, которое и породило данную статью.
5. PDF: Unfit for Human Consumption — критика PDF (на английском языке).
6. Avoid PDF for On-Screen Reading — критика PDF (на английском языке).
7. DjVu-Digital vs. «Super Hero» PDF — классическое сравнение растрового PDF и DjVu от создателей DjVu.
8. Что за штука. DjVu? — лаконичное и толковое сравнение PDF и DjVu.
Прочие:
9. Очень кратко — об электронных книгах — Написано поклонниками PDF, отвергающими DjVu. С некоторыми заблуждениями относительно DjVu.
10. Цифровой документооборот: DjVu против PDF — Заведомо неправильная и провокационная попытка сравнения векторного PDF и DjVu (тогда как сравнивать можно только растровый PDF и DjVu). Написана явно в рекламных целях. Цифровой документооборот следует делать только на векторном PDF — DjVu вообще для этого не предназначен.
11. DJVU и PDF. Сравнение форматов файлов — Лживо-тенденциозная заметка чисто рекламного характера.
12. Ликбез по DjVu — Кратко о DjVu и его достоинствах.
14. Поддержка DJV (обсуждение на форуме)
16. PDF vs. DjVu — Rutracker.Org (коротко, но с некоторыми заблуждениями)
20. Книгосканирование и формат PDF (моя старая статья. Успела немного устареть.)
Автор: monday2000.
18 октября 2010 г.
E-Mail (monday2000 [at] yandex.ru)
Какой формат электронных книг лучший? Сравниваем FB2, DJVU, PDF и другие

На современном этапе развития технология E-Ink действительно не уступает по восприятию обычной бумаге, обеспечивая максимальный комфорт при чтении книжек под солнечными лучами днём и ночью (если есть подсветка). Но какой формат файлов лучший для электронных книг? Вопрос интереснейший, поскольку их существует множество.
Если вы читаете комиксы и мангу, там наиболее востребован формат CBR, поскольку он позволяет в одном файле хранить большое количество графических изображений с достойным сжатием. Но если речь о классической текстовой литературе, выбор открывается обширный. Наиболее актуальным и удобным считаю вариант с FB2 (FictionBook).
В нём записывается полная структура с обложкой, примечаниями и разметкой по главам. Минимальный объём – дополнительный плюс для читалок с небольшим объёмом внутренней памяти и без поддержки Flash-карт. Сейчас проблема менее актуальна, чем в эпоху Kindle 1-4 поколений.

Какой формат для электронных книг лучший? Сравнение FB2 с аналогами
В случае с документами для профессионального использования, инструкциями и мануалами стандартом считается PDF. Весит существенно больше и не всегда корректно обрабатывается моделями на старых микропроцессорах.
Упомяну и DJVU, где чаще встречаются отсканированные страницы. Приходится часто увеличивать область просмотра для изучения материала на небольшом экране, поэтому данный вариант лучше подойдёт большим мониторам ПК и MacBook. Для E-Ink не слишком удобное решение из-за ряда условностей и компромиссов.

Особняком стоит EPUB – веб-страница с полным сохранением внутренней структуры и гиперссылками, если они присутствуют в материале. Все ридеры его понимают и открывают. Далее идут привычные DOC, RTF и TXT. Последний занимает меньше места, но больше подходит для коротких рассказов или написания заметок непосредственно на девайсе.
Подводя итоги, FB2 – лучшее решение по совокупности параметров. Мнением поделитесь в комментариях. Нужна ли отдельная статья по подбору устройства исходя из характеристик?
Цифровой документооборот: DjVu против PDF
Большинство компаний рано или поздно сталкивается с необходимостью введения электронного документооборота. При этом одним из наиболее важных вопросов становится выбор формата, в котором документы будут создаваться, храниться и передаваться в другие фирмы или удаленные подразделения. Сегодня мы сравним два таких формата: PDF и DjVu.
Пара слов о DjVu
История DjVu началась в 1996 году. Именно тогда одно из подразделений компании AT&T начало работу над созданием нового формата. Главная задача, которая была поставлена перед разработчиками – создать технологию хранения и пересылки отсканированных документов, то есть, фактически, документов в электронном виде. Однако в то время мало кто мог предположить, что в будущем компании будут обмениваться через глобальную сеть договорами и актами. Поэтому под документами понимались отсканированные журналы, газеты, книги, техническая документация. В 1998 году появились первые плагины для просмотра DjVu-документов с помощью браузеров.
В 1999 году была опубликована новая версия формата DjVu. В ней была реализована функция объединения нескольких изображений в один файл с возможностью перелистывания страниц, а также нанесения так называемых “горячих точек”, фактически, являющихся гиперссылками. В следующем году появилась третья версия формата DjVu. Примерно тогда же компания AT&T продала свою разработку фирме LizardTech, которая начала использовать ее в своих коммерческих продуктах. При этом сам формат является открытым. А поэтому сегодня существует немало бесплатного программного обеспечения для работы с ним.
Сам по себе формат DjVu является очень интересным решением, представляющим собой технологию сжатия изображения с потерями. Суть ее заключается в разделении документа на три слоя: передний план, задний план и черно-белую маску. Каждый из них обрабатывается по-своему. При этом используется целый ряд различных технологий: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, алгоритм сжатия черно-белых изображений JB2, универсальный алгоритм сжатия ZP, алгоритм распаковки по запросу. Такой подход позволяет добиться максимальной степени сжатия при минимальных искажениях. Одна отсканированная из книги страница имеет в формате DjVu объем всего 10-25 кбайт.
Пара слов о PDF
Впервые о формате PDF (Portable Document Format) общественность услышала в 1991 году. Именно тогда компания Adobe Systems анонсировала его как новую технологию представления в электронном виде любой полиграфической продукции. Новинка получилась очень удачной. Уже в следующем году формат PDF получил приз на престижной международной выставке Comdex Fall. Компания Adobe Systems очень большое внимание уделяла развитию своей разработки. В 1994 году появилась версия 1.1 формата PDF, в которой была реализована поддержка внешних ссылок, машинно-независимого цвета, потоков статей, а также комментарии и некоторые функции, касающиеся безопасности. Следующая версия рассматриваемого формата появилась в 1996 году. В ней была реализована поддержка спецификации OPI 1.3 и цветового пространства CMYK.
Формат PDF 1.3 был выпущен в 1999 году. Он отличался от своего предшественника поддержкой 2-байтовых CID шрифтов, спецификации OPI 2.0, наличием технологий сглаживания теней и градиентов. Следующая версия рассматриваемого формата была опубликована в 2001 году. В ней появились такие важные функции, как поддержка прозрачности, 128-битное шифрование, возможность установки качества печати. Ну и, наконец, последней на сегодняшний день является версия 1.7 формата PDF, которая появилась в 2006 году.
Главным отличием формата PDF является его широкое распространение. Сегодня именно в этом формате поставляются многие руководства, технические документации, периодическая пресса и другие виды документов. И практически на каждом компьютере установлено программное обеспечение для просмотра документов в формате PDF.
Форматы DjVu и PDF: разные области применения
Если говорить об использовании форматов DjVu и PDF для организации электронного документооборота, то стоит обратить внимание на следующие особенности каждого из них. Главное достоинство формата DjVu – очень маленький размер файлов. Особенно он хорош при работе с такими документами, в которых много нераспознаваемых элементов: картинок, схем и формул. Кроме того, DjVu прекрасно подходит в случаях, когда необходимо передать не только сам текст, но и его оформление: цвет и фактуру носителя, существующие на нем дефекты и следы, которые оставили другие предметы. Таким образом, DjVu прекрасно подходит для хранения технической документации, например, инструкций и руководств, а также исторических и просто редких документов. Сегодня в глобальной сети существуют обширные библиотеки всевозможной литературы, которая записана в этом формате.
Однако обратите внимание, что каждый раз, говоря о файлах в формате DjVu, мы упоминаем о сканировании реально существующих на бумаге или другом носителе документах. И это неспроста. Данный формат изначально создавался для хранения именно отсканированных копий документов. И сегодня практически нет инструментов, да и необходимости, создавать DjVu-файлы как-то иначе.
Недостатков, препятствующих использованию формата DjVu в электронном документообороте, немало. Во-первых, в нем применяется сжатие данных с потерями. А это не очень хорошо, когда речь идет о договорах, актах, и других имеющих юридическую силу документах. Во-вторых, относительно малое распространение формата DjVu не позволяет компаниям свободно использовать его для обмена информацией со своими партнерами или клиентами. На подавляющем большинстве как корпоративных, так и домашних компьютеров просто-напросто нет программного обеспечения для просмотра таких электронных документов. В-третьих, в рассматриваемом формате полностью отсутствуют хоть какие-то средства для обеспечения безопасности и конфиденциальности документов.
Что касается формата PDF, то он больше подходит для организации электронного документооборота. Самое главное – это его широкое распространение. Как мы уже говорили, практически на каждом ПК вне зависимости от используемой на нем операционной системы установлено программное обеспечение, позволяющее не только прочитать PDF-документ, но и “материализовать” его на любом печатающем устройств. Причем именно в том виде, в котором его создал владелец. Таким образом, устраняется проблема совместимости форматов – одна из самых серьезных проблем в процессе организации электронного документооборота.
Вторым преимуществом формата PDF является встроенная защита от несанкционированного доступа. С ее помощью пользователь может обезопасить любой свой документ от просмотра или использования посторонними лицами. В качестве защиты применяется криптографическая технология, многократно протестированная как разработчиками программного обеспечения, так и экспертами в области информационной безопасности.
Ну и, наконец, третьим преимуществом PDF является его стандартизация организацией ISO (International Organization for Standardization). На данный момент этот формат уже имеет статус стандарта для хранения архивных документов и для обмена компаниями информацией в электронном виде. И это только начало. Разработчики формата собираются передать его спецификацию общественной организации Association for Information and Image Management. В этом случае существует очень большая вероятность того, что PDF станет международным стандартом для организации электронного документооборота.
Какой же вывод можно сделать из всего вышесказанного? Оказывается, форматы DjVu и PDF нельзя считать соперниками. Они предназначены для решения различных задач, а поэтому не соперничают, а дополняют друг друга. В качестве основы системы электронного документооборота лучше брать, конечно же, формат PDF, который, де-факто, стал общемировым стандартом. Стоит отметить, что в некоторых компаниях уже существуют цифровые DjVu-архивы технической и другой документации, созданные путем сканирования бумажных документов. Однако это не является основанием для выбора именно этого формата. Лучше построить современную, реально работающую систему электронного документооборота, а уже существующие DjVu-файлы просто конвертировать в формат PDF.
Конвертируем документы из DjVu в PDF
Для реализации системы электронного документооборота используется обычное для работы с файлами выбранного формата программное обеспечение, в том числе, и распространяемое на бесплатной основе. Однако есть одна задача, с которой такое ПО справиться не сможет. Речь идет о конвертировании документов из формата DjVu в формат PDF. Для решения данной задачи приходится использовать дополнительное программное обеспечение, например, Universal Document Converter. Это универсальный продукт для конвертирования документов в различные форматы, который прекрасно подходит в нашем случае.
По принципу работы программа Universal Document Converter является виртуальным принтером. В процессе установки она создает в операционной системе дополнительное печатающее устройство, доступное в любом программном обеспечении. Печатая на этом принтере, на выходе пользователь получает файл нужного формата. Такой подход наиболее удобен на практике. Во-первых, он позволяет осуществлять процесс конвертирования быстро, практически без предварительной работы. Во-вторых, он настолько прост, что не требует обучения конечных пользователей.
Алгоритм конвертирования файла формата DjVu в PDF-документ с помощью программы Universal Document Converter выглядит следующим образом. Сначала пользователь должен открыть нужный файл DjVu. Сделать это можно в программе Internet Explorer с предварительно установленным специальным плагином. После этого ему остается только нажать на кнопку “Печать” и выбрать в качестве принтера Universal Document Converter.
Технологический Университет г. Куртин
«Универсальный конвертер документов и Adobe Acrobat предназначены для создания кросс-платформенных документов. Но УДК нам нравится больше, так как не нужно устанавливать специальный вьювер, чтобы открыть созданные им графические файлы.»