Создание djvu из jpg

Обновлено: 03.07.2024

1 Краткий обзор

В этом документе объясняются некоторые способы использования реализации DjVu в djvulibre для создания качественных документов DjVu в Linux. Формат DjVu отличается сжатием растровых документов и структурой гипертекста. Он используется многочисленными веб-сайтами по всему миру для хранения и распространения цифровых документов, включая отсканированные документы и изображения с высоким разрешением. Одно из преимуществ файлов DjVu заключается в том, что они заметно меньше, часто меньше, чем файлы PDF или JPEG с тем же содержимым. Это делает DjVu полезным инструментом для оцифровки книг и журналов, особенно научных.

Ниже рассматривается случай, когда документ DjVu создается из нескольких отдельных файлов JPEG, каждый из которых содержит одну страницу. Здесь формат JPEG не является ограничением, и примеры могут охватывать произвольные форматы изображений. Также обсуждается преобразование из PDF в DjVu. Использование программного обеспечения сканера не объясняется: см. соответствующую документацию.

Требования. Необходимы пакеты djvulibre, jpeg и netpbm. Настоятельно рекомендуется использовать пакеты sane и xpdf.

2 Создание DjVu

2.1 Сканирование книги

Предположим следующую ситуацию для этого раздела. У нас есть книга, которую нужно отсканировать и сохранить в цифровом формате. Для простоты предположим, что все содержимое книги черно-белое (текст, формулы, диаграммы и т. д.), за исключением обложки книги, напечатанной в цвете. Обычно мы можем сканировать его страницу за страницей и сохранять страницы отдельно в каком-либо формате изображения, таком как JPEG или PDF. Лично я считаю, что JPEG — лучший выбор. Но если вы считаете, например, что сжатый TIFF больше подходит для ваших целей, этот HOWTO может быть вам полезен. Однако в этом случае примеры скриптов следует немного изменить. Пока давайте придерживаться JPEG.

В нашей ситуации с книгой мы сканируем переднюю обложку книги (а также заднюю обложку, если она содержит какой-либо заметный текст или изображения) для цветных файлов JPEG. Затем мы сканируем остальные в черно-белые файлы JPEG. Это должно обеспечить оптимальную производительность. При сохранении отсканированных изображений обратите внимание на имена файлов. Для конвертации в DjVu все изображения должны быть расположены в алфавитном порядке с соблюдением порядка страниц. Например, 000.jpg, 001.jpg, 002.jpg, . 012.jpg — правильная нумерация; и 0.jpg, 1.jpg, 2.jpg, . 12.jpg неправильный, потому что 12.jpg появится перед 2.jpg . Когда вся книга будет отсканирована, поместите все файлы изображений в отдельный каталог.

В зависимости от устройства сканера, программного обеспечения и метода сканирования вам может потребоваться повернуть все или только некоторые изображения JPEG, обычно следуя некоторому простому шаблону. Приведенный ниже скрипт jpegsrotate может оказаться весьма полезным в таком случае. Например, запустите его с параметром --even, чтобы перевернуть четные страницы вверх ногами в текущем каталоге. Программа jpegtran, используемая в скрипте, может поворачивать JPEG только на 90, 180 или 270 градусов по часовой стрелке.

2.2 JPEG в двухтональный DjVu

Когда изображения готовы, каждое из них необходимо преобразовать в отдельную страницу в формате DjVu с помощью кодировщика DjVu, такого как cjb2 или cpaldjvu, а затем отдельные страницы должны быть объединены в один документ DjVu с помощью djvm. Напишите следующий скрипт с именем any2djvu-bw где-нибудь, например. в ~/bin/ . Запустите скрипт в каталоге, содержащем исходные изображения, для преобразования отдельных черно-белых страниц.

Если запустить скрипт как

он ​​предпримет действие по умолчанию и попытается преобразовать все изображения *.jpg в текущем каталоге в одностраничные файлы DjVu с расширением .jpg.djvu. Вы можете изменить это поведение, определив маску файла (необязательный параметр). Значение дизеринга 0,499 было получено экспериментально и представляет собой очень хорошую (если не лучшую) настройку для двухтональных изображений. Вы также можете раскомментировать указанные строки в any2djvu-bw, чтобы скомпилировать окончательный черно-белый документ DjVu в комплекте за один запуск скрипта. Если вы это сделали и вам не нужны цветные страницы, вы можете пропустить следующий подраздел, посвященный преобразованию цветных изображений.

2.3 JPEG в низкоцветный DjVu

Далее нам нужно преобразовать цветные изображения, взятые с передней и задней обложки книги. Допустим, передняя обложка хранится в 000.jpg, а задняя — в 999.jpg, и каждая из них содержит не более, скажем, 8 тонов. Предыдущий запуск any2djvu-bw оставил после себя два нежелательных файла DjVu, а именно черно-белую версию 000.jpg.djvu и 999.jpg.djvu. Удалите эти два файла. Затем преобразуйте 000.jpg и 999.jpg в цветные страницы DjVu, выполнив следующую команду (обратите внимание, кавычки необходимы):

$ ~/bin/any2djvu-low "+(000|999).jpg" 8

где any2djvu-low — приведенный ниже скрипт, который необходимо записать в ~/bin/ для выполнения команды.

Цветные страницы DjVu были созданы кодировщиком низкого цвета cpaldjvu, а не битональным кодировщиком cjb2.Иногда cpaldjvu с настройкой 2 цветов может создавать выходные файлы немного меньшего размера по сравнению с cjb2. Это может произойти, поскольку черный цвет кажется светлее в случае cpaldjvu. Поэтому использование cjb2 предпочтительнее для двухтональных изображений, которые обычно выглядят тем лучше, чем ярче черный цвет. Кроме того, преобразование изображения JPEG в битональное DjVu с помощью cpaldjvu занимает примерно в 1,5 раза больше времени, чем то же самое с использованием cjb2.

Вы также можете ожидать, что cpaldjvu (с числом цветов по умолчанию 256) выдаст результат, почти такой же по размеру, как исходный (даже 16 М цветов) файл JPEG. Уменьшение количества цветов с помощью опции -colors n в cpaldjvu во многих случаях решает проблему экспоненциально медленно, например, уменьшение n с 256 до 16 может дать результат только в 4 раза меньше.

2.4 Связывание DjVu

Последний шаг — связать все отдельные страницы DjVu в многостраничный документ DjVu. Следующий скрипт binddjvu делает это.

И мы закончили с нашим примером.

2.5 PDF в DjVu

  1. Для отсканированных документов производительность DjVu строго лучше, чем у PDF. Вот почему имеет смысл преобразовать отсканированный PDF-документ в формат DjVu.
  2. Существует другая ситуация, когда у нас есть много (одностраничных) PDF-документов, которые мы хотим связать вместе. Например, возьмите страницы документа PDF, загруженного из интернет-библиотеки.
  3. Объединение одностраничных или многостраничных PDF-файлов в один файл DjVu.
  4. Кроме того, на некоторых сканерах можно сканировать напрямую в одностраничные PDF-файлы. Потом опять удобно PDF переплетать в многостраничный DjVu.

После запуска скрипт pdfs2djvu оставляет DjVu-кодированные страницы в виде файлов *.pbm.djvu в текущем каталоге.

3 Заключительные замечания

Это HOWTO было написано не разработчиком DjVu, а его пользователем. Поэтому в HOWTO, возможно, отсутствуют некоторые технические детали. Если вы хотите получить дополнительную техническую информацию о командах, см. справочные страницы или любую другую соответствующую документацию. Я бы предложил очень поучительный

OnlineConvertFree конвертирует ваши изображения бесплатно. Конвертируйте jpg в djvu онлайн без установки программного обеспечения.

Как конвертировать jpg в djvu?

Загрузить jpg-файл

Выберите файл jpg, который вы хотите конвертировать, с вашего компьютера, Google Диска, Dropbox или перетащите его на страницу.

Конвертировать jpg в djvu

Скачать ваш djvu-файл

Онлайн и бесплатный конвертер jpg в djvu

Просто перетащите свои файлы jpg на страницу, чтобы преобразовать djvu, или вы можете преобразовать их в более чем 250 различных форматов файлов без регистрации, указывая адрес электронной почты или водяной знак.

Мы мгновенно удаляем загруженные файлы jpg, а преобразованные файлы djvu — через 24 часа. Все файлы передаются с защищенным расширенным уровнем шифрования SSL.

Вам не нужно устанавливать какое-либо программное обеспечение. Все преобразования jpg в djvu выполняются в облаке и не используют ресурсы вашего компьютера.

Joint Photographic Experts Group в формате JFIF

JPG — популярный графический формат, характеризующийся высокой степенью сжатия изображения, что приводит к снижению качества изображения. В нем используется технология кодирования плавной цветопередачи, обеспечивающая возможность многократного уменьшения объема данных во время записи изображения. Из-за небольшого размера востребован владельцами сайтов, позволяя эффективно экономить трафик. Он также часто используется в картах памяти цифровых видеокамер. Алгоритм JPG оптимально подходит для сжатия фотографий и картинок, в которых присутствуют реалистичные сцены с небольшим контрастом цветов. Не рекомендуется использовать этот формат для сжатия рисунков и различного рода графики. Сильный контраст между несколькими близко расположенными пикселями провоцирует появление видимых артефактов.

Процедура сжатия цифровых изображений в формате JPG выполняется в несколько этапов. Сначала фотография преобразуется в цветовое пространство YCbCr, а затем разбивается на квадраты для определения верхнего диапазона цветового спектра. Наконец, цвета и яркость кодируются. JPEG использует систему сжатия с потерями и технологию дискретного косинусного преобразования. Формат выступает одновременно стандартом ISO и Международного союза электросвязи. Коэффициент сжатия файла находится в диапазоне от 10:1 до 100:1. При этом снижение качества изображения может варьироваться от незначительного до существенного.

Читайте также: