Как создать файл djvu

Обновлено: 26.06.2026

Тим Фишер имеет более чем 30-летний опыт работы в сфере технологий. Он пишет о технологиях более двух десятилетий и является вице-президентом и генеральным директором Lifewire.

Райан Периан — сертифицированный ИТ-специалист, обладатель множества сертификатов в области ИТ и более 12 лет опыта работы на должностях поддержки и управления в сфере ИТ.

Что нужно знать

Файл DJVU — это файл изображения DjVu.
Откройте файл с помощью Sumatra PDF, DocsPal или другой совместимой программы просмотра.
Преобразование в PDF, EPUB, MOBI и другие форматы с помощью Calibre, Zamzar и аналогичных инструментов.

В этой статье описывается, что такое файл DJVU, как его открыть и какие программы могут преобразовать его в более распространенный формат, такой как PDF или MOBI.

Что такое файл DJVU?

Разработанный AT&T Labs, файл DJVU (произносится как дежа вю) представляет собой формат графического файла, предназначенный для отсканированных изображений, вроде формата PDF, с которым вы, вероятно, более знакомы.

Поскольку файл DJVU может содержать сжатые, но высококачественные цветные изображения, фотографии, текст и рисунки, он используется в качестве формата для некоторых электронных книг, а также руководств, газет, древних документов и т. д., отсканированных в компьютер.

Файлы DjVu могут использовать расширение .DJVU или .DJV.

Как открыть файл DJVU

Бесплатная программа Sumatra PDF, вероятно, является самым быстрым и простым способом открытия файлов DJVU. Он также может сохранять открытый файл DJVU в файл TXT для удобного чтения без какой-либо графики.

DocsPal — это онлайн-программа просмотра DJVU, которая полезна, если вы не хотите устанавливать специальную программу просмотра на свой компьютер. Использование онлайн-инструмента также означает, что вы можете открывать файл намного быстрее, а также просматривать файл независимо от вашей операционной системы. Конвертерная часть этого веб-сайта сохраняет загруженный файл DJVU в EPS, PS и некоторых других форматах.

Как преобразовать файл DJVU

Файлы DJVU используются не так широко, как аналогичные форматы, такие как PDF, EPUB, MOBI и другие форматы файлов электронных книг.

Zamzar – еще один бесплатный онлайн-конвертер файлов, который отлично подходит для небольших файлов DJVU. Просто загрузите файл DJVU на этот веб-сайт, чтобы преобразовать его в JPG, BMP, GIF, PNG, TIF или другие подобные форматы изображений.

Помимо онлайн-конвертеров DJVU, есть, конечно, загружаемые и устанавливаемые конвертеры, такие как Calibre. Эта конкретная программа может конвертировать DJVU в форматы EPUB, MOBI, AZW3, DOCX, PDB, FB2, LRF и другие. Однако Caliber может преобразовать файл DJVU, только если он содержит встроенный текст, например, если он был создан с помощью программного обеспечения OCR. Файлы DJVU, содержащие только изображения, не поддерживаются.

Другим примером загружаемого конвертера DJVU является конвертер DjVu, который может преобразовывать DJVU в PNG, JPG, EPUB, PDF и TIFF. С помощью этой программы вам не нужно конвертировать все страницы, если вы не хотите, чтобы некоторые из них попали в окончательный файл. Например, вы можете преобразовать только страницы с 10 по 25 или только страницы 11 и 14, чтобы по существу вырезать все остальные страницы. Также есть возможность определить качество изображения/коэффициент сжатия.

Sumatra PDF и DocsPal, упомянутые выше, также могут конвертировать файлы DJVU.

Дополнительная информация о файлах DJVU

Файлы DjVu могут разделять изображения на разные части и сжимать каждую из них отдельно от других частей, таким образом, они могут быть сжаты настолько сильно, насколько они есть, но при этом обеспечивают превосходное качество изображений.

Поскольку файлы DJVU могут разделять изображения и текст на разные слои, это означает, что один слой можно использовать только для хранения текста OCR, что позволяет искать и копировать текст из файла.

На этой странице объясняется, как создать файл DjVu. Этот формат можно использовать в галереях или категориях, как и любой поддерживаемый формат изображения, и он уменьшает размер и количество файлов, которые необходимо скопировать.

Если у вас возникнут трудности, вы можете обратиться за помощью в службу поддержки Commons:Help.

Пример: [[File:Alice in Wonderland.djvu|thumb|Alice in Wonderland, page 9|page=9]].

Содержание

Введение [ изменить ]

Целью является создание файла DjVu из растровых версий (jpg, tif и т. д.), найденных в Интернете или отсканированных. Это выгодно, потому что:

все страницы книги доступны в одном файле
все страницы видны со страницы файла DjVu
каждую страницу можно использовать в пространстве "страницы"
Файлы DjVu имеют небольшой размер
необходимо скопировать только один файл по сравнению с сотнями страниц в растровом формате.
создание файла DjVu выполняется быстрее, чем загрузка сотен растровых файлов.

Похоже, нумерацию страниц нельзя свободно настраивать
Может произойти потеря качества.

В проектах MediaWiki [ редактировать ]

Страницы файлов DjVu можно перемещать в установках Mediawiki, на которых установлен плагин расширения ProofreadPage. Это относится ко всем языковым версиям Wikisource.

После загрузки в Commons необходимо создать индексную страницу. Навигация осуществляется с использованием имени файла с префиксом «page:», за которым следует «/X», где «X» — это номер страницы.

Нумерация страниц [ изменить ]

Формат DjVu создал нумерацию страниц по умолчанию, которая отображается в раскрывающемся меню (см. Изображение:Ветер в Willows.djvu). Желательно, чтобы нумерация страниц совпадала с нумерацией оригинальной книги для удобства использования. Это может быть проблематично, если некоторые страницы (например, во введениях) пронумерованы римскими цифрами. В этом случае одним из решений является создание второго файла DjVu для этих страниц.

Преобразование файла PDF [ изменить ]

Другие форматы [ изменить ]

Tiff-файлы из Gallica можно открыть в FineReader (даже после окончания ознакомительного периода). Экспортируя страницы в tiff (тот же формат), можно обрезать поля с помощью XnView и загружать страницы в DjVu Solo. Нумерация страниц выполняется автоматически.

MS Windows [ изменить ]

Конвертация через DjVu Solo [ редактировать ]

DjVu Соло. Также можно использовать виртуальный принтер LizardTech, который доступен бесплатно и может преобразовывать документы в процессе печати. Процедура более или менее одинакова для всех программ конвертации: загрузите растровые файлы в программу, проверьте их порядок и запустите процесс конвертации.

По умолчанию DjVu Solo настроен на преобразование страниц с разрешением 300 dpi. Обычно это хорошее значение.

Конвертация через DjVuLibre [ редактировать ]

DjVuLibre не имеет графического интерфейса для преобразования файлов, но с помощью соответствующего скрипта вы можете сделать это автоматически, почти без участия пользователя. См. сценарии для создания единого файла DjVu с подборкой.

В Mac OS [ изменить ]

Используя MacPorts, можно установить ряд программ DjVu для использования на компьютерах Macintosh:

В Linux, FreeBSD и т. д. [ изменить ]

Вам потребуется программа DjVuLibre — набор инструментов командной строки для создания, изменения и просмотра файлов DjVu. Возможно, вам также понадобится программное обеспечение ImageMagick или GraphicsMagick, если вам нужно преобразовать отсканированные страницы из растровых форматов.

Преобразование сканов страниц [ изменить ]

Инструмент cjb2 используется для создания файла DjVu из файла PBM или TIFF. Поэтому вам необходимо преобразовать ваши сканы, если они еще не в одном из этих форматов. (В приведенных ниже примерах используется инструмент convert от ImageMagick, но они также будут работать с командой GraphicsMagick gm convert.)

Преобразование из формата PNG в формат PBM с помощью convert:

В зависимости от качества отсканированных оригиналов вам может быть полезно обработать их с помощью утилиты unpaper, которая удаляет черные рамки вокруг страниц и выравнивает отсканированный текст прямо на странице. Unpaper также может извлекать два отдельных изображения страниц, если развороты книги были отсканированы в одно изображение.

Создание файла DjVu из файла PBM

Добавление файла DjVu в окончательный документ

Вам необходимо повторить эти шаги со сценарием для каждой страницы книги. Пример:

В качестве альтернативы вы можете использовать make-файл и запускать параллельные процессы с помощью make -j

Преобразование файлов PostScript (PDF, PS, EPS) [ редактировать ]

DjvuLibre включает djvudigital, инструмент, использующий Ghostscript для прямого преобразования файлов PDF и других файлов PostScript в формат DjVu. Однако для этого требуется пересборка Ghostscript из исходного кода для включения специального драйвера, необходимого для djvudigital (это часть дистрибутива DjvuLibre, но из-за конфликта лицензий с открытым исходным кодом его нельзя легально распространять в виде двоичного файла) . Однако после создания это очень удобный инструмент; он может даже конвертировать PDF-файлы из Google Книг без каких-либо дополнительных действий. Это так же просто, как:

Должен быть включен параметр --words, чтобы скопировать любой доступный для поиска текст, существующий в файле PDF, в окончательный файл DjVu. Это также позволяет выделять слова при поиске. (Чтобы немного сэкономить размер файла, вы могли бы использовать --lines вместо --words, что записало бы позицию каждой строки вместо каждого отдельного слова; поиск текста по-прежнему можно было бы выполнять по слову, но целые строки были бы выделены в результатах поиска вместо отдельных слов. Вероятно, это не будет иметь значения для карт, иллюстраций и т. д.где слова разбросаны по всей странице.)

Недавно я узнал, что мой прапрадедушка написал две книги на рубеже 20 века: одну о мореплавании, а другую о своей карьере начальника пожарной охраны Нью-Йорка. У книг есть узкая аудитория, но, поскольку они являются частью истории моей семьи, я хотел сохранить цифровую копию каждой из них. Но мне стало интересно, какой переносимый формат документа лучше всего подходит для такой задачи?

Я сразу решил, что PDF мне не подходит. Этот формат, хотя и хорош для предварительной печати, кажется обреченным на постоянное раздувание функций и создает документы, которые трудно анализировать и редактировать. Я хотел более умный формат с аналогичными функциями. На ум пришли два: архив комиксов и DjVu.

Архив комиксов

Архив комиксов – это простой формат, наиболее часто используемый, как следует из названия, для комиксов. Примеры архивов комиксов можно найти на таких сайтах, как Comic Book Plus и The Digital Comic Museum.

Величайшая особенность архива комиксов является одновременно и самой слабой: он настолько прост, что это скорее условность, чем формат. На самом деле архив комиксов — это просто архив ZIP, TAR, 7Z или RAR с расширением .cbz, .cbt, .cb7 или .cbr соответственно. У него нет стандарта для хранения метаданных.

Однако их очень легко создать.

Создание архивов комиксов

Создайте каталог, полный файлов изображений, и переименуйте изображения, чтобы они располагались в определенном порядке:

Заархивируйте файлы с помощью вашего любимого инструмента архивации. По моему опыту, лучше всего поддерживается CBZ.

Наконец, переименуйте файл с соответствующим расширением.

Полученный файл должен открыться на большинстве ваших устройств. В Linux и Evince, и Okular могут открывать файлы CBZ. На Android их можно открыть с помощью Document Viewer и Bubble.

Распаковка архивов комиксов

Восстановить данные из архива комиксов также легко: просто разархивируйте файл CBZ.

Поскольку ваш любимый архиватор может не распознавать расширение .cbz как действительный архив, лучше всего переименовать его обратно в исходное расширение:

Более 20 лет назад компания AT&T разработала более продвинутый формат DjVu (произносится как "дежа вю"). Это цифровой формат документа с передовой технологией сжатия, который можно просматривать в большем количестве приложений, чем вы, вероятно, представляете, включая Evince, Okular, DjVu.js онлайн, расширение Firefox для просмотра DjVu.js, GNU Emacs, средство просмотра документов на Android и приложение с открытым исходным кодом. , кроссплатформенная программа просмотра DjView на Sourceforge.

DjVu имеет несколько привлекательных функций, включая сжатие изображений, структуру контуров (закладок) и поддержку встроенного текста. Легко анализировать и редактировать с помощью бесплатных инструментов с открытым исходным кодом.

Установка DjVu

Инструментарий с открытым исходным кодом — это DjVuLibre, который вы можете найти в репозитории программного обеспечения вашего дистрибутива. Например, в Fedora:

Создание файла DjVu

Djvu — это изображение, закодированное как файл DjVu. .djvu может содержать одно или несколько изображений (хранящихся как «страницы»).

Для создания файла DjVu вручную можно использовать один из двух кодировщиков: c44 для высококачественных изображений или cjb2 для простых двухцветных изображений. Каждый кодировщик поддерживает свой формат изображения: c44 может обрабатывать файлы .pnm или .jpg, а cjb2 может обрабатывать изображения .pbm или .tiff.

Если вам нужно предварительно обработать изображение, вы можете сделать это в терминале с помощью Image Magick, используя параметр -density для определения желаемого разрешения:

Затем вы можете преобразовать его в DjVu:

Если у вас простое изображение, например черный текст на белой странице, попробуйте преобразовать его с помощью более простого кодировщика. При необходимости сначала используйте Image Magick, чтобы преобразовать его в совместимый промежуточный формат:

А затем конвертировать в DjVu:

Теперь у вас есть простой одностраничный документ .djvu.

Создание многостраничного файла DjVu

Несмотря на то, что одностраничный формат DjVu может быть полезен, учитывая иногда отличное сжатие DjVu, чаще всего он используется как многостраничный формат.

Предполагая, что у вас есть каталог с множеством файлов .djvu, вы можете объединить их вместе с помощью команды djvm:

В отличие от архива CBZ, имена связанных изображений не влияют на их порядок в документе DjVu, а сохраняют порядок, указанный вами в команде. Если вы предусмотрительно назвали их в естественном порядке сортировки (001.djvu, 002.djvu, 003.djvu, 004.djvu и т. д.), вы можете использовать подстановочный знак:

Работа с документом DjVu

С помощью djvm легко редактировать документы DjVu. Например, вы можете вставить страницу в существующий документ DjVu:

В этом примере страница newpage.djvu становится новой страницей 2 в файле mybook.djvu.

Вы также можете удалить страницу. Например, чтобы удалить страницу 4 из mybook.djvu:

Настройка контура

В файл DjVu можно добавить метаданные, например план (обычно называемый «закладками»). Чтобы сделать это вручную, создайте текстовый файл со структурой документа. Структура DjVu выражается в структуре, подобной Lisp, с открывающим элементом закладок, за которым следуют имена закладок и номера страниц:

Скобки определяют уровни в схеме. В настоящее время схема имеет только закладки верхнего уровня, но любой раздел может иметь подраздел, задержав его закрывающую скобку. Например, чтобы добавить подраздел в главу 1:

После создания схемы сохраните файл и примените его к файлу DjVu с помощью команды djvused:

Откройте файл DjVu, чтобы увидеть схему.

Встраивание текста

Если вы хотите сохранить текст создаваемого вами документа, вы можете встроить текстовые элементы («скрытый текст» в терминологии djvused) в свой файл DjVu, чтобы такие приложения, как Okular или DjView, могли выбирать и копировать текст в буфер обмена пользователя.

Это сложная операция, потому что для встраивания текста у вас должен быть текст. Если у вас есть доступ к хорошему OCR-приложению (или время и желание расшифровать распечатанную страницу), у вас могут быть эти данные, но тогда вы должны сопоставить текст с растровым изображением.

После того, как у вас есть текст и координаты для каждой строки (или, если хотите, для каждого слова), вы можете написать сценарий djvused с блоками для каждой страницы:

Целые числа для каждой строки представляют минимальное и максимальное положение координат X и Y каждой строки (xmin, ymin, xmax, ymax). Каждая строка представляет собой прямоугольник, измеряемый в пикселях, с началом в нижнем левом углу страницы.

Вы можете определять встроенные текстовые элементы как слова, строки и гиперссылки, а также можете сопоставлять сложные области с фигурами, отличными от прямоугольников. Вы также можете внедрить специально определенные метаданные, такие как ключи BibTex, которые выражаются строчными буквами (год, название книги, редактор, автор и т. д.), и ключи DocInfo, заимствованные из спецификации PDF, всегда начинающиеся с прописной буквы (название , Автор, Тема, Создатель, Произведено, Дата создания, Дата модификации и т. д.).

Автоматизация создания DjVu

Хотя возможность создать документ DjVu с высокой детализацией — это хорошо, если вы примете DjVu в качестве повседневного формата, вы заметите, что вашим приложениям не хватает некоторых удобств, доступных в более распространенном формате PDF. Например, лишь немногие приложения (если вообще есть) предлагают удобные опции Печать в DjVu или Экспорт в DjVu, как это делается для PDF.

Однако вы все равно можете использовать DjVu, используя PDF в качестве промежуточного формата.

К сожалению, библиотека, необходимая для простого автоматического преобразования DjVu, распространяется под лицензией CPL, требования которой не могут быть удовлетворены кодом GPL в цепочке инструментов. По этой причине ее нельзя распространять в виде скомпилированной библиотеки, но вы можете скомпилировать ее самостоятельно.

Этот процесс относительно прост благодаря отличному сценарию сборки, предоставленному командой DjVuLibre.

Затем загрузите исходный код GSDjVu с сайта Sourceforge. Обязательно загрузите GSDjVu, а не DjVuLibre (другими словами, не нажимайте большую зеленую кнопку в верхней части списка файлов, а вместо этого нажимайте последний файл).

Разархивируйте только что загруженный файл и перейдите в его каталог:

Создайте каталог BUILD. Он должен называться BUILD, так что подавите свое творчество:

Загрузите дополнительные исходные пакеты, необходимые для сборки приложения GSDjVu. В частности, вы должны загрузить исходный код Ghostscript (вы почти наверняка уже установили его, но вам нужен его исходный код для сборки). Кроме того, в вашей системе должны быть исходные пакеты для jpeg, libpng, openjpeg и zlib. Если вы считаете, что в вашей системе уже есть исходные пакеты для этих проектов, вы можете запустить скрипт сборки; если источники не будут найдены, сценарий завершится ошибкой и позволит вам исправить ошибку перед повторной попыткой.

Запустите интерактивный скрипт сборки build-gsdjvu, включенный в загружаемый файл. Этот сценарий распаковывает исходные файлы, исправляет Ghostscript с помощью драйвера gdevdjvu, компилирует Ghostscript и удаляет ненужные файлы из результатов сборки.

Вы можете установить GSDjVu в любом месте вашего пути. Если вы не знаете, какая у вас переменная PATH, вы можете увидеть ее с помощью команды echo $PATH. Например, чтобы установить его с префиксом /usr/local:

Преобразование PDF в DjVu

Теперь, когда вы создали драйвер Ghostscript, для преобразования PDF в DjVu требуется всего одна команда:

При этом все страницы, закладки и встроенный текст PDF-файла преобразуются в файл DjVu. Опция --words сопоставляет весь сопоставленный встроенный текст PDF с соответствующими точками в файле DjVu. Если встроенного PDF-файла нет, встроенный текст не переносится. С помощью этого инструмента вы можете использовать удобные функции PDF из ваших приложений и получать файлы DjVu.

Почему DjVu и CBZ?

DjVu и архив комиксов — отличные дополнительные форматы документов для вашего архивного арсенала. Кажется глупым помещать серию изображений в формат PostScript, такой как PDF, или формат, явно предназначенный в основном для текста, такой как EPUB, поэтому приятно иметь CBZ и DjVu в качестве дополнительных опций. Они могут не подходить для всех ваших документов, но хорошо, если вы освоитесь с ними, чтобы использовать их, когда это наиболее целесообразно.

На этой странице объясняется, как создавать, использовать и загружать файлы в формате DjVu, в котором отсканированные изображения группируются в единый контейнерный формат.

Содержание

Извлечение изображения [ редактировать ]

Файлы DjVu обычно имеют сильное сжатие изображений, оптимизированное для текста. Это приводит к серьезному ухудшению качества изображения иллюстраций и фотографий. В общем, лучше не извлекать изображения из файлов DjVu, а вместо этого использовать более оригинальные файлы, например, страницу JP2s в Интернет-архиве. Справка: Извлечение изображений содержит дополнительные рекомендации.

Конверсия [ изменить ]

Изображения в DjVu [ редактировать ]

Окна [ изменить ]

DjvuToy — это программа, предоставляющая различные функции:

создать Djvu
объединить файлы Djvu
разделить файлы Djvu
редактировать файлы Djvu
создать связанный файл
экспорт из Djvu в другой файл
извлечь текст из Djvu
скачать информацию о файловой структуре Djvu (например, координаты OCR)

Изображения → виртуальный принтер → DjVu [ редактировать ]

Если отсканированные страницы доступны в виде файла PDF, например. Google Книги, затем их можно напрямую преобразовать в файл DjVu одним из следующих способов:

Если отсканированные изображения доступны как отдельные изображения, то проще всего распечатать их в PDF-документе с помощью одного из многочисленных инструментов «виртуального принтера», например бесплатного PDFCreator; затем конвертируйте PDF-документ в DjVu, как описано выше.

Обратите внимание, что существует множество других способов преобразования страниц в формат .djvu. Можно преобразовать с помощью PostScript или многостраничного TIFF в качестве промежуточного формата, а не PDF, но для этого, конечно, потребуются другие инструменты преобразования. Также возможно конвертировать из .pdf или .ps в .djvu с помощью программного обеспечения DjVuLibre и подключаемого модуля GSDjVu, но из-за лицензионных ограничений установка подключаемого модуля является довольно сложным процессом, который включает в себя компиляцию исправленной версии Ghostscript.< /p>

Изображения напрямую в DjVu [ редактировать ]

Однако с помощью программной библиотеки DjVuLibre можно получить документ гораздо более высокого качества. Изображения Jpeg можно напрямую закодировать в отдельные страницы DjVu с помощью кодировщика c44. Изображения в форматах без потерь, таких как PNG, должны быть преобразованы в PPM (для цветных сканов) или PGM (для сканов в оттенках серого), а затем закодированы с помощью c44. Для двухтональных (т.е. черно-белых) сканирований, таких как текстовые изображения большинства страниц, файл DjVu меньшего размера может быть получен путем преобразования изображений страниц в монохромный формат PBM, а затем кодирования в DjVu с помощью cjb2 кодировщик. Все эти преобразования форматов изображений можно выполнить с помощью бесплатной библиотеки ImageMagick (в пакетном режиме, с помощью mogrify). Отдельные страницы DjVu можно объединить в многостраничный DjVu с помощью программы djvm; эту программу также можно использовать для вставки или удаления страниц из файла djvu.

Важным предостережением в отношении этого процесса является то, что за высокое качество сканирования приходится платить большими файлами, а в настоящее время существует ограничение на загрузку на общие ресурсы в 100 МБ. Размер можно существенно уменьшить, применив разделение переднего плана и фона с помощью диджвю и/или миниджвю.

Сценарии djVuLibre [ редактировать ]

Этот скрипт позволяет вам взять целый каталог файлов изображений (JPG, PNG, GIF, TIFF и любой файл, который Imagemagick может преобразовать в PPM) и автоматически преобразовать и сопоставить их в файл DJVU. В настоящее время этот скрипт предназначен для Windows, но его можно легко преобразовать для Linux. Для его использования вам понадобятся Python, Imagemagick и DjvuLibre.

Линукс [ изменить ]

Метод 0 — преобразование графических файлов с разделением переднего плана и фона [ редактировать ]

Вы можете предварительно обработать сканы с помощью Scan Tailor.

Способ 1 — страница за раз с помощью DjVuLibre [ редактировать ]

Вам потребуется программное обеспечение djvu, которое включает в себя программу просмотра и некоторые инструменты для создания и обработки файлов DJVU. Возможно, вам также понадобится программное обеспечение Imagemagick для преобразования сканов из одного формата в другой:

Инструмент cjb2 используется для создания файла DJVU из (битонального) файла PBM или TIFF.
Инструмент c44 используется для создания файлов DJVU, файлов PNM или JPEG. Это обрабатывает цветные изображения, но сжатие ниже.

Поэтому вам необходимо преобразовать отсканированные изображения, если они еще не представлены в одном из этих форматов.

Преобразование в промежуточный формат [ изменить ]

DJVU не может использовать JP2 или PNG в качестве формата. Итак, затем вам нужно преобразовать в формат, который будет работать в качестве входных данных для DJVU. Варианты включают PBM (делает все пиксели черными или белыми, без оттенков серого); PGM (оттенки серого, без потерь); или JPEG (сжатие с потерями, оптимизированное для фотографий).

Преобразование из формата PNG в формат PBM с помощью инструмента преобразования от Imagemagick.

В зависимости от качества отсканированных оригиналов вам может быть полезно обработать их с помощью утилиты unpaper, которая удаляет черные рамки вокруг страниц и выравнивает отсканированный текст прямо на странице. Unpaper также может извлекать два отдельных изображения страниц, если лицевые страницы книги были отсканированы в одно изображение. Еще одна утилита — mkbitmap, еще один pdfcrop.pl (на основе Perl и бесплатное программное обеспечение, требует Ghostscript и texlive-extra-utils в Ubuntu; использует BoundingBox; может обрезать целый многостраничный PDF-документ всего за один проход). PDFCrop (еще один!) удаляет белые поля.

Преобразование в файл подкачки DJVU [ изменить ]

Создание файла DJVU из файла PBM: (эта команда не работает для PGM или JPG)

Создание файла DJVU из файла PGM или JPEG:

(В этом примере для PGM указано разрешение 300 точек на дюйм. Аргумент -dpi можно не указывать; значение по умолчанию — 100.)

Создание окончательного документа DJVU [ редактировать ]

Вам необходимо повторить эти шаги со сценарием для каждой страницы книги. Пример:

Есть еще один способ объединить все части *.djvu в одну:

См. следующий раздел для автоматизированного процесса для нескольких страниц.

Способ 2 – bash-скрипт PDF в DjVu [править]

Используйте этот сценарий, который преобразует документ PDF (несколько или одну страницу) в изображения, автоматически обрезает их с помощью ImageMagick, преобразует в формат DjVu и объединяет. Это очень медленно (для создания большого PDF-документа может потребоваться несколько дней), но немного эффективнее, чем следующий метод.

Результирующий документ DjVu довольно большой и некачественный, вероятно, из-за плохого распознавания шрифтов, что может быть исправлено более новыми версиями poppler (используемая библиотека): версия, доступная в репозиториях, обычно существует несколько месяцев. [1]

Вы также можете удалить часть pdftoppm и использовать сценарий для преобразования нескольких изображений непосредственно в многостраничный документ PDF. Если изображения не в формате pbm, вы можете преобразовать их с помощью одной команды, используя mogrify из ImageMagick.

Способ 3 — pdf2djvu [править]

Просто загрузите инструмент pdf2djvu из своего репозитория, чтобы напрямую конвертировать PDF-документ (одну или несколько страниц) в DjVu.

Если документ содержит результаты OCR (как в случае, например, с выводом FineReader), то они сохраняются в документе DjVu как скрытый текстовый слой. Некоторые другие свойства исходного документа, включая метаданные, также сохраняются. Качество и размер вывода зависят в первую очередь от характеристик исходного документа, но также могут контролироваться несколькими параметрами программы, такими как разрешение переднего плана и фона. [2] Программа способна использовать несколько потоков для ускорения конвертации.

По состоянию на 2019 год размер файла на Викискладе менее важен, чем качество изображения (хотя PDF-файлы размером около 1 ГиБ могут иметь проблемы с эскизами). Самый простой способ повысить качество — изменить --bg-subsample (по умолчанию 3, максимум 12) на 2 или 1 (наилучшее качество). [3]

Поэтому пример команды может быть таким:

Примечание об обрезке [ редактировать ]

При использовании pdf2djvu вам необходимо обрезать pdf-файл непосредственно перед преобразованием. В Linux это может быть довольно сложно. Вы можете использовать ImageMagick convert -crop , но внимание: с многостраничным большим PDF-документом это может занять несколько ГБ памяти (ограничение составляет 16 ТБ!) И убить ваш компьютер, если вы не используете параметр -limit area 1 напрямую после обрезки . Это делает преобразование очень долгим.

При использовании ImageMagick итоговый PDF-документ увеличивается в размере и снижается в качестве из-за растрирования. [4]

См. другие инструменты кадрирования выше.

Способ 4 — DjVuDigital [править]

Используйте djvudigital [5], который, как и pdf2djvu, конвертирует pdf напрямую в DjVu. [6] Есть проблемы с лицензированием, т.к. у библиотеки GSDjVu другая лицензия, то вам нужно будет скомпилировать ее самостоятельно; включенные утилиты делают этот шаг довольно простым, но все же долгим (около 1 часа) и немного раздражающим. [7]

Но затем вы можете конвертировать PDF-документ в DjVu с помощью одной команды (обрезку см. в предыдущем разделе).Преобразование происходит медленно (я считаю, что 300-страничный PDF-документ будет завершен примерно за 30-40 минут). Полученный DjVu имеет более высокое качество и меньший размер файла по сравнению с двумя предыдущими методами. [1] Кроме того, DjVuDigital может обрабатывать файлы JPEG2000 (он же JPX), встроенные в документы PDF, что является функцией многих книг Google. Преобразования pdf2djvu, Any2Djvu и Internet Archive не приводят к преобразованию этих файлов, в результате чего на выходе остаются пустые страницы.

В DjVuDigital есть много расширенных опций для улучшения результатов, но ими может быть сложно овладеть. [8] Как правило, изменение параметра --dpi позволяет быстро уменьшить размер файла без особых усилий.

Онлайн ([почти] все системы) [ изменить ]

Any2Djvu [править]

Еще один способ конвертировать изображения в формат djvu — заархивировать их и использовать сайт Any2Djvu для создания файла djvu. Any2Djvu извлечет изображения в zip и создаст djvu с OCR. Функции OCR будут работать только с текстом на английском языке.

Any2Djvu не может работать с большими файлами. С большими файлами лучше всего работать, если вы загружаете их по URL-адресу (например, вводя ссылку типа ftp://ftp.bnf.fr/005/N0051165_PDF_1_-1DM.pdf). Преобразование может занять несколько часов. Any2Djvu иногда не хватает памяти для больших или высокодетализированных файлов и завершается ошибкой. Он также не будет преобразовывать изображения "JPX", встроенные в документы PDF, которые обычно используются при сканировании Google Книг.

Интернет-архив [ редактировать ]

Еще один способ — загрузить документ в формате PDF (или архив файлов изображений) в Интернет-архив. Вам необходимо войти в систему (не используйте OpenId, он не будет работать [9]).

Загрузка [ изменить ]

Нажмите "Загрузить" в правом верхнем углу. Загрузка во флэш-память (стандартная кнопка «Поделиться») не будет работать с Firefox (вместо этого используйте Opera или Internet Explorer [10]) или Linux. Вы можете использовать стандартный метод JavaScript без флэш-памяти (хотя в Firefox существует ограничение на размер файла в 2 ГБ, но не в Chromium); Загрузка по FTP устарела, потому что она медленнее и дает сбои, но это единственная простая в освоении возможность, если вам нужно загрузить много файлов (чего здесь быть не должно).

Уловки OCR [ изменить ]

Когда загрузка будет завершена, Интернет-архив начнет работу по «извлечению»: OCR для создания XML-документа обнаруженного текста на основе загруженного PDF-файла, затем преобразование его в файл DjVu со встроенным текстом, создание простого текстового файла дампа, среди прочего. [11]

Не забудьте установить правильный язык в метаданных перед запуском вывода (который запускается автоматически после загрузки, если есть что-то для вывода), в противном случае язык OCR будет установлен на английский, и результаты будут плохими для основанных на произведениях. на любом другом языке. Невозможно установить несколько языков OCR, но вам предлагается загрузить одну и ту же книгу дважды с двумя языками, чтобы иметь два OCR. [12] Продолжительность обработки зависит от размера и сложности вашего файла, а также от текущего объема невыполненных тестов преобразования в Интернет-архиве. [13] Вы можете проверить свой прогресс в очереди здесь и получить более подробную информацию о отправленных вами заданиях здесь (необходимо войти в систему).

Интернет-архив использует профессиональное, проприетарное, коммерческое программное обеспечение ABBYY [14] с неплохими изображениями и выводом OCR на многих языках и шрифтах и агрессивным сжатием [15], что обеспечивает высокое качество конечного файла DjVu. [1] Однако Интернет-архив иногда создает чрезмерно сжатые файлы DjVu низкого качества. Если это произойдет, вы часто можете загрузить PDF-документ и конвертировать вручную. Вы можете уменьшить разрешение, на которое нацелен вывод, которое обычно устанавливается автоматически путем «угадывания» через поле с фиксированным значением ppi, установив его на 300 (dpi) или ниже, чтобы уменьшить размеры, время обработки и (иногда) ошибки.< /p>

Форматы изображений [ изменить ]

Отсканированные книги, разбитые на несколько изображений в формате tiff, jpg, jp2 (другие форматы не принимаются), также конвертируются («производятся»), если вы поместите их в правильно созданный архив tar или zip. [16] Обычно лучше загружать несжатые сканы или файлы JPEG; файлы jp2, созданные в процессе деривации, сжаты таким образом, что вы не сможете эмулировать их без особых усилий.

Устранение неполадок [ изменить ]

DjVu в текст [ изменить ]

OCR через Any2DjVu [ редактировать ]

Опция OCR, доступная в бесплатном сервисе преобразования Any2DjVu, выполняет распознавание отсканированного изображения, но полученный текст встроен в сам файл .djvu и должен быть извлечен, чтобы его можно было использовать в Wikisource.

Один из способов сделать это — использовать программное обеспечение DjVuLibre для извлечения текста с помощью такой команды, как

JVbot может автоматически загружать текстовый слой DJVU на страницы Wikisource. Например, Роберт Брюс и борьба за независимость Шотландии - 1909 год.

OCR через интернет-архив [ редактировать ]

См. выше: если вы загружаете файл DjVu, процесс извлечения распознает его.

OCR с помощью Tesseract [ изменить ]

OCR можно выполнять с помощью Tesseract, бесплатного программного обеспечения OCR и скрипта:

. Перл скрипт. , немного более удобный скрипт Python. На основе Perl-скрипта.

OCR с Tesseract 3.x и другими бесплатными механизмами OCR [ редактировать ]

DjVu в изображения [ редактировать ]

Линукс [ изменить ]

Чтобы извлечь изображения из файла DjVu, вы можете использовать ddjvu

Если вы сделали все страницы (без -page=** ), вы можете разделить многостраничный tiff на отдельные страницы png (или любого другого формата)

Извлечь все страницы в отдельные страницы в формате tiff с качеством 80%.

Управление [ редактировать ]

Разделение файлов DjVu [ редактировать ]

Документы DjVu бывают двух видов: в комплекте и отдельно (непрямые); последний формат хранит каждую страницу в отдельном файле. Комментарий ниже, сделанный первоначальным автором, касается только пакетных документов, которых следует избегать.

Большие работы не могут быть загружены на серверы Викимедиа, которые имеют ограничение на загрузку 100 МБ. Чтобы разделить DjVu, используйте DjVuLibre «Сохранить как» и укажите диапазон страниц, при котором будет создан файл, достаточно маленький для загрузки. Могут потребоваться некоторые пробы и ошибки.

Проще всего разделить файлы DjVu из командной строки с помощью djvmcvt:

Кроме того, djvused можно использовать из командной строки:

Это можно сделать для каждой страницы. Чтобы узнать номер страницы файла:

Удаление страницы авторских прав [ изменить ]

Такие страницы с авторскими правами и другие посторонние материалы могут быть удалены с помощью DjVuLibre, программы с открытым исходным кодом, поддерживаемой изобретателями djvu под лицензией GNU Public License. Двоичные файлы доступны для Windows, Mac, Linux, Solaris и IRIX. Он включает djvm.exe, который запускается как утилита командной строки. Если вы не можете понять, как это сделать, вы можете написать Mkoyle (говорить), и он сделает это для вашего файла и отправит вам файл по электронной почте для загрузки. Командная строка для удаления (-d) первой страницы (1) выглядит следующим образом:

Вставка новых страниц (например, заполнителя) [ изменить ]

Если в файле DJVU отсутствуют страницы, вы можете вставить заполнители, чтобы, если страницы будут найдены и вставлены позже, существующие страницы не нужно было перемещать. В качестве заполнителя можно использовать File:Generic placeholder page.djvu.

Примечание: работайте в обратном направлении, начиная с последней отсутствующей страницы в файле, чтобы не пересчитывать номера страниц при вставке страниц.

Отображение определенной страницы [ изменить ]

[[Файл. ]] тег link принимает именованный параметр page, чтобы, например, этот вики-код отображал справа изображение 164-й страницы файла Emily Dickinson Poems (1890).djvu шириной 150 пикселей (задняя обложка книга, не содержащая текста):

Изображение страницы может отображаться в основном пространстве Википедии книг, как и в случае с Личными воспоминаниями о Жанне д'Арк/Книгой I/Главой 2, используя:

Примечания [ изменить ]

Однако обратите внимание, что если ваш PDF-файл взят из GoogleBooks и содержит уведомление об отказе от ответственности на первой странице, процесс извлечения обнаружит скрытый текстовый слой на странице отказа от ответственности, предполагая, что остальные страницы в PDF-файле также содержат текстовые слои тоже, когда они никогда этого не делают, и вообще пропускают автоматическое создание второго PDF-файла. Сохранение страницы с заявлением об отказе от ответственности, но удаление с нее всего скрытого текста является оптимальным подходом по причинам, связанным с одновременным созданием бесплатного файла DjVu. крайним средством является удаление страницы с отказом от ответственности.

1 Краткий обзор

В этом документе объясняются некоторые способы использования реализации DjVu в djvulibre для создания качественных документов DjVu в Linux. Формат DjVu отличается сжатием растровых документов и структурой гипертекста. Он используется многочисленными веб-сайтами по всему миру для хранения и распространения цифровых документов, включая отсканированные документы и изображения с высоким разрешением. Одно из преимуществ файлов DjVu заключается в том, что они заметно меньше, часто меньше, чем файлы PDF или JPEG с тем же содержимым. Это делает DjVu полезным инструментом для оцифровки книг и журналов, особенно научных.

Ниже рассматривается случай, когда документ DjVu создается из нескольких отдельных файлов JPEG, каждый из которых содержит одну страницу. Здесь формат JPEG не является ограничением, и примеры могут охватывать произвольные форматы изображений. Также обсуждается преобразование из PDF в DjVu.Использование программного обеспечения сканера не объясняется: см. соответствующую документацию.

Требования. Необходимы пакеты djvulibre, jpeg и netpbm. Настоятельно рекомендуется использовать пакеты sane и xpdf.

2 Создание DjVu

2.1 Сканирование книги

Предположим следующую ситуацию для этого раздела. У нас есть книга, которую нужно отсканировать и сохранить в цифровом формате. Для простоты предположим, что все содержимое книги черно-белое (текст, формулы, диаграммы и т. д.), за исключением обложки книги, напечатанной в цвете. Обычно мы можем сканировать его страницу за страницей и сохранять страницы отдельно в каком-либо формате изображения, таком как JPEG или PDF. Лично я считаю, что JPEG — лучший выбор. Но если вы считаете, например, что сжатый TIFF больше подходит для ваших целей, этот HOWTO может быть вам полезен. Однако в этом случае примеры скриптов следует немного изменить. Пока давайте придерживаться JPEG.

В нашей ситуации с книгой мы сканируем переднюю обложку книги (а также заднюю обложку, если она содержит какой-либо заметный текст или изображения) для цветных файлов JPEG. Затем мы сканируем остальные в черно-белые файлы JPEG. Это должно обеспечить оптимальную производительность. При сохранении отсканированных изображений обратите внимание на имена файлов. Для конвертации в DjVu все изображения должны быть расположены в алфавитном порядке с соблюдением порядка страниц. Например, 000.jpg, 001.jpg, 002.jpg, . 012.jpg — правильная нумерация; и 0.jpg, 1.jpg, 2.jpg, . 12.jpg неправильный, потому что 12.jpg появится перед 2.jpg . Когда вся книга будет отсканирована, поместите все файлы изображений в отдельный каталог.

В зависимости от сканера, программного обеспечения и метода сканирования вам может потребоваться повернуть все или только некоторые изображения JPEG, как правило, следуя некоторому простому шаблону. Приведенный ниже скрипт jpegsrotate может оказаться весьма полезным в таком случае. Например, запустите его с параметром --even, чтобы перевернуть четные страницы вверх ногами в текущем каталоге. Программа jpegtran, используемая в скрипте, может поворачивать JPEG только на 90, 180 или 270 градусов по часовой стрелке.

2.2 JPEG в двухтональный DjVu

Когда изображения готовы, каждое из них необходимо преобразовать в отдельную страницу в формате DjVu с помощью кодировщика DjVu, такого как cjb2 или cpaldjvu, а затем отдельные страницы должны быть объединены в один документ DjVu с помощью djvm. Напишите следующий скрипт с именем any2djvu-bw где-нибудь, например. в ~/bin/ . Запустите скрипт в каталоге, содержащем исходные изображения, для преобразования отдельных черно-белых страниц.

Если запустить скрипт как

он предпримет действие по умолчанию и попытается преобразовать все изображения *.jpg в текущем каталоге в одностраничные файлы DjVu с расширением .jpg.djvu. Вы можете изменить это поведение, определив маску файла (необязательный параметр). Значение дизеринга 0,499 было получено экспериментально и представляет собой очень хорошую (если не лучшую) настройку для двухтональных изображений. Вы также можете раскомментировать указанные строки в any2djvu-bw, чтобы скомпилировать окончательный черно-белый документ DjVu в комплекте за один запуск скрипта. Если вы это сделали и вам не нужны цветные страницы, вы можете пропустить следующий подраздел, посвященный преобразованию цветных изображений.

2.3 JPEG в низкоцветный DjVu

Далее нам нужно преобразовать цветные изображения, взятые с передней и задней обложки книги. Допустим, передняя обложка хранится в 000.jpg, а задняя — в 999.jpg, и каждая из них содержит не более, скажем, 8 тонов. Предыдущий запуск any2djvu-bw оставил после себя два нежелательных файла DjVu, а именно черно-белую версию 000.jpg.djvu и 999.jpg.djvu. Удалите эти два файла. Затем преобразуйте 000.jpg и 999.jpg в цветные страницы DjVu, выполнив следующую команду (обратите внимание, кавычки необходимы):

$ ~/bin/any2djvu-low "+(000|999).jpg" 8

где any2djvu-low — приведенный ниже скрипт, который необходимо записать в ~/bin/ для выполнения команды.

Цветные страницы DjVu были созданы кодировщиком низкого цвета cpaldjvu, а не битональным кодировщиком cjb2. Иногда cpaldjvu с настройкой 2 цветов может создавать выходные файлы немного меньшего размера по сравнению с cjb2. Это может произойти, поскольку черный цвет кажется светлее в случае cpaldjvu. Поэтому использование cjb2 предпочтительнее для двухтональных изображений, которые обычно выглядят тем лучше, чем ярче черный цвет. Кроме того, преобразование изображения JPEG в битональное DjVu с помощью cpaldjvu занимает примерно в 1,5 раза больше времени, чем то же самое с использованием cjb2.

Вы также можете ожидать, что cpaldjvu (с числом цветов по умолчанию 256) выдаст результат, почти такой же по размеру, как исходный (даже 16 М цветов) файл JPEG. Уменьшение количества цветов с помощью опции -colors n в cpaldjvu во многих случаях решает проблему экспоненциально медленно, например, уменьшение n с 256 до 16 может дать результат только в 4 раза меньше.

2.4 Связывание DjVu

Последний шаг — связать все отдельные страницы DjVu в многостраничный документ DjVu. Следующий скрипт binddjvu делает это.

И мы закончили с нашим примером.

2.5 PDF в DjVu

Для отсканированных документов производительность DjVu строго лучше, чем у PDF. Вот почему имеет смысл преобразовать отсканированный PDF-документ в формат DjVu.
Существует другая ситуация, когда у нас есть много (одностраничных) PDF-документов, которые мы хотим связать вместе. Например, возьмите страницы документа PDF, загруженного из интернет-библиотеки.
Объединение одностраничных или многостраничных PDF-файлов в один файл DjVu.
Кроме того, на некоторых сканерах можно сканировать напрямую в одностраничные PDF-файлы. Потом опять удобно PDF переплетать в многостраничный DjVu.

После запуска скрипт pdfs2djvu оставляет DjVu-кодированные страницы в виде файлов *.pbm.djvu в текущем каталоге.

3 Заключительные замечания

Это HOWTO было написано не разработчиком DjVu, а его пользователем. Поэтому в HOWTO, возможно, отсутствуют некоторые технические детали. Если вы хотите получить дополнительную техническую информацию о командах, см. справочные страницы или любую другую соответствующую документацию. Я бы предложил очень поучительный

Читайте также: