Как разделить файл djvu

Обновлено: 02.07.2024

Вы пытаетесь загрузить файл, размер которого превышает наш бесплатный лимит в 50 МБ.

Вам нужно будет создать платную учетную запись Zamzar, чтобы иметь возможность скачать преобразованный файл. Хотите продолжить загрузку файла для конвертации?

Общий ход преобразования/загрузки:

Нажмите «Выбрать файлы», чтобы добавить дополнительные файлы, или «Конвертировать сейчас», чтобы начать преобразование файлов.

Файл DJVU представляет собой сжатый образ, разработанный компанией AT&T. Первоначально он был разработан в 1998 году, и этот формат претерпел множество итераций, прежде чем в 2005 году AT&T окончательно остановилась на формате, который мы знаем и используем сегодня. Сам файл содержит отсканированный документ, состоящий из мультимедиа или текста. Сжатие означает, что он до 10 раз меньше, чем JPEG, и поэтому обычно используется теми, кто занимается графикой и хочет отображать высококачественные плакаты, книги, журналы или страницы в физической печатной форме, но которые хотят опубликовать. их в Интернет в цифровом виде. Причина, по которой файлы DJVU намного меньше, чем файлы JPG, заключается в том, что этот формат может разбивать изображения на отдельные изображения и сжимать каждое из них по отдельности. Чтобы открыть файл DJVU, вам понадобится специальная программа. Sumatara PDF является одним из таких примеров и является бесплатным, в то время как DjVulibre также будет работать.

На основе облака

Поскольку услуга предоставляется через Интернет, загрузка программного обеспечения не требуется. Вместо этого каждое преобразование происходит в облаке, что означает, что вы можете преобразовать файл в любое время и в любом месте.

Любая операционная система

Беспокоитесь о том, что Zamzar не будет работать, потому что вы используете операционную систему, отличную от Windows? Нет необходимости быть! Zamzar работает на всех операционных системах.

Быстрая загрузка

Zamzar конвертирует файлы в режиме реального времени, а это значит, что теперь файл можно преобразовать быстрее, чем вам потребуется, чтобы приготовить чашку кофе.

Высокое качество

Zamzar гордится тем, что конвертирует файлы высочайшего качества, поэтому вы не сможете отличить загруженный файл от только что преобразованного файла.

Вы в хорошей компании:
Zamzar преобразовал более 510 миллионов файлов с 2006 года

Конвертировать в DJVU

С помощью Zamzar можно конвертировать в DJVU множество других форматов

Конвертировать из DJVU

С помощью Zamzar можно конвертировать из DJVU во множество других форматов

DjVuToy — объединяйте, разделяйте и анализируйте файлы DjVu

Отправьте бесплатное портативное программное обеспечение, которое вы найдете здесь. Это поможет, если вы включите такую ​​информацию, как описание, инструкции по извлечению, поддержку Unicode, запись в реестр и т. д.

DjVuToy — объединяйте, разделяйте и анализируйте файлы DjVu

  • Включенный редактор: переупорядочивание страниц, ротация и групповая ротация, а также вставка (из файла или пустой страницы).
  • Поддерживает перетаскивание имен файлов/путей
  • Временная папка выглядит как локальная папка, но вы можете изменить ее на временную папку системы (или любую другую) и выбрать "всегда использовать эту папку".
  • Сжатие: создание файлов DJVU имеет множество настроек и даже возможность сохранять фотографии, цветной текст или обычные документы. В основных тестах это, казалось, работало очень хорошо, и это определенно очень сильная функция, которой не хватает создателям PDF.
  • Импорт PDG, BMP, GIF, PNG, TIFF, JPG и JK2.
  • Экспорт в форматы TIFF, PNG, JPG или BMP с доступными функциями для черно-белых, палитровых (я предполагаю, что он имеет в виду качество фотографий) и серых/цветных страниц.
  • Скорость. Преобразование нескольких изображений JPG заняло около 15 секунд для файла размером 2,15 МБ.
  • Вкладка "Скрытый текст" ссылается на OCR, но я думаю, что это неправильный перевод и означает просто экспорт в текст, xml и даже возможность импортировать и удалять текст.
  • Вы можете изменить DPI, хотя это, похоже, не повлияло на сжатие, поэтому я немного запутался.
  • Не знаю, что делают вкладки "Аннотации" и "Информация о файле".
  • Не совсем уверен, что сжатие без потерь работает, потому что размер файла был таким же, как у файла TIFF, когда я использовал параметры сжатия без потерь и нормальное. Это могло быть результатом того, что входной файл был в формате JPG, я не знаю.

Я до сих пор не могу преобразовать свою работу в DjVu даже с помощью таких замечательных программ, как эта. Слишком много инструментов хотят работать с форматом PDF. Вздох.

Одно обновление: автор отредактировал часть «Скрытый текст», о которой я упоминал в своем предыдущем посте, специально добавив «OCR», и это было интегрировано в другие инструменты преобразования. К сожалению, у него есть зависимость: «OCR основан на Microsoft Office Document Imaging (MODI) в MS Office 2003/2007».

Редактировать: бит OCR не менялся в версиях, это была моя ошибка/путаница.

После установки просто запустите DjVuToy, как обычно, включив опцию OCR.

Я обнаружил, что текстовый слой под изображением, который он создал, значительно превосходит 90% мусора, которым до сих пор управлял tesseract, хотя это может быть связано с вспомогательными приложениями / gui, которые все кажутся (приостановленными) раннее развитие. CuneiForm обеспечивает приемлемое распознавание для текстового слоя, а CuneiDjVu довольно хорош при запуске.
Приятным штрихом было бы введение в DjVuToy возможности выбора движков распознавания (MODI/tesseract/cuneiform/other) в случае отзыва MODI.

На этой странице объясняется, как создавать, использовать и загружать файлы в формате DjVu, в котором отсканированные изображения группируются в единый контейнерный формат.

Содержание

Извлечение изображения [ редактировать ]


Файлы DjVu обычно имеют сильное сжатие изображений, оптимизированное для текста. Это приводит к серьезному ухудшению качества изображения иллюстраций и фотографий. В общем, лучше не извлекать изображения из файлов DjVu, а вместо этого использовать более оригинальные файлы, например, страницу JP2s в Интернет-архиве. Справка: Извлечение изображений содержит дополнительные рекомендации.

Конверсия [ изменить ]

Изображения в DjVu [ редактировать ]

Окна [ изменить ]

DjvuToy — это программа, предоставляющая различные функции:

  • создать Djvu
  • объединить файлы Djvu
  • разделить файлы Djvu
  • редактировать файлы Djvu
  • создать связанный файл
  • экспорт из Djvu в другой файл
  • извлечь текст из Djvu
  • скачать информацию о файловой структуре Djvu (например, координаты OCR)
Изображения → виртуальный принтер → DjVu [ редактировать ]

Если отсканированные страницы доступны в виде файла PDF, например. Google Книги, затем их можно напрямую преобразовать в файл DjVu одним из следующих способов:

Если отсканированные изображения доступны как отдельные изображения, то проще всего распечатать их в PDF-документе с помощью одного из многочисленных инструментов «виртуального принтера», например бесплатного PDFCreator; затем конвертируйте PDF-документ в DjVu, как описано выше.

Обратите внимание, что существует множество других способов преобразования страниц в формат .djvu. Можно преобразовать с помощью PostScript или многостраничного TIFF в качестве промежуточного формата, а не PDF, но для этого, конечно, потребуются другие инструменты преобразования. Также возможно конвертировать из .pdf или .ps в .djvu с помощью программного обеспечения DjVuLibre и подключаемого модуля GSDjVu, но из-за лицензионных ограничений установка подключаемого модуля является довольно сложным процессом, который включает в себя компиляцию исправленной версии Ghostscript.< /p>

Изображения напрямую в DjVu [ редактировать ]

Однако с помощью программной библиотеки DjVuLibre можно получить документ гораздо более высокого качества. Изображения Jpeg можно напрямую закодировать в отдельные страницы DjVu с помощью кодировщика c44. Изображения в форматах без потерь, таких как PNG, должны быть преобразованы в PPM (для цветных сканов) или PGM (для сканов в оттенках серого), а затем закодированы с помощью c44. Для двухтональных (т.е. черно-белых) сканирований, таких как текстовые изображения большинства страниц, файл DjVu меньшего размера может быть получен путем преобразования изображений страниц в монохромный формат PBM, а затем кодирования в DjVu с помощью cjb2 кодировщик. Все эти преобразования форматов изображений можно выполнить с помощью бесплатной библиотеки ImageMagick (в пакетном режиме, с помощью mogrify). Отдельные страницы DjVu можно объединить в многостраничный DjVu с помощью программы djvm; эту программу также можно использовать для вставки или удаления страниц из файла djvu.

Важным предостережением в отношении этого процесса является то, что за высокое качество сканирования приходится платить большими файлами, а в настоящее время существует ограничение на загрузку в общие ресурсы в 100 МБ. Размер можно существенно уменьшить, применив разделение переднего плана и фона с помощью диджвю и/или миниджвю.

Сценарии djVuLibre [ редактировать ]

Этот скрипт позволяет вам взять целый каталог файлов изображений (JPG, PNG, GIF, TIFF и любой файл, который Imagemagick может преобразовать в PPM) и автоматически преобразовать и сопоставить их в файл DJVU. В настоящее время этот скрипт предназначен для Windows, но его можно легко преобразовать для Linux. Для его использования вам понадобятся Python, Imagemagick и DjvuLibre.

Линукс [ изменить ]

Метод 0 — преобразование графических файлов с разделением переднего плана и фона [ редактировать ]

Вы можете предварительно обработать сканы с помощью Scan Tailor.

Способ 1 — страница за раз с помощью DjVuLibre [ редактировать ]

Вам потребуется программное обеспечение djvu, которое включает в себя программу просмотра и некоторые инструменты для создания и обработки файлов DJVU. Возможно, вам также понадобится программное обеспечение Imagemagick для преобразования сканов из одного формата в другой:

  • Инструмент cjb2 используется для создания файла DJVU из (битонального) файла PBM или TIFF.
  • Инструмент c44 используется для создания файлов DJVU, файлов PNM или JPEG. Это обрабатывает цветные изображения, но сжатие ниже.

Поэтому вам необходимо преобразовать отсканированные изображения, если они еще не представлены в одном из этих форматов.

Преобразование в промежуточный формат [ изменить ]

DJVU не может использовать JP2 или PNG в качестве формата.Итак, затем вам нужно преобразовать в формат, который будет работать в качестве входных данных для DJVU. Варианты включают PBM (делает все пиксели черными или белыми, без оттенков серого); PGM (оттенки серого, без потерь); или JPEG (сжатие с потерями, оптимизированное для фотографий).

  • Преобразование из формата PNG в формат PBM с помощью инструмента преобразования от Imagemagick.
  • В зависимости от качества отсканированных оригиналов вам может быть полезно обработать их с помощью утилиты unpaper, которая удаляет черные рамки вокруг страниц и выравнивает отсканированный текст прямо на странице. Unpaper также может извлекать два отдельных изображения страниц, если лицевые страницы книги были отсканированы в одно изображение. Еще одна утилита — mkbitmap, еще один pdfcrop.pl (на основе Perl и бесплатное программное обеспечение, требует Ghostscript и texlive-extra-utils в Ubuntu; использует BoundingBox; может обрезать целый многостраничный PDF-документ всего за один проход). PDFCrop (еще один!) удаляет белые поля.
Преобразование в файл подкачки DJVU [ изменить ]
  • Создание файла DJVU из файла PBM: (эта команда не работает для PGM или JPG)
  • Создание файла DJVU из файла PGM или JPEG:

(В этом примере для PGM указано разрешение 300 точек на дюйм. Аргумент -dpi можно не указывать; значение по умолчанию — 100.)

Создание окончательного документа DJVU [ редактировать ]

Вам необходимо повторить эти шаги со сценарием для каждой страницы книги. Пример:

Есть еще один способ объединить все части *.djvu в одну:

См. следующий раздел для автоматизированного процесса для нескольких страниц.

Способ 2 – bash-скрипт PDF в DjVu [править]

Используйте этот сценарий, который преобразует документ PDF (несколько или одну страницу) в изображения, автоматически обрезает их с помощью ImageMagick, преобразует в формат DjVu и объединяет. Это очень медленно (для создания большого PDF-документа может потребоваться несколько дней), но немного эффективнее, чем следующий метод.

Результирующий документ DjVu довольно большой и некачественный, вероятно, из-за плохого распознавания шрифтов, что может быть исправлено более новыми версиями poppler (используемая библиотека): версия, доступная в репозиториях, обычно существует несколько месяцев. [1]

Вы также можете удалить часть pdftoppm и использовать сценарий для преобразования нескольких изображений непосредственно в многостраничный документ PDF. Если изображения не в формате pbm, вы можете преобразовать их с помощью одной команды, используя mogrify из ImageMagick.

Способ 3 — pdf2djvu [править]

Просто загрузите инструмент pdf2djvu из своего репозитория, чтобы напрямую конвертировать PDF-документ (одну или несколько страниц) в DjVu.

Если документ содержит результаты OCR (как в случае, например, с выводом FineReader), то они сохраняются в документе DjVu как скрытый текстовый слой. Некоторые другие свойства исходного документа, включая метаданные, также сохраняются. Качество и размер вывода зависят в первую очередь от характеристик исходного документа, но также могут контролироваться несколькими параметрами программы, такими как разрешение переднего плана и фона. [2] Программа способна использовать несколько потоков для ускорения конвертации.

По состоянию на 2019 год размер файла на Викискладе менее важен, чем качество изображения (хотя PDF-файлы размером около 1 ГиБ могут иметь проблемы с миниатюрами). Самый простой способ повысить качество — изменить --bg-subsample (по умолчанию 3, максимум 12) на 2 или 1 (наилучшее качество). [3]

Поэтому пример команды может быть таким:

Примечание об обрезке [ изменить ]

При использовании pdf2djvu вам необходимо обрезать pdf-файл непосредственно перед преобразованием. В Linux это может быть довольно сложно. Вы можете использовать ImageMagick convert -crop , но внимание: с многостраничным большим PDF-документом это может занять несколько ГБ памяти (ограничение составляет 16 ТБ!) И убить ваш компьютер, если вы не используете параметр -limit area 1 напрямую после обрезки . Это делает преобразование очень долгим.

При использовании ImageMagick итоговый PDF-документ увеличивается в размере и снижается в качестве из-за растрирования. [4]

См. другие инструменты кадрирования выше.

Способ 4 — DjVuDigital [править]

Используйте djvudigital [5], который, как и pdf2djvu, конвертирует pdf напрямую в DjVu. [6] Есть проблемы с лицензией, т.к. у библиотеки GSDjVu другая лицензия, тогда вам нужно будет скомпилировать ее самостоятельно; включенные утилиты делают этот шаг довольно простым, но все же долгим (около 1 часа) и немного раздражающим. [7]

Но затем вы можете конвертировать PDF-документ в DjVu с помощью одной команды (обрезку см. в предыдущем разделе). Преобразование происходит медленно (я считаю, что 300-страничный PDF-документ будет завершен примерно за 30-40 минут). Полученный DjVu имеет более высокое качество и меньший размер файла по сравнению с двумя предыдущими методами. [1] Кроме того, DjVuDigital может обрабатывать файлы JPEG2000 (он же JPX), встроенные в документы PDF, что является функцией многих книг Google.Преобразования pdf2djvu, Any2Djvu и Internet Archive не приводят к преобразованию этих файлов, в результате чего на выходе остаются пустые страницы.

В DjVuDigital есть много расширенных опций для улучшения результатов, но ими может быть сложно овладеть. [8] Как правило, изменение параметра --dpi позволяет быстро уменьшить размер файла без особых усилий.

Онлайн ([почти] все системы) [ изменить ]

Any2Djvu [править]

Еще один способ конвертировать изображения в формат djvu — заархивировать их и использовать сайт Any2Djvu для создания файла djvu. Any2Djvu извлечет изображения в zip и создаст djvu с OCR. Функции OCR будут работать только с текстом на английском языке.

Any2Djvu не может работать с большими файлами. С большими файлами лучше всего работать, если вы загружаете их по URL-адресу (например, вводя ссылку типа ftp://ftp.bnf.fr/005/N0051165_PDF_1_-1DM.pdf). Преобразование может занять несколько часов. Any2Djvu иногда не хватает памяти для больших или высокодетализированных файлов и завершается ошибкой. Он также не будет преобразовывать изображения "JPX", встроенные в документы PDF, которые обычно используются при сканировании Google Книг.

Интернет-архив [ редактировать ]

Еще один способ — загрузить документ в формате PDF (или архив файлов изображений) в Интернет-архив. Вам необходимо войти в систему (не используйте OpenId, он не будет работать [9]).


Кратко об этой странице: просто загрузите отсканированное изображение в виде одного файла PDF или серии изображений, сжатых в ZIP-файл с именем файла, заканчивающимся на _images.zip . Вы получите хороший PDF-файл с OCR! DjVu обычно доступен и для старых файлов.

Загрузка [ изменить ]

Нажмите "Загрузить" в правом верхнем углу. Загрузка во флэш-память (стандартная кнопка «Поделиться») не будет работать с Firefox (вместо этого используйте Opera или Internet Explorer [10]) или Linux. Вы можете использовать стандартный метод JavaScript без флэш-памяти (хотя для Firefox существует ограничение на размер файла в 2 ГБ, но не для Chromium); Загрузка по FTP устарела, потому что она медленнее и дает сбои, но это единственная простая в освоении возможность, если вам нужно загрузить много файлов (чего здесь быть не должно).

Уловки OCR [ изменить ]

Когда загрузка будет завершена, Интернет-архив начнет работу по «извлечению»: OCR для создания XML-документа обнаруженного текста на основе загруженного PDF-файла, затем преобразование его в файл DjVu со встроенным текстом, создание простого текстового файла дампа, среди прочего. [11]

Не забудьте установить правильный язык в метаданных перед запуском вывода (который запускается автоматически после загрузки, если есть что-то для вывода), в противном случае язык OCR будет установлен на английский, и результаты будут плохими для основанных на произведениях. на любом другом языке. Невозможно установить несколько языков OCR, но вам предлагается загрузить одну и ту же книгу дважды с двумя языками, чтобы иметь два OCR. [12] Продолжительность обработки зависит от размера и сложности вашего файла, а также от текущего объема невыполненных тестов преобразования в Интернет-архиве. [13] Вы можете проверить свой прогресс в очереди здесь и получить более подробную информацию о отправленных вами заданиях здесь (необходимо войти в систему).

Интернет-архив использует профессиональное, проприетарное, коммерческое программное обеспечение ABBYY [14] с неплохими изображениями и выводом OCR на многих языках и шрифтах и ​​агрессивным сжатием [15], что обеспечивает высокое качество конечного файла DjVu. [1] Однако Интернет-архив иногда создает чрезмерно сжатые файлы DjVu низкого качества. Если это произойдет, вы часто можете загрузить PDF-документ и конвертировать вручную. Вы можете уменьшить разрешение, на которое нацелен вывод, которое обычно устанавливается автоматически путем «угадывания» через поле с фиксированным значением ppi, установив его на 300 (dpi) или ниже, чтобы уменьшить размеры, время обработки и (иногда) ошибки.< /p>

Форматы изображений [ редактировать ]

Отсканированные книги, разбитые на несколько изображений в формате tiff, jpg, jp2 (другие форматы не принимаются), также конвертируются («производятся»), если вы поместите их в правильно созданный архив tar или zip. [16] Обычно лучше загружать несжатые сканы или файлы JPEG; файлы jp2, созданные в процессе деривации, сжаты таким образом, что вы не сможете эмулировать их без особых усилий.

Устранение неполадок [ изменить ]

DjVu в текст [ изменить ]

OCR через Any2DjVu [ редактировать ]

Опция OCR, доступная в бесплатном сервисе преобразования Any2DjVu, выполняет распознавание отсканированного изображения, но полученный текст встроен в сам файл .djvu и должен быть извлечен, чтобы его можно было использовать в Wikisource.

Один из способов сделать это — использовать программное обеспечение DjVuLibre для извлечения текста с помощью такой команды, как

JVbot может автоматически загружать текстовый слой DJVU на страницы Wikisource. Например, Роберт Брюс и борьба за независимость Шотландии - 1909 год.

OCR через интернет-архив [ редактировать ]

См. выше: если вы загружаете файл DjVu, процесс извлечения распознает его.

OCR с помощью Tesseract [ изменить ]

OCR можно выполнять с помощью Tesseract, бесплатного программного обеспечения OCR и скрипта:

    . Перл скрипт. , немного более удобный скрипт Python. На основе Perl-скрипта.

OCR с Tesseract 3.x и другими бесплатными механизмами OCR [ редактировать ]

DjVu в изображения [ редактировать ]

Линукс [ изменить ]

Чтобы извлечь изображения из файла DjVu, вы можете использовать ddjvu

Если вы сделали все страницы (без -page=** ), вы можете разделить многостраничный tiff на отдельные страницы png (или любого другого формата)

Извлечь все страницы в отдельные страницы в формате tiff с качеством 80%.

Управление [ редактировать ]

Разделение файлов DjVu [ редактировать ]

Документы DjVu бывают двух видов: в комплекте и отдельно (непрямые); последний формат хранит каждую страницу в отдельном файле. Комментарий ниже, сделанный первоначальным автором, касается только пакетных документов, которых следует избегать.

Большие работы не могут быть загружены на серверы Викимедиа, которые имеют ограничение на загрузку 100 МБ. Чтобы разделить DjVu, используйте DjVuLibre «Сохранить как» и укажите диапазон страниц, при котором будет создан файл, достаточно маленький для загрузки. Могут потребоваться некоторые пробы и ошибки.

Проще всего разделить файлы DjVu из командной строки с помощью djvmcvt:

Кроме того, djvused можно использовать из командной строки:

Это можно сделать для каждой страницы. Чтобы узнать номер страницы файла:

Удаление страницы авторских прав [ изменить ]

Такие страницы с авторскими правами и другие посторонние материалы могут быть удалены с помощью DjVuLibre, программы с открытым исходным кодом, поддерживаемой изобретателями djvu под лицензией GNU Public License. Двоичные файлы доступны для Windows, Mac, Linux, Solaris и IRIX. Он включает djvm.exe, который запускается как утилита командной строки. Если вы не можете понять, как это сделать, вы можете написать Mkoyle (говорить), и он сделает это для вашего файла и отправит вам файл по электронной почте для загрузки. Командная строка для удаления (-d) первой страницы (1) выглядит следующим образом:

Вставка новых страниц (например, заполнителя) [ изменить ]


Если в файле DJVU отсутствуют страницы, вы можете вставить заполнители, чтобы, если страницы будут найдены и вставлены позже, существующие страницы не нужно было перемещать. В качестве заполнителя можно использовать File:Generic placeholder page.djvu.

Примечание. Работайте в обратном порядке, начиная с последней отсутствующей страницы в файле, чтобы не пересчитывать номера страниц при вставке страниц.

Отображение определенной страницы [ изменить ]

[[Файл. ]] тег link принимает именованный параметр page, чтобы, например, этот вики-код отображал справа изображение 164-й страницы файла Emily Dickinson Poems (1890).djvu шириной 150 пикселей (задняя обложка книга, не содержащая текста):

Изображение страницы может отображаться в основном пространстве Википедии книг, как и в случае с Личными воспоминаниями о Жанне д'Арк/Книгой I/Главой 2, используя:

Примечания [ изменить ]

Однако обратите внимание, что если ваш PDF-файл взят из GoogleBooks и содержит уведомление об отказе от ответственности на первой странице, процесс извлечения обнаружит скрытый текстовый слой на странице отказа от ответственности, предполагая, что остальные страницы в PDF-файле также содержат текстовые слои тоже, когда они никогда этого не делают, и вообще пропускают автоматическое создание второго PDF-файла. Сохранение страницы с заявлением об отказе от ответственности, но удаление с нее всего скрытого текста является оптимальным подходом по причинам, связанным с одновременным созданием бесплатного файла DjVu. крайним средством является удаление страницы с отказом от ответственности.

Это краткий обзор того, как я обычно создаю DjVu-сканирование старого общедоступного домена или другой бесплатной работы, готовое к использованию в Википедии.

  • Часто я сам не владею соответствующими произведениями, поэтому я посещаю библиотеку, в которой они есть. Меня больше всего интересуют статьи из старых журналов по математике, и большинство библиотек предоставляют их только для справки, а не для заимствования. Так что я должен использовать местный копировальный аппарат. Обычно я позволяю машине отправлять копии прямо на мой личный адрес электронной почты в формате TIFF или PDF с разрешением 300 или 400 точек на дюйм. Плата не только намного меньше, чем за создание печатных копий, но и экономит дополнительный шаг A/D, что приводит к более высокому качеству вывода. К тому же библиотечные копировальные аппараты намного быстрее моего личного сканера. К сожалению, эта опция недоступна в небольших библиотеках со старыми копировальными аппаратами.
  • Когда я работаю с необработанными сканами, я использую формат файла PBM (это формат, созданный моим личным сканером).
    • Чтобы преобразовать файлы TIFF в PBM, я сначала создаю подкаталог с именем tifdir и разбиваю исходный файл TIFF на отдельные страницы с помощью программы tiffsplit из libtiff:
    • Для преобразования PDF-файлов в PBM я использую утилиту pdfimages из пакета Xpdf. Формат выходного файла зависит от формата изображения, встроенного в PDF. Если это еще не PBM, вы можете использовать convert, как описано выше, чтобы преобразовать файлы в PBM.
    • Иногда файлы PBM необходимо обрезать перед преобразованием в формат DjVu. Для этого я использую простенькую самодельную программу pbmextract, которая позволяет вам указать координаты прямоугольника извлечения (чтобы вы могли считать их непосредственно из какой-нибудь программы обработки изображений, такой как GIMP). Причина, по которой я не использую какое-либо готовое программное обеспечение для обработки изображений, заключается в том, что оно часто недостаточно способно обрабатывать двухтональные файлы.
    • Когда у меня есть готовые файлы PBM, я конвертирую их в DjVu с помощью программ cjb2 и djvm из пакета DjVuLibre:
    • Готовый DjVu можно загрузить в Commons. Не забудьте заполнить информационный шаблон, указать лицензию и классифицировать. Пример: commons:Image:Über die Vertauschung von Argument und Parameter in den Integralen der linearen Differentialgleichungen.djvu.
    • После загрузки файла в общий доступ текст необходимо расшифровать и откорректировать для использования в Википедии (или провести распознавание текста, но программное обеспечение распознавания текста не очень хорошо работает с текстами, содержащими большое количество математических символов). Расширение ProofreadPage значительно упрощает этот процесс. См. также Справка:Просмотр изображений рядом для проверки.

    Содержание

    Справка DJVU [ изменить ]

    Есть ли бесплатное программное обеспечение, которое я могу скачать для редактирования файлов DJVU? Я использую DjVu Solo 3.1, но в последнее время большинство файлов говорят, что версия слишком старая и их невозможно прочитать, поэтому я должен обновить. Но не могу найти более свежую версию DjVu Solo. Итак, кто-нибудь знает, где я могу получить последнюю версию DjVu Solo или последнюю версию какой-либо другой программы редактирования DJVU? Angr 16:47, 4 декабря 2008 г. (UTC) [ответить]

    двойные страницы в djvu [ редактировать ]

    С помощью Help:DjVu files мне удалось создать файл djvu из моих сканов png. Но остается одна проблема: мои сканы были сканами двойных страниц, всегда левой и правой стороны на одном png. Таким образом, мое сканирование 180-страничной книги дает djvu из 90 страниц. Есть ли какой-либо удобный способ разделить исходные png или страницы в djvu, чтобы я получил djvu со 180 страницами? Кто-нибудь знает, как решить эту проблему? --Slomox (обсуждение) 15:08, 18 февраля 2009 г. (UTC) [ответить]

    Я постоянно делаю что-то подобное, но под Linux. Для файлов с номерами от 001.jpg до 999.jpg, размером 3500 пикселей и разрешением 300 DPI:

    Если это не ровные страницы, половина ширины (в данном случае 1750) может не работать, и вы также можете немного обрезать края. Если сканы не совсем ровные, возможно, вам придется изменить это значение в середине книги. Возможно, это менее чем полезно, но я делаю это именно так. -- Просфилы (разговор) 16:47, 18 февраля 2009 г. (UTC) [ответ]

    • Утилита unpaper, которую я обычно стараюсь использовать при очистке отсканированных страниц, при необходимости преобразует одно отсканированное изображение двух расположенных рядом страниц в два отдельных выходных файла (см. --input-pages и -- опции output-pages в документации). Он полуинтеллектуальным образом находит нужный контент для каждой страницы, ища поля, состоящие в основном из пустого пространства. Я был доволен его выходом до сих пор. Tarmstro99 (разговор) 17:15, 18 февраля 2009 г. (UTC) [ответить]

    Опасения по поводу точности файлов DjVu Интернет-архива [ править ]

    Вслед за моим обсуждением «таинственного символа» выше, у меня есть серьезные опасения по поводу природы кодирования DjVu, используемого Интернет-архивом, и можно ли считать результаты достоверными сканами.

    Вот изображение абзаца, взятое из необработанных tif-файлов, предоставленных в Интернет-архив Google Книгами:

    GB paragraph.jpg

    А вот тот же абзац после того, как Интернет-архив закодировал его в файл DjVu:

    IA параграф .jpg

    Если вы присмотритесь, то увидите это

    1. R и E слова "GREVILLEA" выглядят совсем по-другому на скане Google Книг, но они были преобразованы в точно такой же глиф в файле DjVu Интернет-архива; и
    2. Буквы "u" в словах "frutices" и "aemulis" были преобразованы в буквы N с маленькой заглавной.

    Что меня беспокоит, так это то, что я не могу понять, как это могло бы произойти, если бы кодировщик DjVu Интернет-архива не знал что-то о том, какие глифы можно ожидать найти на странице, и не готов предположить, какой из них правильно — процесс, эквивалентный низкоуровневому распознаванию символов.Если дело в том, что обработка DjVu Интернет-архива угадывает глифы, а не точно воспроизводит то, что он видит, то это ставит под сомнение то, как мы здесь работаем. Какой смысл использовать сканы для обеспечения точности, если самим сканам не хватает точности?

    Hesperian 01:29, 10 сентября 2009 г. (UTC) [ответ]

    Если подумать, кодировщику не нужно заранее знать о конкретных глифах. Этот вывод так же легко объясняется тем, что кодировщик предполагает, что существует относительно небольшое количество глифов, и пытается сгруппировать экземпляры глифов, которые он находит, в это количество классов глифов. Но это в значительной степени не имеет значения; неверность есть неверность независимо от причины. Hesperian 01:53, 10 сентября 2009 г. (UTC) [ответить]

    Выглядит плохо Concern Arlen22 (обсуждение) 01:36, 10 сентября 2009 г. (UTC) [ответить]

    Обратите внимание, однако, что это правильно, когда одно и то же слово появляется внизу. Странно Если сомневаетесь, выбросьте Arlen22 (обсуждение) 01:39, 10 сентября 2009 (UTC) [ ответить ]

    "Текстовые области сжимаются следующим образом: пиксели переднего плана в областях группируются в символы. Затем создается и кодируется словарь символов, как правило, также с использованием контекстно-зависимого арифметического кодирования, а области кодируются путем описания того, какие символы появляется где. Как правило, символ будет соответствовать символу текста, но метод сжатия не требует этого. При сжатии с потерями можно пренебречь разницей между похожими символами (например, немного разными отпечатками одной и той же буквы). /p>

    «Ключом к методу сжатия [JB2] является метод использования информации в ранее встреченных символах (знаках) без риска внесения ошибок замены символов, присущих использованию OCR [1]. метки группируются иерархически.Некоторые метки сжимаются и кодируются напрямую с использованием арифметического кодирования (аналогично стандарту JBIG1).Другие метки сжимаются и кодируются косвенно на основе ранее закодированных меток, также с использованием статистической модели и арифметического кодирования. знак, используемый для помощи в кодировании данного знака, мог быть закодирован прямо или косвенно».
    — DjVu: анализ и сжатие отсканированных документов для распространения в Интернете.[1] Хаффнер и др. Лаборатория AT&T – исследования

    — «Так оно и есть», Воннегут.
    — Вздох, Cygnis insignis (обсуждение) 03:52, 10 сентября 2009 г. (UTC) [ответить]


    По-видимому, результатом этого является то, что эта проблема присуща DjVu, а не конкретно кодировщику Internet Archive. В этом виноват только Интернет-архив, поскольку они используют сжатие с очень большими потерями. Это плохие новости со всех сторон. :-( Hesperian 04:10, 10 сентября 2009 (UTC) [ответить]

    Важно подчеркнуть, что это является следствием конкретных настроек сжатия, которые IA выбрала для своего кодировщика djvu. Более разумные настройки могут дать лучшие результаты. Я взял самое верхнее изображение png из этого поста, преобразовал в PAM и прогнал его через кодировщик c44 djvu с настройками по умолчанию. Результат:

    IA-paragraph-redjvu. jpg

    Ни в коем случае не идеально — было бы лучше начать с исходного TIFF, а не с PNG; а настройка параметров сжатия или использование масок для изоляции текста на переднем плане могли бы создать файл меньшего размера с сопоставимым качеством изображения. Но я думаю, что это большое улучшение по сравнению со сканированием IA. Я предполагаю, что урок здесь состоит в том, чтобы делать наши собственные преобразования djvu всякий раз, когда это возможно. Tarmstro99 (обсуждение) 13:16, 11 сентября 2009 г. (UTC) [ответ] Я не особо участвую в этом проекте, но не следует ли нам сделать собственные DJVU для этих работ? Если мы даже не можем проверить сканы, они нам не очень нужны.— Жаладшар (Обсуждение) 16:21, 11 сентября 2009 г. (UTC) [ ответить ] support Arlen22 (обсуждение) 18:00, 11 сентября 2009 г. ( UTC) [ответ]

    Затем я беру файлы из каталога tiff и использую gscan2pdf для создания файла djvu. Похоже, что djvu примерно того же качества, что и оригинальные tiff, и хорошего размера. Надеюсь, это поможет. --Mattwj2002 (разговор) 18:42, 26 сентября 2009 г. (UTC) [ответить]

          • Еще один момент: некоторые tif-файлы тоже плохого качества (из интернет-архива). Хорошим источником могут быть pdf-файлы непосредственно из Google. Если вы пойдете по этому пути, я рекомендую следующие команды (имейте в виду, что это требует много оперативной памяти и времени):

          Это можно сделать с помощью Windows или Linux. Надеюсь, это поможет. --Mattwj2002 (обсуждение) 09:27, 27 сентября 2009 г. (UTC) [ответить]

          Другой способ [ изменить ]

          Я использую бесплатные программы ImageMagick и DjvuLibre.

          Для типичных страниц с черным текстом на белой бумаге используйте ImageMagick для преобразования формата tif/jp2/любого в формат pbm.Формат PBM является битональным — каждый пиксель либо полностью черный, либо полностью белый. Таким образом, преобразование большей части скана в этот формат дает огромное сжатие. Как правило, «конвертировать page1.tif page1.pbm» дает разумный результат, хотя вы можете возиться с ручным пороговым значением, если хотите. Все зависит от того, сколько усилий вы готовы вложить в изучение ImageMagick. Кодировщик DjVuLibre cjb2 преобразует изображение PBM в файл DjVu для вас.

          Для страниц с иллюстрациями конвертируйте в PGM для серых изображений или в PPM для цветных изображений. Затем используйте кодировщик DjVuLibre c44 для кодирования в DjVu.

          Наконец, используйте djvm DjVuLibre, чтобы скомпилировать все одностраничные файлы djvu в один многостраничный djvu. Я обнаружил, что перечисление всех файлов одновременно с параметром -c не работает. Вам нужно добавлять по одной странице за раз.

          Что касается того, как управлять всем этим, а не с помощью сценариев, я обнаружил, что получаю гораздо больше контроля и гораздо больше гибкости, перечисляя страницы в электронной таблице и используя формулы для создания нужных команд. например, вы можете легко указать, какие страницы следует рассматривать как двухцветные, какие в оттенках серого и какой цвет, а также определить свои формулы для создания желаемой команды для каждого случая. Сделав это, нужно просто скопировать столбец команд и вставить его в командную строку. Это немного низкопробно, но действительно работает хорошо.

          Читайте также: