Как скопировать текст из djvu

Обновлено: 02.07.2024

К сожалению, формат DjVu больше не поддерживается. Он был лучше для просмотра больших карт в Интернете, чем любой другой доступный формат файла. Онлайн-просмотр больших карт в настоящее время обычно обеспечивается с помощью серверного программного обеспечения, которое одновременно отображает только часть карты в вашем браузере. Я еще не готов установить это на railsandtrails. Если позволит время, я буду конвертировать некоторые файлы .djvu в PDF. Большие PDF-файлы следует загружать на компьютер и просматривать с помощью Adobe Acrobat Reader DC (не просматривать в браузере)

Мне рекомендуется использовать программу обработки изображений, которая может просматривать (и преобразовывать) файлы .djvu после их загрузки на ваш компьютер:

  • Windows: Irfanview — полнофункциональная программа просмотра и редактирования изображений для большого количества форматов файлов. После установки плагинов он может открывать файлы djvu. Он доступен для Windows уже много лет и всегда был бесплатным. Рассмотрите возможность сделать пожертвование для поддержки дальнейшего развития.
  • Mac: GraphicConverter — полнофункциональная программа просмотра и редактирования изображений для большого количества форматов файлов. После установки плагинов он может открывать файлы djvu. Он доступен для Mac уже много лет и стоит очень разумно. Разработчик, Торстен Лемке, очень хорошо отвечает на вопросы по электронной почте.

Из-за большого количества опций использование этих программ иногда может быть запутанным. Найдите время, чтобы прочитать руководство по эксплуатации и поиграть с программой.

Старая информация о DjVu.

Формат файлов DjVu создает очень маленькие файлы, в которых легко перемещаться для просмотра в Интернете. DjVu разделяет изображения на информацию переднего плана (текст и четкие линии) и фон (цвет) и сжимает каждую часть, используя наиболее эффективный алгоритм для этой части. В нем используется метод вейвлетов, первоначально разработанный лабораториями AT&T, который обеспечивает более быстрое отображение, чем обычные растровые изображения.

Для просмотра изображений DjVu необходимо сначала установить бесплатный подключаемый модуль браузера, доступный для операционных систем Macintosh, Windows и Linux/Unix от Caminova. Обязательно обновите подключаемый модуль до последней версии.

DjVu имеет 4 формата. Отсканированные или чистые форматы создают очень маленькие файлы с четкими линиями и размытыми цветами заливки. Битональный формат создает небольшие файлы с четкими черными линиями и без цвета. Формат фото генерирует файлы гораздо большего размера с четкими цветами. Вы можете просматривать передний и фоновый слои отсканированных в формате DjVu изображений по отдельности, щелкнув изображение правой кнопкой мыши и выбрав Вид->Слой. Часто читабельность и печать текста и штриховых рисунков можно улучшить, просмотрев черно-белый слой. Чтобы убедиться, что перед печатью не потеряется важная информация, просмотрите фоновый слой, чтобы увидеть, что там находится.

Для печати изображений DjVu всегда используйте кнопку печати DjVu (или щелкните изображение правой кнопкой мыши и выберите Файл->Печать), а не кнопку печати браузера. Вы можете распечатать часть отображаемого изображения или все изображение целиком.

Чтобы скопировать часть изображения, щелкните его правой кнопкой мыши и выберите «Выделение» -> «Выбрать область» и нарисуйте прямоугольник вокруг области, которую хотите скопировать. Затем щелкните правой кнопкой мыши и выберите Selection->Copy. Затем вставьте выделенное в свой документ (Word, Powerpoint и т. д.)

Чтобы сохранить изображения DjVu для просмотра, редактирования и печати в автономном режиме, щелкните значок диска DjVu или щелкните правой кнопкой мыши и выберите «Файл->». Вы можете сохранить страницу как или сохранить документ как (DjVu). Документы DjVu, содержащие несколько страниц, могут быть сохранены как «В комплекте» (один большой файл со всеми страницами) или «Непрямой» (один файл для каждой страницы и индексный файл, чтобы упорядочить их для просмотра).

Windows XP SP2 изменяет настройки в Internet Explorer, которые блокируют просмотр сохраненных файлов DjVu. Вы можете отключить предупреждение, открыв окно «Свойства обозревателя» в меню «Инструменты» Internet Explorer. Перейдите на вкладку «Дополнительно», прокрутите вниз до раздела «Безопасность» и установите флажок «Разрешить запуск активного содержимого из файлов на моем компьютере». и/или «Разрешить запуск активного содержимого с компакт-дисков на моем компьютере». Последний подключаемый модуль (6.1) устанавливает средство просмотра DjVu, избавляя от необходимости изменять настройки IE. Если у вас возникли проблемы после обновления до Internet Explorer 7, попробуйте это.

Чтобы отредактировать изображение DjVu, сначала необходимо преобразовать его в формат, понятный редактору изображений. Вы можете получить доступ к дополнительным параметрам, щелкнув изображение правой кнопкой мыши (щелчок с нажатой клавишей Control в Mac OS X). Выберите Экспорт в файл. чтобы сохранить изображение в редактируемом файловом формате, общем для вашей операционной системы (BMP в Windows, PICT в Mac). После сохранения в этом формате вы можете редактировать файл в любом графическом редакторе. Затем вы можете включить отредактированное изображение в исследовательскую работу, презентацию Power Point, документальный видеофильм или на веб-сайт (с учетом ограничений лицензирования/авторских прав)

Чтобы скопировать/вставить изображение с полным разрешением (или выделение), вы можете использовать команды «Выбрать всю область» или «Выбрать область» (щелчок правой кнопкой мыши->Выделение->).Если вам нужно текущее отображаемое разрешение, используйте клавишу «Печать экрана», чтобы сохранить копию текущего экрана в буфер обмена для вставки в другую программу. Некоторые DjVu-изображения текстовых документов содержат текст, встроенный в файл. Вы можете найти, выбрать и скопировать этот текст. (используйте control-c для копирования, так как команда копирования в меню редактирования недоступна.)

Для создания образов DjVu вам потребуется коммерческая программа, продаваемая Celartem Technologies (ранее LizardTech). Document Express Professional доступен для ОС Windows или Linux. Celartem Technologies также продает программное обеспечение пакетной обработки Document Express Enterprise учреждениям, конвертирующим большое количество изображений.

Советы по использованию Document Express/DjVu Solo:

Очень размер файла для цветных документов достигается за счет сжатия отсканированных и чистых изображений. Документ разделен на передний план (текст и четкие линии) и фон (фоновый цвет и фотографии, рисунки без четких линий). Если вы сначала увеличите резкость и затемните линии в графическом редакторе, djvu сможет лучше отделить линии и текст от фона. Использование оригинала с более высоким разрешением существенно не увеличивает размер файла, но часто улучшает четкость даже при более низком разрешении просмотра. Например, разрешение 600 dpi выглядит четче, чем 300 dpi при 300-процентном увеличении в формате DjVu с небольшим увеличением размера файла DjVu. Увеличение документа с разрешением 300 dpi до 600 dpi в графической программе перед кодированием в DjVu обеспечивает качество отсканированного или чистого формата DjVu, аналогичное документу, отсканированному с разрешением 600 dpi.

Битональное кодирование выполняется только в черно-белом режиме, но более точно отображает линейные рисунки с неровными краями, которые плохо кодируются с помощью сканирования или очистки.

Кодирование фотографий приводит к значительному увеличению размера файла (примерно в два раза меньше размера сопоставимого изображения в формате jpg), но качество изображения сравнимо с исходным отсканированным изображением. Это кодирование может потребоваться для фотографий, документов и цветных карт с большим количеством деталей. Кодируется только фоновый слой, но с высоким разрешением. Цветные карты и рисунки с четко очерченными линиями могут быть приемлемы при использовании Scanned или Clean и, таким образом, значительно экономят место и время загрузки. Единственный способ узнать это попробовать. Если какая-либо важная информация находится на фоновом слое, вам потребуется использовать кодирование фотографий, чтобы сохранить четкость этой информации при увеличении.

Эти параметры позволяют выбрать принтер из списка известных принтеров. Печать в файл также возможна, если установить флажок «Печать в файл» в диалоговом окне «Печать». Подменю «Свойства» позволяет дополнительно указать размер бумаги, ориентацию печати, макет страницы, разрешение печати, масштабирование изображения, зеркальное отображение, негативную печать и двустороннюю печать.

Параметры диапазона печати

Все — печатает все страницы одностраничного или многостраничного документа DjVu.

Страницы — позволяет печатать указанный диапазон страниц из многостраничного документа.

Выбор — если этот флажок установлен, подключаемый модуль DjVu печатает только ту область страницы DjVu, которая отображается в окне подключаемого модуля. Этот параметр часто используется для печати небольшой области большой страницы (карты, инженерные чертежи и т. д.).

По умолчанию — если этот переключатель отмечен, подключаемый модуль печатает исходный размер документа. То есть 1 см в исходном документе равен 1 см на распечатанной странице.

Уменьшить по размеру — если этот переключатель отмечен, подключаемый модуль DjVu изменяет размер изображения (вся страница или текущий фрагмент). так, чтобы оно заполнило печатаемую страницу.

Текущий масштаб — если этот переключатель отмечен, подключаемый модуль печатает изображение DjVu с текущим коэффициентом масштабирования (тот, который используется для просмотра изображения на экране). То есть, если текущий коэффициент масштабирования равен 75 %, 1 см в исходном документе будет равен 0,75 см на распечатанной странице.

Копии — не поддерживаются.

Влияние параметра «Режим отображения» на печать

Черно-белый — печать переднего плана в черно-белом режиме с отправкой информации на принтер с использованием самого высокого разрешения, доступного в памяти. Это обеспечивает максимальную читаемость.

Цвет. Разрешение и качество цветной печати контролируются различными настройками в диалоговом окне «Настройки».

ПРИМЕЧАНИЕ. Плагин DjVu НЕ использует команду «Печать», которая находится в строке меню главного браузера, для печати изображений DjVu. Вместо этого, чтобы напечатать загруженное изображение DjVu, выберите параметр «Печать» во всплывающем меню DjVu или щелкните значок печати на панели инструментов.

Сохранить страницу как

Сохранить документ как

р>

Сохранение страниц и документов

Вы можете сохранить либо страницу, либо весь документ.

Значок "Сохранить" на панели инструментов сохраняет весь документ.

Сохранение страниц

Чтобы сохранить страницу документа, щелкните ее правой кнопкой мыши и выберите "Сохранить страницу как". Появится диалоговое окно Сохранить файл как. Назовите файл и нажмите «Сохранить», чтобы сохранить страницу как файл DjVu.

Сохранение документов

При сохранении многостраничного документа вы можете сохранить его как связанный или непрямой документ. Связанные документы DjVu содержат все страницы в одном файле, в то время как непрямые документы DjVu содержат отдельные файлы для каждой страницы, связанные с дополнительным индексным файлом.

Чтобы сохранить документ, щелкните его правой кнопкой мыши и выберите Сохранить. Документ как. или нажмите кнопку Сохранить документ на панели инструментов. В Сохранении. диалоговом окне выберите Связанный или Косвенный. Выберите непрямой формат, если вы хотите, чтобы каждая страница сохранялась в отдельный файл (идеально подходит для просмотра веб-страниц). Выберите формат «В комплекте», если вы хотите, чтобы все было в одном файле (хороший формат для архивирования или отправки электронной почты).

В следующем окне введите имя файла документа. Для связанных документов это будет имя связанного файла. Для непрямых документов это будет имя файла верхнего уровня, содержащего указатели на файлы страниц. Файлы подкачки будут созданы в том же каталоге, что и файл верхнего уровня. Их имена встроены в документ.

Уважаемые покупатели из России, пожалуйста, остановите своего безумного президента. Украина вам не враг, как и весь мир.


Конвертер DjVu в текст

Этот инструмент онлайн преобразует любой документ DjVu в простой текстовый файл. Преобразование происходит быстро и происходит онлайн. Поэтому загрузка программного обеспечения не требуется.


Файлы TXT отлично работают на устройствах для чтения электронных книг

Если у вас есть файл DjVu, который вы хотите прочитать с помощью устройства для чтения электронных книг, например Amazon Kindle, которое изначально не поддерживает файл DjVu, у вас есть несколько вариантов: не содержат много графики, так как текстовые файлы быстро загружаются на всех устройствах.


Бесплатно

Этот конвертер DjVu совершенно бесплатен и предлагается без скрытых затрат или обязательств.

<я>

Подходит для всех форматов DjVus

Наше приложение работает со всеми форматами DjVus, в том числе с теми, которые не имеют встроенного текстового слоя. В последнем случае мы сами запускаем оптическое распознавание символов, чтобы предоставить вам текст.

<я>

Приложение-конвертер

Этот бесплатный инструмент входит в состав Converter App — уникального набора утилит для преобразования файлов и данных.

<я>

Политика конфиденциальности

Чтобы преобразовать их в текст, наш конвертер обрабатывает ваши файлы DjVu на удаленном сервере. Таким образом, ваша конфиденциальность имеет для нас высокий приоритет. Мы удалим все ваши данные с наших серверов вскоре после завершения процесса, не будем делиться ими и даже не просматриваем их.

Вы когда-нибудь задумывались, как получить текст из файла DjVu? Преобразование его в TXT является решением.

Начните преобразовывать электронные книги DjVu в текст прямо сейчас.

Авторское право © 2022 CONVERTER.APP. Все права защищены.

Условия использования

Все услуги, предлагаемые на этом сайте, предоставляются бесплатно в надежде, что они будут полезны. Мы не даем никаких гарантий. Используя наши конвертеры, вы соглашаетесь временно загрузить документ на удаленный сервер.

У меня было несколько документов djvu, в которых был настоящий текст, я смог открыть их в программе просмотра djvu, выбрать текст и вставить его в текстовые файлы. Я хотел найти простой способ преобразовать все файлы в текстовые документы, у меня было более 50 файлов для преобразования, каждый из которых содержит более 500 страниц.

Я нашел инструмент командной строки, который может конвертировать/извлекать скрытый текст из файлов djvu и написал сценарий powershell для передачи каталогов и преобразования файлов.

Обратите внимание, что если файл djvu не содержит текста, этот метод может оказаться бесполезным. Чтобы убедиться, что ваш файл djvu содержит извлекаемый текст, выполните следующие действия.

Откройте файл djvu в программе просмотра djvu, нажмите «Изменить» -> «Выбрать», выберите область, содержащую текст, скопируйте и вставьте ее в файл блокнота. Если вы видите вставленный текст, это руководство должно быть полезным.

Требования к программному обеспечению
1. пакет djvulibre
2. Windows powershell

Для извлечения текста из документов djvu необходимо использовать инструмент djvutxt.exe из пакета djvulibre.

После завершения установки добавьте каталог установки в путь переменной среды.
перейдите по этой ссылке для инструкций

Откройте Windows PowerShell, выполнив поиск в Windows.

Выполните следующую команду, чтобы проверить политику выполнения (политика выполнения powershell должна быть настроена так, чтобы разрешить запуск скриптов на вашем компьютере)
Get-ExecutionPolicy
если вы получите результат как неограниченный, вы можете продолжить.
Если ваша политика ограничена, вы можете выполнить следующую команду, чтобы включить ее. команды get-executionpolicy выше)

Сохраните приведенный ниже код в нужном каталоге с расширением .ps1, то есть, когда вы сохраняете имя файла, это что-то вроде DJVU-BulkConvertor.ps1

ps1 — это расширение скрипта powershell. Проще говоря, если вы не знакомы с powershell, powershell — это новая технология, реализованная корпорацией Майкрософт, которая поддерживает сценарии и оболочку командной строки, аналогичную DOS, но на внутренней стороне она имеет множество функций. и сильный дизайн, который изменил способ работы системных администраторов в Windows.


Вам нужно изменить пути к каталогу на путь к входному каталогу в приведенном ниже скрипте, первые две строки.

Структура папок такая, как показано ниже.
Имя папки3 -> содержит несколько папок, внутри каждой папки у меня есть только файлы djvu без дополнительных каталогов.
Вывод будет записан в C:\FolderName1\FolderName2, создавая папки, которые находились внутри foldername3,
то есть
C:\FolderName1\FolderName2\ MyOutput и т. д.


Януш С. Бень в университете Варшавы

В документе описывается инструмент с открытым исходным кодом, который позволяет предоставлять конечным пользователям результаты передовых языковых технологий. Он основан на формате DjVu, который для некоторых приложений по-прежнему превосходит другие современные форматы, включая PDF/A. Инструменты DjVu под лицензией GPL не ограничиваются только библиотекой DjVuLibre, но дополняются различными новыми программами, такими как pdf2djvu, разработанная Якубом Уилком. Он позволяет, в частности, преобразовывать в формат DjVu вывод PDF популярных программ распознавания текста, таких как FineReader, сохраняя скрытый текстовый слой и некоторые другие функции. Рассматриваемый инструмент был задуман автором и состоит из модификации инструмента запроса корпуса Poliqarp, используемого для Национального корпуса польского языка; его идеи были очень успешно реализованы Якубом Вильком. Новая система, называемая здесь просто Poliqarp для DjVu, унаследовала от своего происхождения не только мощные средства поиска, основанные на двухуровневых регулярных выражениях, но и способность представлять низкоуровневые неоднозначности и другие лингвистические явления. Хотя в настоящее время инструмент используется в основном для облегчения доступа к результатам грязного распознавания текста, он готов обрабатывать и более сложные выходные данные лингвистических технологий.

Откройте для себя мировые исследования

  • 20 миллионов участников
  • 135 миллионов публикаций
  • Более 700 тыс. исследовательских проектов

Полный текст недоступен

Чтобы прочитать полный текст этого исследования,
вы можете запросить копию непосредственно у автора.

<р>. Вывод этого сравнения не выявил ни одного победителя, который превзошел бы другую программу во всех тестовых случаях, поэтому для дальнейших тестов было выбрано решение с открытым исходным кодом. С точки зрения обработки польских исторических данных результаты проекта IMPACT также были очень важны для целей поиска в скрытом слое элементов электронной библиотеки [3] . .

В статье представлены два эксперимента, связанные с расширением содержимого электронной библиотеки данными из внешних репозиториев. Концепция включает в себя три взаимосвязанных ресурса: цифровую библиотеку среднепольских гравюр, где элементы хранятся в виде изображений, те же элементы в текстовой форме в лингвистически аннотированном корпусе и словарь среднепольского языка. Первый эксперимент демонстрирует, как результаты автоматизированного оптического распознавания символов, полученные с помощью инструментов с открытым исходным кодом, могут быть заменены расшифрованным содержимым из корпуса, что позволяет пользователю выполнять поиск по отдельным отпечаткам. Второй эксперимент связывает печатный контент с электронным словарем, фильтруя соответствующие статьи со словарем современного польского языка, чтобы исключить избыточные результаты. Объединение всех соответствующих ресурсов в цифровую платформу, ориентированную на библиотеку, создает новые возможности как для исследователей, занимающихся разработкой этих ресурсов, так и для ученых, изучающих польский язык 17-го и 18-го веков.

<р>. словари, не очень эффективен, так как требует загрузки всего файла. Было решено, что гораздо проще рассматривать словарные тексты как корпуса (Bień, 2011) и использовать специализированную поисковую систему для корпусов. Поэтому недавно цифровая версия 2-го издания словаря Linde стала доступна в Варшавском университете с предварительным распознаванием символов (SJPL, 2010). .

Настоящая статья описывает попытки оцифровки так называемого словаря польского языка Линде, изданного в 6 томах между 1807 и 1814 годами Самуэлем Богумилом Линде.Мы работаем над формальным описанием структуры словаря, целью которого будет позволить программистам разработать инструмент для автоматической разметки текста. Словарь многоязычный, поэтому выполнить качественное распознавание текста — сложная задача. В документе также описаны индексы, которые будут добавлены. Составление указателя a tergo и указателей сокращений, определителей и имен авторов цитат повысит качество и полезность оцифрованной версии. Наша работа со 2-м изданием словаря (1854-1861 гг.) позволяет нам протестировать несколько инструментов (на разных стадиях разработки), которые разрабатываются в рамках гранта польского правительства под руководством Януша С. Биня.

<р>. Morfeusz и Concraft-pl активно развиваются, и их новые версии, соответственно, будут применяться в нашем приложении. Напротив, Poliqarp в настоящее время больше не обновляется, но в то же время все еще используется в нескольких проектах [13][14][15]. .

<р>. словари, не очень эффективен, так как требует загрузки всего файла. Было решено, что гораздо проще рассматривать словарные тексты как корпуса (Bień, 2011) и использовать специализированную поисковую систему для корпусов. Поэтому недавно цифровая версия 2-го издания словаря Linde стала доступна в Варшавском университете с предварительным распознаванием символов (SJPL, 2010). .

Настоящая статья описывает попытки оцифровки так называемого словаря польского языка Линде, изданного в 6 томах между 1807 и 1814 годами Самуэлем Богумилом Линде. Мы работаем над формальным описанием структуры словаря, целью которого будет позволить программистам разработать инструмент для автоматической разметки текста. Словарь многоязычный, поэтому выполнить качественное распознавание текста — сложная задача. В документе также описаны индексы, которые будут добавлены. Составление указателя a tergo и указателей сокращений, определителей и имен авторов цитат повысит качество и полезность оцифрованной версии. Наша работа со 2-м изданием словаря (1854-1861 гг.) позволяет нам протестировать несколько инструментов (на разных стадиях разработки), которые разрабатываются в рамках гранта польского правительства под руководством Януша С. Биня.

<р>. Что касается транслитерации контента, то изначально она хранилась в отдельном поле метаданных и заполнялась на один отпечаток, только для проверки. После того, как возможности, предлагаемые форматом DjVu для аналогичного контента, были недавно исследованы в проекте IMPACT (см. (Bień, 2011)), скрытый текстовый слой, обычно содержащий результаты оптического распознавания символов, планируется использовать для хранения транслитерации вдоль с координатами соответствующих слов на отсканированном изображении. Создавая синергию между CBDU и IMPACT, которые использовали данные библиотеки для тестирования алгоритмов OCR, мы планируем дополнить репозиторий отпечатков CBDU данными IMPACT, подготовленными OCR. .

Цифровые библиотеки часто рассматриваются просто как новый метод хранения оцифрованных артефактов со всеми последствиями переноса давно устоявшихся способов работы с физическими объектами в цифровой мир. Такой подход повышает доступность, но часто игнорирует другие возможности, предлагаемые глобальным и немедленным доступом, виртуальностью и связью — настолько простыми, как никогда раньше. В статье представлена ​​идея преобразования обычной цифровой библиотеки в источник знаний и платформу для совместной работы, облегчающая расширение контента, интерпретацию и сотрудничество географически распределенных исследователей, представляющих различные академические области. Эта концепция была проверена в процессе расширения описаний, хранящихся в тематической цифровой библиотеке польских и связанных с Польшей эфемерных эстампов XVI, XVII и XVIII веков, расширенной информацией, связанной с предметами, предоставленной историками, филологами, библиотекарями и учеными-компьютерщиками. Это привело к тому, что обычные фиксированные метаданные и оцифрованный контент были связаны с историческими комментариями, глоссариями иностранных междометий или объяснением менее известных справочных деталей.

В статье представлен эксперимент, направленный на преодоление проблемы поиска различных вариантов написания в старых польских гравюрах. В случае Цифровой библиотеки польских и связанных с Польшей эфемерных гравюр 16-го, 17-го и 18-го веков два параллельных слоя текста (транслитерация и транскрипция), лежащие в основе выбранных элементов цифровой библиотеки, доступны в соответствующем Электронном корпусе 17-го и 18-го веков. Польские тексты века (до 1772 г.). Оба варианта извлекаются, а представление образца элемента в виде двойного скрытого слоя подготавливается и становится доступным для текстового поиска в PDF-файле, содержащем его отсканированное изображение. Эксперимент можно распространить на другие библиотеки, работающие с несколькими одновременными текстовыми интерпретациями графических элементов.

Цель документа — показать, что подмножество Рекомендаций Инициативы по кодированию текста является разумным выбором в качестве стандарта для изолированного XML-кодирования синтаксически аннотированных корпусов. Предлагаемая схема TEI, фактически используемая в Национальном корпусе польского языка, сравнивается с другими такими стандартами-кандидатами, включая TIGER-XML, SynAF и PAULA.

Существует множество установленных и предлагаемых форматов представления документов, но ни один из них не может адекватно поддерживать отдельные этапы всей последовательности методов анализа изображения документа (от улучшения изображения документа до анализа макета и оптического распознавания символов) и их оценки. В этом документе описывается PAGE, новая структура представления изображений страниц на основе XML, которая записывает информацию о характеристиках изображения (границы изображения, геометрические искажения и соответствующие исправления, бинаризация и т. д.) в дополнение к структуре макета и содержимому страницы. Пригодность платформы для оценки рабочих процессов в целом, а также отдельных этапов была тщательно подтверждена ее использованием в высокопрофильных приложениях, таких как общедоступные современные и проверенные исторические наборы данных, а также в серии соревнований по сегментации страниц ICDAR.

Цифровые документы на основе изображений состоят из нескольких страниц, каждая из которых может состоять из нескольких компонентов, таких как тест, фоновые изображения и аннотации. Мы описываем структуру изображения и программную архитектуру, которая позволяет системе DjVu загружать и отображать необходимые компоненты по запросу, сводя к минимуму требования к пропускной способности и требования к памяти в клиенте. Файлы документов DjVu представляют собой просто список расширенных URL-адресов, указывающих на отдельные файлы (или элементы файлов), содержащие компоненты изображения. Компоненты изображения включают: текстовые изображения, фоновые изображения, словари форм, используемые несколькими страницами, текст с распознанным распознаванием и несколько типов аннотаций. Многопоточная программная архитектура с интеллектуальным кэшированием позволяет загружать отдельные компоненты, выполнять предварительное декодирование и рендеринг по требованию. Страницы предварительно извлекаются или загружаются по запросу, что позволяет пользователям получать произвольный доступ к страницам без загрузки всего документа и без помощи байт-сервера. Компоненты, которые являются общими для всех страниц (например, словари форм или фоновые слои), загружаются по мере необходимости и кэшируются. Это значительно снижает общие требования к пропускной способности. Общие словари позволяют уменьшить стандартный размер файла на 40 % для отсканированных двухтоновых документов с разрешением 300 точек на дюйм. Коэффициенты сжатия отсканированных патентов США с разрешением 300 dpi в 5,2–10,2 раза выше, чем в группе IV с общими словарями, и в 3,6–8,5 раз выше, чем в группе IV без общих словарей.

Читайте также: