Проверка PDF-файлов на наличие ошибок

Обновлено: 21.11.2024

Есть ли какой-либо инструмент, который я могу запустить для архивов PDF (все каталоги) и, наконец, он перечисляет/идентифицирует поврежденные/недействительные PDF-файлы?

У меня есть сотни PDF-файлов (связанных с документацией и т. д.) на моем компьютере (Windows), и очень часто я получаю/должен отправлять десятки PDF-файлов по электронной почте. Теперь это нормальная процедура, когда PDF-файл, который я получаю или отправляю, поврежден. Иногда это создает серьезные проблемы, когда исходный файл (например, файл Word или файл Tex) отсутствует или недоступен мгновенно.

Проверка этих тысяч PDF-файлов за ограниченное время невозможна, поэтому я искал инструмент, который можно запустить один раз, и он будет сканировать все PDF-файлы (в каталогах и подкаталогах), и, наконец, я получу список файлы, которые я должен воссоздать. До сих пор, кажется, такого инструмента нет.

4 ответа 4

Проверить подлинность файла PDF довольно просто с помощью PDFtk. Бесплатный графический интерфейс для PDFtk доступен в PDF Labs. Когда вы запускаете этот инструмент, вы можете загружать столько PDF-файлов, сколько хотите, из нескольких каталогов (с помощью кнопки «Добавить файлы»), а затем он очень быстро начнет получать доступ к страницам в этих PDF-файлах.

Если какой-либо файл среди выбранных PDF-файлов не является допустимым PDF-файлом, эта утилита покажет сообщение об ошибке и автоматически удалит его из окна выбора.

Следовательно, вы можете сэкономить много часов, используя эту процедуру с PDFtk. Кроме того, если у вас многоядерный процессор, вы можете запускать несколько экземпляров этой утилиты и добавлять сотни PDF-файлов в каждый экземпляр.

Я использую это программное обеспечение с прошлого года, и это самый удобный инструмент для работы с PDF, который я когда-либо использовал.

В качестве альтернативы, используя инструмент (pdfinfo.exe), доступный по ссылке, указанной marcwho, вы можете перейти в FolderContainingPDF и выполнить следующую команду в оболочке Windows, и она пометит недействительный файл PDF в файле журнала: FORFILES /S /M *.pdf /C "cmd /c echo. & echo @path @fname & D:\XPDF_3.04\bin64\pdfinfo.exe @file" 1>text.txt 2>&1

Я использовал "pdfinfo.exe" из пакета xpdfbin-win и cpdf.exe для проверки PDF-файлов на наличие повреждений, но не хотел использовать двоичный файл, если в этом нет необходимости.

Я читал, что более новые форматы PDF имеют в конце читаемый каталог данных xml, поэтому я открыл PDF с обычными окнами NOTEPAD.exe и прокрутил нечитаемые данные до конца и увидел несколько читаемых ключей. Мне нужен был только один ключ, но я решил использовать и CreationDate, и ModDate.

Следующий скрипт Powershell (PS) проверит ВСЕ PDF-файлы в текущем каталоге и выведет статус каждого в текстовый файл (!RESULTS.log). Это заняло около 2 минут с 35 000 PDF-файлов. Я попытался добавить комментарии для тех, кто плохо знаком с PS. Надеюсь, это сэкономит кому-то время. Вероятно, есть лучший способ сделать это, но он работает безупречно для моих целей и автоматически обрабатывает ошибки. В начале вам может понадобиться определить следующее: $ErrorActionPreference = "SilentlyContinue", если вы видите ошибки на экране.

Скопируйте следующее в текстовый файл и назовите его соответствующим образом (например, CheckPDF.ps1) или откройте PS и перейдите в каталог, содержащий файлы PDF, чтобы проверить и вставить его в консоль.

Следуя примеру @n0nuf, я написал пакетный скрипт для проверки всех PDF-файлов в определенной папке с помощью pdfinfo и отправки их через cpdf, если они повреждены, в попытке их исправить:

Или то же самое, что и скрипт bash:

Неработающие PDF-файлы будут перемещены во вложенную папку \bak, а воссозданные PDF-файлы получат суффикс _.pdf (что не идеально, но для меня достаточно). ПРИМЕЧАНИЕ. Воссозданный PDF-файл содержит меньше ошибок и должен быть доступен для просмотра в обычном средстве просмотра PDF-файлов. Но это не означает, что вы получите обратно весь свой контент. Невосстановимый контент приводит к пустым страницам.

Для проверки обоих подходов я удалял и изменял случайные части из PDF-файла с помощью текстового редактора (удалял потоки, поэтому страницы не отображались в моей программе просмотра PDF-файлов, изменял теги PDF и сдвигал некоторые биты). В результате: и pdfinfo, и JHOVE могут правильно обнаруживать поврежденные файлы (в некоторых случаях JHOVE был даже более чувствительным).

Можно ли сканировать pdf-файлы на наличие ошибок (синтаксические ошибки, версия pdf,
и т. д.)?
У нас есть проблема, что студенты довольно часто сообщают о проблемах с
печатью pdf-файлов из различных источников нашего университета.
Теперь я хочу выяснить, почему возникают эти ошибки. Вероятно, в файлах pdf есть
некоторые особенности, с которыми наши принтеры (режим ps)
не справляются.
Есть предложения?

************************************
Стефан Рёле
Zentrum für Datenverarbeitung
Университет Иоганна Гутенберга
D-55099 Майнц
Германия

Ральф Кениг

Конечно, это так. Существуют инструменты проверки PDF и предварительной проверки, такие как:

Бесплатные (с ограниченными возможностями, но инструменты Multivalent в целом
являются одними из лучших бесплатных инструментов PDF):

* tool.pdf.Validate (многовалентный, бесплатный)

Два известных коммерческих продукта (до 1000 долл. США), используемых в
графической и полиграфической промышленности:
* Enfocus Pitstop
* callas pdfInspektor2 (требуется Adobe Acrobat)

Дополнительные инструменты можно найти по запросу "Предварительная проверка PDF" в вашей любимой
поисковой системе.

Во многих случаях сам файл действителен, но его сложность вызывает
проблемы. В большинстве случаев эта сложность возникает из-за плохих инструментов или
программного обеспечения для создания и преобразования PDF-файлов.

Примечание: существует спецификация гораздо более строгой формы
PDF, используемой в коммерческой печати: PDF/X. Вы должны знать об этом, но
университет не место, чтобы требовать этого.

> У нас есть проблема, что студенты довольно часто сообщают о проблемах с
> печатью pdf-файлов из различных источников нашего университета.
> Теперь я хочу выяснить, почему возникают эти ошибки. Вероятно, в pdf-файлах есть
> какие-то особенности, с которыми наши принтеры (режим ps)
> не справляются.
> Есть предложения?

У нас есть похожие проблемы в нашем университете, где я исследовал некоторые из
этих вопросов. У меня даже есть специальный каталог под названием «pdf-clinic», где
я собираю случаи таких сломанных или проблемных PDF-файлов для
исследования или тестирования программного обеспечения.

Главная проблема заключается в том, что пользователи не понимают рабочий процесс и преобразование,
происходящее в процессе преобразования PDF в печатную страницу.

Другая проблема связана с инструментами (или старыми версиями) программного обеспечения, которые пытаются
догнать скорость новых функций, представленных Adobe в формате PDF
(последние спецификации составляют около 1200 страниц, AR7 в очереди). PDF — это
довольно сложный формат, с которым может справиться лишь несколько бесплатных программ.

Основная проблема заключается в том, что Acrobat Reader 6 доступен только для Windows
и Mac (где возникает меньше основных проблем), но не для Linux, где
5.0.9 является последней версией, а Adobe не выпускает заявление об обновлениях,
при планировании AR7 (для Windows).

Я перечислил некоторые проблемы на следующих ресурсах:

Я постепенно перенесу этот материал на свои вики-страницы и переведу на
английский язык. Причина: я фанат мирового языка, который
понятен широкой аудитории.

Вот неформатированная копия для архива новостей:

Проблема, анализ вероятной причины, решение

Печать занимает вечность
=======================
Ошибка прозрачности Acrobat (изображения с прозрачными частями (обычно GIF) < br />разбиты на тысячи маленьких частей, это большая нагрузка
для растеризатора внутри принтера)

tool.pdf.Info — изображения из мультивалентных инструментов

повторно сгенерировать PDF или удалить тысячи изображений в Acrobat

многие изображения JPEG (DCTDecode) находятся в PDF (и, следовательно, в PS).
это большая нагрузка для растеризатора внутри принтера, которому приходится
распаковывать их

tool.pdf.Info — изображения из мультивалентных инструментов

уменьшить разрешение изображений или распечатать документ, разбитый на небольшие
задания по несколько страниц в каждом

взрывной рост размера из PDF в PS из-за распаковки изображений. Существует
несколько фильтров сжатия, которые зрители распаковывают при преобразовании
PDF в PS, что приводит к увеличению размера файла PS

tool.pdf.Info — изображения из мультивалентных инструментов

уменьшить разрешение изображений или распечатать документ, разбитый на небольшие
задания по несколько страниц в каждом

PDF не может быть открыт
=======================
использование новых методов сжатия в PDF 1.5 (например, потоки объектов ,
сжатая таблица внешних ссылок)

зная спецификацию PDF, вы можете напрямую искать ключевые слова в
файле PDF,

есть только Acrobat Reader 5 для Linux

повторно сгенерируйте PDF, установите совместимость с PDF 1.3 (Acrobat 4)

Ориентация страницы PDF и ориентация страницы печати отличаются
=======================
раздражение пользователя или зрителя < br />проверьте несколько простых случаев, извлеките из них уроки
иногда это исправляет использование другого конвертера PDF->PS

Шрифты указаны неправильно или отсутствуют
=========================
Шрифты не встроены в файл PDF
/>pdffonts (инструмент xpdf) или tool.pdf.Info -fonts (многовалентный)
повторное создание PDF

Ошибки Ghostscript с неизвестными шрифтами (invalidfont)
=======================
Имена шрифтов PDF-Base-14 сильно различаются (например, SymbolMT
не распознается как Symbol)
обновите до более нового Ghostscript, например до версии 8.14

программа просмотра не разрешает определенные операции, такие как печать
=======================
настройка разрешений для PDF-документа
br />см. свойства документа в AR
попросите создателя PDF предоставить PDF без ограничений

> Стефан Рёле
> Zentrum für Datenverarbeitung
> Университет Иоганна Гутенберга

ПС.Неудивительно, что в университете Гутенберга есть проблемы с печатью
_цифровых_ файлов. ;-)

--
Ralf Koenig
Wissenschaftlicher Mitarbeiter an der
Professur Rechnernetze und verteilte Systeme
TU Chemnitz, Zi. 1/B320, тел. 0371-531-1532

Adobe Acrobat reader входит в семейство прикладного программного обеспечения Adobe Inc. Этот бесплатный инструмент поддерживает просмотр, печать и аннотирование файлов Portable Document Files (PDF). Если вы не можете открыть PDF, проблема может быть связана с Acrobat Reader или может быть более сложной и требует комплексного решения.

Документы PDF являются стандартом де-факто для обмена файлами и гарантируют, что организация и поток не могут быть легко изменены получателем. В этой статье вы узнаете о нескольких способах исправления ошибки «Не удается открыть PDF».

В этой статье

Часть 1. Почему появляется сообщение «Не удается открыть pdf»?

Но давайте начнем с изучения некоторых причин, по которым вы не можете открыть PDF. Ниже приведены основные причины, по которым PDF-файл не открывается:

Неподдерживаемый тип файла. Это наиболее распространенная причина, по которой вы не можете открыть PDF. Иногда для некоторых файлов может быть ошибочно установлено приложение по умолчанию Adobe Reader. Обычно эта проблема возникает из-за непреднамеренной человеческой ошибки.

Устаревшая программа Acrobat или Adobe Reader. Эта ошибка возникает при использовании устаревшей программы Adobe Reader или Acrobat. Adobe Inc постоянно выпускает обновления своего программного обеспечения, добавляя новые функции и повышая безопасность.

Файлы PDF, созданные с помощью программ, отличных от Adobe: многие программы могут создавать переносимые файлы документов. К сожалению, некоторые из этих программ не соответствуют правильным стандартам. В результате вы не можете открыть PDF.

Поврежденные PDF-файлы. Иногда кто-то может отправить вам поврежденный файл. Повреждение могло произойти во время создания документа или передачи по электронной почте, когда документ был неправильно декодирован.

Поврежденная установка Adobe Reader. При поврежденной установке Adobe Reader или Acrobat часто возникает ошибка «Не удается открыть PDF». Повреждение вызвано прерванным процессом установки, обновлением Windows 7 до Windows 10 или повреждением файловой системы компьютера. Повреждение может произойти из-за неправильного отключения питания, сбоя программного обеспечения или неисправности оборудования.

Файлы PDF содержат вирус: встроенный Защитник Windows или компьютерное вирусное программное обеспечение могут помешать вам открыть файл PDF в случае обнаружения вируса.

Часть 2. 5 различных способов исправить ошибку «Не удается открыть PDF».

Теперь давайте рассмотрим пять различных способов исправления ошибки «Невозможно открыть PDF».

Способ 1: отключить защищенный режим при запуске

Начиная с версии XI, Adobe Reader имеет защищенный режим, в котором файлы запускаются в изолированной программной среде. Эта функция безопасности гарантирует, что вредоносный код, который может находиться в PDF-файле, не заразит системные каталоги и реестр Windows. Существует также защищенный вид, в котором большинство функций отключено. Вы можете узнать, находится ли документ в режиме защищенного просмотра, посмотрев на желтую ленту в верхней части документа. В защищенном режиме документы открываются, но все остальные функции отключены.

Если включен защищенный режим, в некоторых случаях PDF открыть невозможно. Чтобы проверить состояние этого кода, перейдите к «Файл», прокрутите вниз до «Свойства», нажмите «Дополнительно» и, наконец, «Защищенный режим». Чтобы отключить защищенный режим, выполните следующие действия:

Шаг 1. Выберите «Изменить» и прокрутите вниз до «Настройки».

Шаг 2. В списке категорий слева выберите Безопасность (улучшенная).

Шаг 3. В разделе «Категории» слева нажмите «Безопасность (улучшенная)» и в разделе «Защита песочницы» снимите флажок «Включить защищенный режим при запуске». Нажмите «Да» во всплывающем окне, затем «ОК» и перезапустите Adobe.

Обратите внимание, что, хотя этот метод может устранить ошибку, связанную с невозможностью открытия PDF-файла, он также не обеспечивает защиту, установленную разработчиком, чтобы гарантировать, что ваш компьютер не заражен вредоносным кодом.

Способ 2. Установите последнюю версию Adobe Acrobat

Старая версия Adobe Acrobat не может открывать файлы PDF, созданные с помощью более новых версий. Вам необходимо обновить Adobe Acrobat Reader до последней версии. Чтобы выполнить обновление, выполните следующие действия:

Шаг 1. Нажмите "Справка" и прокрутите вниз до пункта "Проверить наличие обновлений".

Шаг 2. Нажмите «Проверить наличие обновлений» и подождите, пока приложение подключится к серверу Adobe.

Шаг 3. Через несколько минут обновление будет загружено и установлено. Перезапустите Adobe и проверьте, сохраняется ли проблема.

Способ 3. Проверка файла PDF на наличие повреждений

Иногда при создании PDF-файлов возникают ошибки. Такие файлы невозможно открыть. Файл также может быть поврежден при отправке по электронной почте. В такой ситуации лучше всего попросить отправителя повторно отправить файл.

Для поврежденных PDF-файлов лучшим решением будет использование профессионального инструмента для восстановления PDF-файлов. Мы рекомендуем Wondershare Repairit, программное обеспечение для восстановления поврежденных PDF-файлов без внесения каких-либо изменений в исходный файл. Выполните следующие действия, чтобы исправить поврежденный PDF-файл:

Шаг 1. Загрузите и установите Wondershare Repairit с веб-сайта. Запустите инструмент с помощью значка на рабочем столе. Затем нажмите «Восстановить файл» на панели управления.

Чтобы найти и добавить файл, который нужно восстановить, нажмите «Добавить». Отображается добавленный файл.

Шаг 2. Чтобы начать восстановление файла, нажмите «Восстановить». После завершения процесса нажмите OK.

Шаг 3. Просмотрите восстановленный файл или файлы и нажмите «Сохранить восстановленные файлы», затем нажмите «ОК». Диалоговое окно уведомит вас об успешном сохранении файлов.

Способ 4. Использование более ранней версии Adobe Reader или Acrobat

Некоторые старые документы PDF в некоторых случаях несовместимы с более новыми версиями Adobe Reader или Acrobat, особенно те, которые были созданы с использованием продуктов сторонних производителей и не соответствуют спецификациям и стандартам Adobe. Это сложная проблема, потому что невозможно обновить документ, чтобы использовать текущую версию Adobe.

Единственным обходным решением является поиск старой версии Adobe Reader в Интернете или на компьютере с более старой версией Adobe Reader. Если на вашем компьютере уже установлена ​​последняя версия Adobe Reader, вам придется сначала удалить ее, а затем искать установщик для более старой версии. У Adobe есть FTP-сайт, на котором можно загрузить старые версии Adobe Reader.

Способ 5. Установить Adobe владельцем PDF по умолчанию

Мы упомянули, что это распространенная проблема. Иногда в качестве приложения по умолчанию устанавливаются другие приложения. Когда это происходит, вы получаете сообщение об ошибке «не удается открыть PDF». Чтобы настроить систему на автоматическое открытие PDF-документов с помощью Adobe Reader, выполните следующие действия:

Шаг 1. Щелкните PDF-файл правой кнопкой мыши, выберите «Открыть с помощью», а затем выберите программу по умолчанию.

Шаг 2. Установите флажок «Всегда использовать выбранную программу для открытия PDF-файлов», а затем нажмите «ОК».

Способ 6. Восстановление Adobe Acrobat или Reader

Последний метод включает в себя восстановление Adobe Acrobat или Reader с помощью встроенного инструмента восстановления. Чтобы исправить установку, нажмите «Справка», затем прокрутите вниз и нажмите «Восстановить установку».

Запустится программа установки Windows, и Adobe будет переустановлена ​​на вашем компьютере. Это исправит любые отсутствующие или сломанные компоненты. После завершения перезагрузите компьютер и попробуйте снова открыть документ PDF.

Итог

Исходя из предыдущего, существует множество способов исправить ошибку «Не удается открыть PDF». Всегда начинайте с устранения неполадок и определения конкретной проблемы, которая привела к проблеме. С помощью этой информации вы сможете применить правильное исправление из нашего списка предлагаемых решений.

Для поврежденных PDF-файлов лучше всего использовать Wondershare Repairit. Мы надеемся, что предоставили вам всю информацию, необходимую для исправления ошибки «Не удается открыть PDF».

Читайте также: