Индексированный PDF-файл, что это такое
Обновлено: 21.11.2024
Поскольку файлы PDF, безусловно, стали очень популярными в использовании, на любом персональном компьютере определенно будет храниться очень много файлов PDF. Независимо от того, используете ли вы этот компьютер для бизнеса или в личных целях, на нем определенно будет сохранено много файлов PDF. И обязательно наступит время, когда вам нужно будет поднять или использовать определенный файл PDF из множества файлов, которые у вас есть. Но что, если вы не помните точное имя файла или даже фрагменты имени файла, тогда вам наверняка будет трудно просматривать множество папок, содержащих PDF-файлы. Именно поэтому вам важно создать индекс для ваших PDF-файлов.
Существует так много приложений в Интернете и компьютерной индустрии, которые могут помочь вам создать такой сценарий для файлов PDF. И если у вас есть одно из этих приложений, то вы обязательно увидите, насколько это удобно. Один конкретный сценарий, который заставит вас чувствовать себя очень благодарным за то, что приложение под рукой, — это когда вам нужен определенный файл PDF или несколько файлов PDF для презентации или отчета, который вы делаете.
Допустим, встреча начнется через несколько минут, а у вас все еще нет необходимых PDF-файлов. С помощью приложения и создания индекса для ваших PDF-файлов поиск этих файлов можно сделать намного проще.
Но вы не должны полагаться только на приложение, которое вы установили в своей системе. Имейте в виду, есть еще определенные шаги, которые вам придется предпринять, чтобы система могла быть настолько эффективной, насколько она должна быть. Итак, что же это за шаги?
Первым шагом является выбор способа создания индекса для файлов PDF. У вас есть несколько вариантов здесь. Вы можете выбрать короткий индекс или длинный индекс. Краткий индекс относится только к ключевым словам, которые содержатся в текстовой части ваших файлов PDF. Однако в длинном указателе содержится полное содержимое ваших PDF-файлов.
После того как вы выполнили первый шаг, следующим будет выбор пути к файлу для вашей системы. Один из вариантов здесь — создать полный путь, чтобы вы могли сохранить индекс файла в любом месте. Другой вариант — создать относительный путь с помощью компакт-диска с возможностью поиска. Следующим шагом будет выбор целевого местоположения, в котором вы хотите сохранить индекс. Таким образом, всякий раз, когда вы создаете индекс для файла PDF, он будет храниться в целевом месте.
После того, как вы закончите здесь, вы можете выбрать папки и определенные файлы PDF, которые вы хотите проиндексировать. Когда эти файлы будут указаны, вы можете позволить вашему надежному приложению сделать остальную работу за вас! Затем приложение приступит к индексации ваших PDF-файлов, как вы указали в настройках. Таким образом, когда вы хотите создать индекс для своих PDF-файлов, вам действительно не нужно делать так много с вашей стороны! Это действительно простой процесс!
Вы можете сократить время, необходимое для поиска в длинном PDF-файле, внедрив индекс слов в документ. Acrobat может выполнять поиск в индексе намного быстрее, чем в документе. Встроенный индекс включается в распространяемые или совместно используемые копии PDF. Пользователи ищут PDF-файлы со встроенными индексами точно так же, как и файлы без встроенных индексов; никаких дополнительных действий не требуется.
В выпуске Acrobat DC и Acrobat Reader DC от декабря 2018 г. встроенный индекс в PDF больше не используется для поиска. Если вы все же хотите включить индекс для поиска, см. раздел Как включить встроенный индекс в PDF для поиска.
Добавить индекс в PDF
Открыв документ в Acrobat, выберите "Инструменты" > "Указатель".
Набор инструментов Index отображается на дополнительной панели инструментов.
На дополнительной панели инструментов нажмите «Управление встроенным индексом».
В диалоговом окне "Управление встроенным индексом" нажмите "Встроить индекс".
Прочитайте появившиеся сообщения и нажмите OK.
В Outlook и Lotus Notes можно встроить указатель при преобразовании сообщений электронной почты или папок в формат PDF. Это особенно рекомендуется для папок, содержащих много сообщений электронной почты.
Обновите или удалите встроенный индекс в PDF-файле
Выберите Инструменты > Индекс.
Набор инструментов Index отображается на дополнительной панели инструментов.
На дополнительной панели инструментов нажмите «Управление встроенным индексом».
Нажмите «Обновить индекс» или «Удалить индекс».
Вы можете определить определенную группу PDF-файлов как каталог и создать единый индекс для всей этой коллекции документов. Когда пользователи ищут определенную информацию в каталогизированных PDF-файлах, индекс значительно ускоряет процесс поиска.
Когда вы распространяете коллекцию на компакт-диске, вы можете включить указатель в PDF-файлы.
Вы можете каталогизировать документы, написанные латинскими, китайскими, японскими или корейскими иероглифами.Элементы, которые вы можете каталогизировать, включают текст документа, комментарии, закладки, поля форм, теги, метаданные объектов и документов, вложения, информацию о документе, цифровые подписи, метаданные изображения XIF (расширенный формат файла изображения) и настраиваемые свойства документа.
Начните с создания папки для PDF-файлов, которые вы хотите проиндексировать. Все PDF-файлы должны быть полными как по содержанию, так и по электронным функциям, таким как ссылки, закладки и поля форм. Если индексируемые файлы включают отсканированные документы, убедитесь, что текст доступен для поиска. Разбивайте длинные документы на более мелкие файлы размером с главу, чтобы повысить эффективность поиска. Вы также можете добавить информацию в свойства документа файла, чтобы улучшить возможности поиска по файлу.
Прежде чем индексировать коллекцию документов, необходимо настроить структуру документа на диске или томе сетевого сервера и проверить кроссплатформенные имена файлов. Имена файлов могут быть усечены, и их трудно найти при кросс-платформенном поиске. Чтобы предотвратить эту проблему, следуйте этим рекомендациям:
Переименовывайте файлы, папки и индексы в соответствии с соглашением об именах файлов MS-DOS (восемь символов или меньше, за которыми следует трехсимвольное расширение имени файла), особенно если вы планируете доставить коллекцию документов и индекс на ISO 9660- отформатированный диск CD-ROM.
Удалите расширенные символы, такие как символы с диакритическими знаками и неанглийские символы, из имен файлов и папок. (Шрифт, используемый функцией каталога, не поддерживает коды символов от 133 до 159.)
Не используйте глубоко вложенные папки или имена путей, длина которых превышает 256 символов, для индексов, которые будут выполняться пользователями Mac OS.
Если вы используете Mac OS с сервером локальной сети OS/2, настройте IBM® LAN Server Macintosh (LSM) для принудительного применения соглашений об именах файлов MS-DOS или индексируйте только тома FAT (таблица размещения файлов). (Тома HPFS [High Performance File System] могут содержать длинные невосстановимые имена файлов.)
Если структура документа включает подпапки, которые вы не хотите индексировать, вы можете исключить их в процессе индексации.
Чтобы упростить поиск в PDF, вы можете добавить информацию о файле, которая называется метаданные, в свойства документа. (Вы можете просмотреть свойства открытого в данный момент PDF-файла, выбрав «Файл» > «Свойства» и щелкнув вкладку «Описание».)
При добавлении данных для свойств документа учитывайте следующие рекомендации:
Используйте хороший описательный заголовок в поле «Заголовок». Имя файла документа должно появиться в диалоговом окне результатов поиска.
Всегда используйте одну и ту же опцию (поле) для одинаковой информации. Например, не добавляйте важный термин в параметр «Тема» для одних документов и в параметр «Ключевые слова» для других.
Используйте один и тот же термин для одной и той же информации. Например, не используйте биологию для одних документов и науки о жизни для других.
Используйте параметр "Автор", чтобы указать группу, ответственную за документ. Например, автором документа о политике найма может быть отдел кадров.
Используйте параметр «Тема» или «Ключевые слова» по отдельности или вместе, чтобы классифицировать документы по типу. Например, вы можете использовать отчет о состоянии в качестве записи темы и ежемесячно или еженедельно в качестве записи ключевых слов для одного документа.
Если у вас уже есть специальное обучение работе с Adobe PDF, вы можете определить настраиваемые поля данных, такие как тип документа, номер документа и идентификатор документа, при создании указателя. Это рекомендуется только для опытных пользователей и не рассматривается в полной справке Acrobat.
При создании нового индекса Acrobat создает файл с расширением .pdx и новую папку поддержки, содержащую один или несколько файлов с расширениями .idx. Файлы IDX содержат записи указателя. Все эти файлы должны быть доступны пользователям, которые хотят выполнять поиск в индексе.
Выберите Инструменты > Индекс.
Набор инструментов Index отображается на дополнительной панели инструментов.
На дополнительной панели инструментов нажмите "Полнотекстовый указатель с каталогом".
Отображается диалоговое окно Каталог.
В диалоговом окне "Каталог" нажмите "Новый индекс".
Отображается диалоговое окно "Новое определение индекса".
Диалоговое окно "Новое определение индекса".
В поле Название указателя введите имя файла указателя.
В поле Описание указателя введите несколько слов о типе указателя или его назначении.
Нажмите "Параметры", выберите любые дополнительные параметры, которые вы хотите применить к индексу, и нажмите "ОК".
В диалоговом окне "Параметры" можно указать дополнительные параметры для нового индекса.
В разделе «Включить эти каталоги» нажмите «Добавить», выберите папку, содержащую некоторые или все файлы PDF для индексации, и нажмите «ОК». Чтобы добавить другие папки, повторите этот шаг.
Любая папка, вложенная во включенную папку, также будет включена в процесс индексирования. Вы можете добавлять папки с нескольких серверов или дисков, если вы не планируете перемещать индекс или какие-либо элементы в коллекции документов.
В разделе «Исключить эти подкаталоги» нажмите «Добавить» и выберите любую вложенную папку, содержащую файлы PDF, которые вы не хотите индексировать. Нажмите OK и повторите при необходимости.
Проверьте свой выбор. Чтобы изменить список папок, которые нужно включить или исключить, выберите папку, которую нужно изменить, и нажмите «Удалить».
Нажмите «Создать», а затем укажите расположение файла индекса. Нажмите «Сохранить», а затем:
Нажмите «Закрыть», когда индексирование завершится.
Нажмите "Стоп", чтобы отменить процесс индексирования.
Если вы остановите процесс индексирования, вы не сможете возобновить тот же сеанс индексирования, но вам не придется переделывать работу. Параметры и выбор папок остаются нетронутыми. Вы можете щелкнуть Открыть указатель, выбрать частично готовый указатель и отредактировать его.
Если в параметрах «Включить эти каталоги» и «Исключить эти подкаталоги» длинные имена путей усечены, удерживайте указатель над каждым многоточием (. ), пока не появится всплывающая подсказка, отображающая полный путь к включенной или исключенной папке.
Диалоговое окно «Параметры индексирования»
Не включать цифры
Выберите этот параметр, чтобы исключить из указателя все числа, встречающиеся в тексте документа. Исключение чисел может значительно уменьшить размер индекса, ускорив поиск.
Добавить идентификаторы в файлы Adobe PDF v1.0
Выберите этот параметр, если ваша коллекция включает PDF-файлы, созданные до версии Acrobat 2.0, в которой идентификационные номера не добавлялись автоматически. Идентификационные номера необходимы, когда длинные имена файлов Mac OS сокращаются, поскольку они переводятся в имена файлов MS-DOS. Acrobat 2.0 и более поздние версии автоматически добавляют идентификаторы.
Не предупреждать об измененных документах при поиске
Если этот параметр не выбран, при поиске документов, которые изменились с момента последнего построения индекса, появляется сообщение.
Используйте этот параметр, чтобы включить в индекс пользовательские свойства документа; индексируются только пользовательские свойства документа, которые уже существуют в индексируемых PDF-файлах. Введите свойство, сделайте выбор в меню «Тип» и нажмите «Добавить». Эти свойства отображаются как параметр поиска во всплывающих меню дополнительных критериев окна «Поиск PDF» при поиске в результирующем индексе. Например, если ввести пользовательское свойство «Имя документа» и выбрать строковое свойство в меню «Тип», пользователь, выполняющий поиск в индексе, сможет выполнить поиск в пользовательском свойстве, выбрав «Имя документа» в меню «Использовать эти дополнительные критерии».
При создании настраиваемых полей в приложении Microsoft Office, в котором в приложении PDFMaker выбран параметр «Преобразовать информацию о документе», поля переносятся во все создаваемые PDF-файлы.
Используйте этот параметр, чтобы включить настраиваемые поля XMP. Пользовательские поля XMP индексируются и отображаются во всплывающих меню дополнительных критериев для поиска в выбранных индексах.
Используйте, чтобы исключить определенные слова (максимум 500) из результатов поиска по индексу. Введите слово, нажмите «Добавить» и повторите при необходимости. Исключение слов может уменьшить индекс на 10-15%. Стоп-слово может содержать до 128 символов и чувствительно к регистру.
Чтобы пользователи не пытались искать фразы, содержащие эти слова, перечислите слова, которые не проиндексированы, в файле Read Me каталога.
Используйте этот параметр, чтобы сделать определенные узлы тегов конечных элементов доступными для поиска в документах, имеющих тегированную логическую структуру.
Настройки «Пользовательские свойства», «Стоп-слова» и «Теги» применяются только к текущему индексу. Чтобы применить эти настройки глобально к любому созданному вами индексу, вы можете изменить настройки по умолчанию для настраиваемых полей, стоп-слов и тегов на панели «Каталог» диалогового окна «Настройки».
Часто рекомендуется создать отдельный файл ReadMe и поместить его в папку с индексом. Этот файл ReadMe может предоставить людям подробную информацию о вашем индексе, например:
Тип индексируемых документов.
Поддерживаемые параметры поиска.
Лицо, к которому можно обратиться, или номер телефона, по которому можно задать вопросы.
Список чисел или слов, которые исключаются из индекса.
Список папок, содержащих документы, включенные в индекс на основе локальной сети, или список документов, включенных в индекс на диске. Вы также можете включить краткое описание содержимого каждой папки или документа.
Список значений для каждого документа, если вы присваиваете значения поля информации о документе.
Если в каталоге особенно много документов, рассмотрите возможность включения таблицы, в которой показаны значения, присвоенные каждому документу. Таблица может быть частью вашего файла ReadMe или отдельным документом. Пока вы разрабатываете индекс, вы можете использовать таблицу для обеспечения согласованности.
Вы можете обновить, перестроить или очистить существующий индекс.
Выберите Инструменты > Индекс.
Набор инструментов Index отображается на дополнительной панели инструментов.
На дополнительной панели инструментов нажмите "Полнотекстовый указатель с каталогом".
Отображается диалоговое окно Каталог.
В диалоговом окне "Каталог" нажмите "Открыть индекс".
Найдите и выберите файл определения индекса (PDX) для индекса и нажмите «Открыть».
Если индекс был создан с помощью Acrobat 5.0 или более ранней версии, выберите «Создать копию», чтобы создать новый индекс (без перезаписи предыдущей версии), или выберите «Перезаписать старый индекс», чтобы перезаписать предыдущий индекс.
В диалоговом окне "Определение индекса" внесите необходимые изменения, а затем выберите функцию, которую должен выполнять Acrobat:
Создает новый файл IDX с существующей информацией и обновляет его, добавляя новые записи и помечая измененные или устаревшие записи как недействительные. Если вы вносите большое количество изменений или повторно используете этот параметр вместо создания нового индекса, время поиска может увеличиться.
Создает новый индекс, перезаписывая существующую папку индекса и ее содержимое (файлы IDX).
Удаляет содержимое индекса (файлы IDX) без удаления самого файла индекса (PDX).
Вы можете установить параметры индексирования, которые будут применяться глобально ко всем последующим индексам, которые вы создаете. Вы можете переопределить некоторые из этих настроек для отдельного индекса, выбрав новые параметры в процессе создания индекса.
В диалоговом окне "Настройки" в разделе "Категории" выберите "Каталог". Многие параметры идентичны описанным для процесса построения индекса.
Функция «Принудительная совместимость с ISO 9660 для папок» полезна, если вы не хотите заменять длинные имена файлов PDF на имена файлов MS‑DOS при подготовке документов к индексированию. Однако вы все равно должны использовать соглашения об именах файлов MS‑DOS для имен папок (8 символов или менее), даже если это не обязательно для имен файлов.
Используйте функцию каталога и пакетный файл каталога PDX (.bpdx), чтобы запланировать, когда и как часто автоматически создавать, перестраивать, обновлять и очищать индекс. Файл BPDX — это текстовый файл, содержащий список путей и флагов индексных файлов каталога, зависящих от платформы. Для отображения файла BPDX в Acrobat используется приложение для планирования, например планировщик Windows. Затем Acrobat повторно создает индекс в соответствии с флагами в файле BPDX.
Чтобы использовать файлы BPDX, в диалоговом окне "Настройки" в разделе "Каталог" выберите "Разрешить запуск пакетных файлов каталога (.bpdx)".
Вы можете разработать и протестировать проиндексированную коллекцию документов на локальном жестком диске, а затем переместить готовую коллекцию документов на сетевой сервер или диск. Определение индекса содержит относительные пути между файлом определения индекса (PDX) и папками, содержащими проиндексированные документы. Если эти относительные пути не изменились, вам не нужно перестраивать индекс после перемещения проиндексированной коллекции документов. Если файл PDX и папки, содержащие проиндексированные документы, находятся в одной папке, вы можете сохранить относительный путь, просто переместив эту папку.
Если относительный путь изменится, после перемещения проиндексированной коллекции документов необходимо создать новый индекс. Однако вы по-прежнему можете использовать исходный файл PDX. Чтобы использовать исходный файл PDX, сначала переместите проиндексированные документы. Затем скопируйте файл PDX в папку, в которой вы хотите создать новый индекс, и при необходимости отредактируйте списки включения и исключения каталогов и подкаталогов.
Если индекс находится на диске или томе сервера отдельно от какой-либо части коллекции, к которой он относится, перемещение либо коллекции, либо индекса приводит к поломке индекса. Если вы собираетесь переместить коллекцию документов в другое место в сети или на компакт-диск, создайте и постройте индекс в том же месте, что и коллекция.
Индекс хранит содержимое многих PDF-файлов в компактном виде, удобном для удобного поиска и поиска.
Перейдите к Индексу в разделе Расширенная обработка > Текущий документ и выберите Создать полнотекстовые индексы в раскрывающемся списке, чтобы создать новый индекс или обновить существующий.
Вы можете индексировать PDF-документы, написанные на языках, в которых используются латинские или азиатские символы (китайский, японский или корейский). Вы можете индексировать не только текст документа, но и закладки, комментарии, вложения, цифровые подписи, поля форм, метаданные и другие настраиваемые свойства документа.
Вы можете создать индексный файл из всех PDF-файлов в определенном наборе папок. Перед запуском вы выбираете папку, в которой будет храниться индекс.Индексация выполняется в фоновом режиме. Создается небольшой файл определения индекса с расширением zpi. Это относится к индексным файлам, которые хранятся в автоматически созданной подпапке с тем же именем, что и файл ZPI, с суффиксом _index .
Эти индексы поиска не встроены в файлы PDF; чтобы сделать их доступными для других пользователей, вам придется сохранить их в общем месте. Используйте другую команду в том же раскрывающемся списке, чтобы создать встроенный указатель для одного документа, чтобы он был по-настоящему переносимым.
Подготовка к индексированию
Соберите все PDF-документы для индексации в одну или несколько папок. Если вы просто выбираете существующие папки, убедитесь, что они содержат только файлы PDF, которые вы хотите проиндексировать.
Если вы планируете перенести файлы PDF вместе с их индексом, лучше хранить их в одной папке.
Добавьте свойства документа в документы PDF, чтобы использовать их в качестве критериев поиска.
Используйте Файл > Информация > Изменить свойства. Используйте панель «Описание», чтобы добавить заголовок, тему, автора, базовый URL-адрес и некоторые ключевые слова, описывающие содержимое. Используйте панель «Пользовательские», чтобы добавить настраиваемые поля.
Имейте в виду, что если вы создаете полнотекстовый индекс перед редактированием документа для удаления его конфиденциальной информации, эта информация НЕ удаляется из индекса и может быть легко найдена. Когда редактирование закончено, вам также предлагается удалить элементы документа. Примите предложение и удалите индекс. Мы советуем редактировать и проверять копию документа — это позволит вам сохранить указатель в исходном документе.
Индексирование сотен больших PDF-файлов может потребовать времени и вычислительных ресурсов. Лучше всего делать это во время обеденного перерыва.
Поиск возвращает темы, содержащие введенные вами термины. Если вы введете более одного термина, предполагается операция ИЛИ, которая возвращает темы, в которых найден любой из терминов.
В поиске также используется нечеткое соответствие для учета неполных слов (таких как установка и установка). Результаты отображаются в порядке релевантности в зависимости от того, сколько условий поиска встречается в теме. Точные совпадения выделены.
Чтобы уточнить поиск, вы можете использовать следующие операторы:
- Наберите + перед словами, которые необходимо включить в поиск, или - перед словами, которые нужно исключить. (Пример: пользователь +ярлык –группа находит ярлык и ярлык пользователя, но не группу или группу пользователей.)
- Используйте * в качестве подстановочного знака для отсутствующих символов. Подстановочный знак можно использовать в любом месте поискового запроса. (Пример: inst* находит установку и инструкции.)
- Введите название: в начале поисковой фразы искать только названия тем. (Пример: title:configuration находит тему под названием «Изменение конфигурации программного обеспечения».)
- Для поиска по нескольким терминам можно указать приоритет поисковых запросов. После термина ставится ^ и положительное число, указывающее вес данного термина. Большее число указывает на больший вес. (Пример: группа ярлыков^10 дает ярлыку в 10 раз больше веса, чем группе.)
- Чтобы использовать нечеткий поиск для учета орфографических ошибок, после термина поставьте знак ~ и положительное число для количества исправлений, которые необходимо внести. (Пример: порт~1 соответствует for, post или potr, а также в других случаях, когда одно исправление приводит к совпадению.)
Обратите внимание, что в качестве условия поиска нельзя использовать операторы: + - * : ~ ^ ' "
Индекс хранит содержимое многих PDF-файлов в компактном виде, удобном для удобного поиска и поиска.
Перейдите в раздел «Расширенная обработка» > «Обработка» > «Индекс» и выберите «Создать полнотекстовые индексы» из списка, чтобы создать новый индекс или обновить существующий.
Вы можете индексировать PDF-документы, написанные на языках, в которых используются латинские или азиатские символы (китайский, японский или корейский). Вы можете индексировать не только текст документа, но и закладки, комментарии, вложения, цифровые подписи, поля форм, метаданные и другие настраиваемые свойства документа.
Вы можете создать индексный файл из всех PDF-файлов в определенном наборе папок. Перед запуском выберите папку, в которой будет храниться индекс. Индексация выполняется в фоновом режиме. Создается небольшой файл определения индекса с расширением zpi. Это относится к индексным файлам, которые хранятся в автоматически созданной подпапке с тем же именем, что и файл zpi, с суффиксом _index .
Эти индексы поиска не встроены в файлы PDF; чтобы сделать их доступными для других пользователей, вы должны сохранить их в общей папке. Используйте другую команду в том же списке, чтобы создать встроенный индекс для одного документа, чтобы он был по-настоящему переносимым.
Если файл PDF имеет пароль безопасности, dtSearch может не открыть его, чтобы извлечь текст для индексации.
Файл PDF может иметь пароль безопасности, даже если для его открытия в Adobe Reader пароль не требуется.Например, пароль может препятствовать печати документа, изменению документа, добавлению аннотаций и т. д.
Чтобы узнать, есть ли у PDF-файла пароль безопасности, откройте файл в Adobe Reader и нажмите «Файл» > «Свойства» > «Безопасность». Появится диалоговое окно, в котором будет указано, есть ли у файла пароль. Информацию об индексировании защищенных PDF-файлов см. в разделе Защитные пароли для PDF-файлов.
Файл отчетов dtSearch поврежден, но его можно открыть в Adobe Reader
Adobe Reader и Adobe Acrobat автоматически исправят некоторые проблемы с повреждением файлов в файлах PDF при открытии файла PDF.
Чтобы исправить один PDF-файл, откройте его в Adobe Acrobat и сохраните, выбрав «Файл» > «Сохранить как». Обычно это устраняет любые проблемы в файле, а также оптимизирует файл для более быстрого просмотра. После сохранения PDF-файла в Adobe Acrobat попробуйте снова проиндексировать его в dtSearch.
Чтобы исправить сразу большое количество PDF-файлов, вы можете использовать «Мастер действий» в Adobe Acrobat Professional.
Файл PDF проиндексирован без ошибок, но текст не доступен для поиска
Некоторые файлы PDF содержат только данные изображения или текст, но не содержат информации о кодировке. В любом из этих случаев в файле PDF нет текста, который можно проиндексировать, и для добавления текста в файл PDF требуется OCR. Информацию об инструментах OCR, которые могут добавлять текст в файл PDF, см. в разделе Как использовать dtSearch или dtSearch Web с OCR.
Проверьте, содержит ли файл PDF текст
Некоторые файлы PDF представляют собой не что иное, как оболочку PDF вокруг изображения TIFF без текста в файле. Чтобы узнать, содержит ли файл PDF текст,
<р>1. Откройте файл в Adobe Reader <р>2. Нажмите на текст и попробуйте выделить его мышью <р>3. Если Adobe Reader рисует прямоугольник вместо выделения блоков текста синим цветом, то файл представляет собой изображение без текста.Проверьте, содержит ли PDF-файл допустимую информацию о кодировке
Некоторые файлы PDF содержат текст, но используют кодировку, которая не имеет смысла за пределами файла PDF. Для каждого символа файл PDF содержит встроенную информацию о шрифте, которая описывает, как рисовать файл PDF, но символы не соответствуют кодировке, которую можно использовать для извлечения текста из файла. В результате файл PDF выглядит как обычный документ, но в нем нет осмысленного текста.
Чтобы узнать, содержит ли PDF-файл достоверную информацию о кодировке,
1. Откройте файл в Adobe Reader
<р>2. Нажмите на какой-нибудь текст и выделите его мышью <р>3. Нажмите «Правка» > «Копировать». <р>5. Откройте Блокнот, Microsoft Word или другую программу, которая может принимать вставленный текст. <р>6. Нажмите Правка > Вставить или нажмите Ctrl+VЕсли вы видите что-то похожее на случайные буквы вместо текста, скопированного из файла PDF, в файле PDF отсутствует информация о кодировке.
Авторское право © dtSearch Corp., 1991–2022. Все права защищены. / Условия использования / Конфиденциальность
Читайте также: