Как распознать текст в pdf adobe acrobat
Обновлено: 21.11.2024
Важную информацию об использовании этих информативных методов и о том, как они соотносятся с нормативными критериями успеха WCAG 2.0, см. в разделе Методы понимания критериев успеха WCAG. В разделе «Применимость» объясняется область применения метода, и наличие методов для конкретной технологии не означает, что эту технологию можно использовать во всех ситуациях для создания контента, соответствующего WCAG 2.0.
Применимость
Отсканированные PDF-документы
Этот метод относится к:
Примечания по поддержке пользовательского агента и вспомогательных технологий
Описание
Целью этого метода является обеспечение того, чтобы визуально визуализированный текст был представлен таким образом, чтобы его можно было воспринимать без визуального воздействия на его читабельность.
Документ, состоящий из отсканированных изображений текста, по своей сути недоступен, поскольку документ содержит изображения, а не текст, доступный для поиска. Вспомогательные технологии не могут читать или извлекать слова; пользователи не могут выбирать, редактировать, изменять размер или переформатировать текст, а также изменять цвет текста и фона; и авторы не могут изменять PDF для обеспечения доступности.
По этим причинам авторам следует использовать фактический текст, а не изображения текста, используя инструмент разработки, такой как Microsoft Word или Oracle Open Office, для создания и преобразования контента в PDF.
Если у авторов нет доступа к исходному файлу и инструменту разработки, отсканированные изображения текста можно преобразовать в PDF с помощью оптического распознавания символов (OCR). Затем Adobe Acrobat Pro можно использовать для создания доступного текста.
Примеры
Пример 1. Генерация фактического текста, а не изображений текста с помощью Adobe Acrobat 9 Pro
В этом примере показан Adobe Acrobat Pro. Существуют и другие программные средства, выполняющие аналогичные функции. См. список других программных средств в разделе Средства разработки PDF, обеспечивающие поддержку специальных возможностей.
В этом примере используется простое отсканированное изображение текста на одну страницу. Чтобы обеспечить сохранение фактического текста в документе, выполните следующие действия:
Сканируйте документ с максимально возможным разрешением, чтобы повысить эффективность распознавания текста.
Загрузите отсканированный документ в Acrobat Acrobat Pro. Выберите «Документ» > «Распознавание текста OCR» > «Распознать текст с помощью OCR».
В следующем диалоговом окне выберите переключатель "Все страницы" в разделе "Страницы" (или "Текущая страница", если вы конвертируете только одну страницу), а затем нажмите кнопку "ОК".
В списке "Настройки" выберите "Изменить". В следующем диалоговом окне выберите «Форматированный текст и графика» в раскрывающемся списке «Стиль вывода PDF». Это важно для обеспечения доступности.
В зависимости от разрешения и четкости текста OCR преобразует изображения слов и символов в текст. Текст, который Acrobat Pro не распознает, указан как «подозрительный OCR» или текстовый элемент, который, как подозревает Acrobat, был распознан неправильно.
Чтобы исправить подозреваемых, выберите «Документ» > «Распознавание текста OCR» > «Найти первый подозрительный OCR». Acrobat Pro представляет каждого подозреваемого по одному, что можно исправить с помощью инструментов редактирования Acrobat Pro.
Выберите «Дополнительно» > «Универсальный доступ» > «Добавить теги в документ».
Проверить на доступность: Дополнительно > Специальные возможности > Полная проверка.
Примечание. Кроме того, вы можете использовать Документ > Распознавание текста OCR > Найти все подозрительные OCR, чтобы одновременно отобразить все подозрительные OCR для более быстрого редактирования.
На следующем изображении показан отсканированный одностраничный документ в Adobe Acrobat Pro.
На следующем изображении показано преобразованное содержимое после добавления тегов в документ. Вероятно, потребуется использовать инструмент «Порядок чтения TouchUp» и панель «Теги», чтобы правильно пометить содержимое для предполагаемого окончательного документа. В этом примере изображение спирального переплета книги было помечено при преобразовании. Инструмент TouchUp Reading Order использовался для скрытия изображения в качестве фонового (декоративного) изображения (см. PDF4: Скрытие декоративных изображений с помощью тега Artifact в документах PDF). Названия рецептов были помечены как заголовки первого уровня.
Примечание. Acrobat Pro может автоматически добавлять теги при прогоне файла через OCR.
Adobe Acrobat Pro DC имеет встроенную функцию оптического распознавания символов (OCR), которая распознает большую часть текста и позволяет преобразовывать PDF-файлы, содержащие только изображения, в удобочитаемые. Вы можете распознавать текст несколькими способами. Не забудьте использовать сканирование максимально возможного качества.
Способ 1. Сканирование и инструмент OCR
Инструмент Enhance Scans Tool попытается преобразовать сканы или фотографии бумажных документов в PDF-файлы с выбираемым текстом. Этот инструмент также очистит контраст страницы и сгладит страницы, на которых текст может искривляться из-за книжных переплетов.
Шаг 1. Выберите инструмент сканирования и распознавания
Выберите инструмент «Сканирование и распознавание» на панели инструментов в правой части экрана. Откроется панель инструментов в верхней части экрана.
Шаг 2. Выберите вариант улучшения
Чтобы улучшить качество документа, выберите параметр "Улучшить" на панели инструментов "Улучшение сканирования", затем выберите "Отсканированный документ".
Шаг 3. Распознайте и усовершенствуйте
Установите флажок «Распознать текст», затем нажмите кнопку «Улучшить». После завершения распознавания текста сохраните документ.
Шаг 4. Правильное распознавание текста
Оставаясь в инструменте «Улучшение сканирования», откройте раскрывающийся список «Распознать текст» и выберите «Исправить распознанный текст». Установите флажок «Просмотреть распознанный текст» и просмотрите подозрительный текст, найденный инструментом, при необходимости исправьте его и нажмите «Принять». Сохраните документ.
Шаг 5. Документ Auto Tag
После того, как весь текст будет распознан, перейдите на панель тегов, щелкните правой кнопкой мыши пункт Нет доступных тегов. Выберите опцию «Добавить теги в документ». Функция Auto-Tag попытается интерпретировать ваш документ на основе размера и стиля шрифтов, которые вы использовали. Более крупный и жирный текст обычно распознается как Заголовок 1 и Заголовок 2, даже если они не должны быть заголовками.
Шаг 6. Проверка и обновление тегов документа
Опция автоматической пометки не будет на 100 % правильной. Проверьте и при необходимости обновите теги документа. Сохраните документ.
Способ 2. Инструмент редактирования PDF
Инструмент «Редактировать PDF» не пытается исправить качество сканирования перед распознаванием текста и не дает возможности исправить распознанный текст.
Шаг 1. Выберите инструмент «Редактировать PDF»
Выберите инструмент «Редактировать PDF» на панели инструментов в правой части экрана.
Acrobat Pro автоматически запустит распознавание текста в вашем документе. После завершения сканирования вы сможете редактировать и выделять большую часть текста в документе. Не забудьте сохранить документ.
Если вы не можете выделить весь текст, определите, является ли текст изображением или нет. Некоторые изображения текста или рукописного текста могут не распознаваться OCR.
Мы не рекомендуем использовать изображения текста, потому что текст, встроенный в изображения, не может быть воспроизведен вспомогательными технологиями, такими как программы чтения с экрана. В то же время изображения текста создают проблему для мобильных устройств, поскольку изображения текста могут искажаться и становиться неразборчивыми при открытии на мобильном устройстве или планшете. Вы можете попробовать Enhance Scan в качестве еще одного варианта OCR. Короткий раздел рукописного ввода, как и подписи, может быть помечен как рисунок и снабжен альтернативным текстом с соответствующим текстом. Для более длинных рукописных документов рассмотрите возможность повторного ввода текста в новый документ.
Шаг 2. Документ Auto Tag
После того, как весь текст будет распознан, перейдите на панель тегов, щелкните правой кнопкой мыши пункт Нет доступных тегов. Выберите опцию «Добавить теги в документ». Функция Auto-Tag попытается интерпретировать ваш документ на основе размера и стиля шрифтов, которые вы использовали. Более крупный и жирный текст обычно распознается как Заголовок 1 и Заголовок 2, даже если они не должны быть заголовками.
Шаг 3. Проверьте и обновите теги документа
Опция автоматической пометки не будет на 100 % правильной. Проверьте и при необходимости обновите теги документа. Сохраните документ.
Оптическое распознавание символов обеспечивает почти автоматические средства оцифровки текста с отсканированных страниц, устраняя необходимость их повторного набора. Adobe Acrobat Professional включает возможности оптического распознавания символов, которые позволяют сохранять отсканированные результаты непосредственно в форматах Rich Text Format или в форматах файлов Microsoft Word DOC и DOCX. Если вы открываете документ в Acrobat Professional, но программа отказывается распознавать текст, который четко виден на странице, проверьте исходный файл на наличие некоторых распространенных проблем, которые могут вызвать проблемы с распознаванием текста.
Живой текст
Возможно, наименее очевидной причиной сбоев OCR в Acrobat Professional является попытка оцифровать страницу, которая уже содержит живой текст. Если вам абсолютно необходимо запустить OCR для текста, который вы можете скопировать в буфер обмена и вставить в текстовый процессор или экспортировать из Acrobat непосредственно в формат текстового процессора, вы должны сначала преобразовать живой текст вашего файла в пиксели. В противном случае вы увидите сообщение об ошибке, сообщающее о сбое распознавания.
Искаженный или размытый источник
Отсканированные изображения с низким разрешением (менее 150 пикселей на дюйм) представляют собой плохой исходный материал для возможностей OCR Acrobat Professional, а также для других программ OCR. Точно так же, если ваши сканы получаются кривыми, вероятность получения хороших результатов снижается. Исправление проблем с низким разрешением обычно требует повторного сканирования источника с более высоким значением ppi, предпочтительно 300 ppi. Если вы сканируете отпечатанные страницы на графическом сканере без устройства подачи документов, найдите время, чтобы правильно расположить бумагу на стекле сканера, или откройте отсканированные изображения в программе, которая может помочь вам выровнять их, например в Adobe Photoshop.< /p>
Оригинал низкого качества
Хотя сканы с высоким разрешением улучшают результаты оптического распознавания символов, предоставляя Acrobat Professional исходный материал лучшего качества, старая поговорка "мусор на входе и мусор на выходе" применима, когда исходный документ имеет низкое качество. Отсканированные материалы, отправленные по факсу, и распечатки с микрофильмов или микрофиш-принтеров могут привести к худшим результатам оптического распознавания символов. Если такие источники являются вашей единственной формой ввода, запланируйте время, необходимое для исправления вывода OCR или перепечатайте текст, если он короткий.
Формы и графика
Оптическое распознавание символов работает лучше всего, когда вы представляете его четкими, непрерывными строками текста в столбцах на всю страницу. Если ваш исходный материал содержит текст в рамках, например формат в форме, или большое количество графического материала, качество оптического распознавания символов может снизиться, так как программное обеспечение изо всех сил пытается отличить текст от нетекстового материала. В крайних случаях вы можете сделать копию формы и очистить некоторые поля и строки, прежде чем пытаться отсканировать и распознать ее содержимое.
Элизабет Мотт работает писателем с 1983 года. У Мотт большой опыт написания рекламных текстов для всего: от кухонной техники и финансовых услуг до образования и туризма. Она имеет степень бакалавра искусств и магистра искусств по английскому языку Университета штата Индиана.
Многие люди до сих пор не знают, как сделать Adobe PDF доступным для поиска. Adobe, без сомнения, является одним из самых популярных инструментов для работы с PDF, однако подавляющему большинству пользователей по-прежнему сложно сделать Adobe PDF доступным для поиска. Если вы столкнулись с этой проблемой, эта статья содержит пошаговое руководство о том, как сделать файл PDF доступным для поиска в Adobe Acrobat.
Как сделать PDF доступным для поиска в Adobe Acrobat
Шаг 1. Откройте файл PDF с помощью Adobe Acrobat.
Шаг 2. В левой панели окна нажмите «Улучшить PDF», и кнопка «Улучшить» будет закреплена под строкой меню.
Шаг 3. Нажмите раскрывающийся значок «Улучшить» и выберите «Отсканированный документ». Нажмите на значок раскрывающегося списка "Страницы" и выберите "Все страницы".
Шаг 4. Нажмите «Улучшить», чтобы активировать распознавание PDF. После завершения процесса вы можете искать любой текст.
Как сделать PDF доступным для поиска в альтернативе Adobe Acrobat
Wondershare PDFelement — PDF Editor — это лучшее универсальное программное обеспечение для работы с файлами PDF, которым пользуются миллионы пользователей по всему миру. Удивительный набор функций ставит его на много впереди других инструментов аналогичного назначения. С помощью PDFelement пользователи могут создавать, конвертировать, редактировать, комментировать, выполнять распознавание символов, сжимать, создавать формы, подписывать, устанавливать пароли и обмениваться PDF-файлами на одной платформе.
Шаг 1. Загрузите PDFelement
Запустите PDFelement на своем ПК, чтобы открыть главное окно. Перейдите в нижний левый угол этого окна и нажмите кнопку «Открыть PDF», чтобы открыть окно каталога файлов. Выберите интересующий PDF-файл и нажмите «Открыть», чтобы импортировать его в основной интерфейс.
Шаг 2. Включите OCR
Когда файл успешно загружен, программа обнаружит, что файл требует оптического распознавания символов. Просто нажмите ссылку «Выполнить распознавание» в синем уведомлении в верхней части страницы. Затем вам будет предложено загрузить компонент OCR, прежде чем продолжить. Нажмите кнопку «Нажмите для загрузки» во всплывающем окне «Загрузка компонента OCR».
После успешного добавления компонента OCR перейдите на вкладку «Преобразовать» и нажмите кнопку «OCR» в раскрывающемся списке. Снова нажмите кнопку «Выполнить распознавание» по ссылке, чтобы перейти в окно «Распознавание».
Шаг 3. Сделайте PDF доступным для поиска
Выберите «Текстовое изображение с возможностью поиска» в окне OCR и нажмите «ОК», чтобы разрешить программе запустить процесс распознавания PDF. После завершения процесса вы можете выполнить поиск содержимого файла PDF.
Читайте также: