Как изменить текст в abbyy FineReader
Обновлено: 21.11.2024
ABBY FineReader — это эффективное программное обеспечение для работы с файлами PDF и редактор, который позволяет легко открывать файлы PDF. Этот инструмент сочетает в себе функции редактирования PDF и оптического чтения символов (OCR). Он имеет отличное сочетание функций управления документами, OCR и PDF, и он отлично интегрирует эти функции. Это программное обеспечение PDF может автоматически распознавать и обрабатывать документы с любой комбинацией ста девяноста языков и предлагает полную словарную поддержку для сорока восьми языков. Судя по обзору ABBY FineReader, он доступен для устройств Windows и Mac.
Соотношение цены и качества
Начиная с: 199 долларов США
Модель ценообразования: один раз
Да, есть бесплатная пробная версия
Бесплатной версии нет
- Прост в использовании.
- Интуитивно понятный интерфейс.
- Его функция OCR упрощает поиск по всем документам
- Документы можно легко преобразовать практически в любой формат. PDF-файлы легко конвертируются в редактируемые форматы и обратно.
- Документы можно экспортировать из системы в любом формате.
- OCR автоматически индексирует и классифицирует документы
- Поддерживает множество языков
- Он интегрирован с известными облачными сервисами.
- Вам довольно сложно обновить это программное обеспечение PDF на ПК.
- В нем отсутствует полнотекстовое индексирование для быстрого поиска.
- Достаточно дорого для компаний с небольшим количеством оцифровываемых документов.
- В нем нет функции управления версиями, позволяющей пользователям просматривать историю изменений, внесенных в документ.
- Малый бизнес
- Средний бизнес
- Крупные предприятия
- Стартапы
- Некоммерческая организация
- Фрилансеры
- Компьютер – Mac
- Рабочий стол — Windows
- Локально — Windows
- Мобильный – Android
- Мобильный – iPhone
- Мобильные – iPad
ABBYY FineReader — программа для работы с файлами PDF
ABBYY FineReader — это отличное программное обеспечение для работы с файлами PDF и приложение для оптического распознавания символов (OCR), созданное ABBYY. Вы можете использовать этот инструмент для открытия PDF-файлов, загрузки PDF-файлов, и он имеет функции редактирования PDF-файлов. Они выпустили первую версию ABBY FineReader в 1993 году.
Этот инструмент позволяет преобразовывать фотодокументы и снимки экрана в редактируемые форматы файлов, такие как файлы Microsoft Excel, Microsoft Word, PDF/A, Microsoft PowerPoint, Rich Text Format, HTML, PDF с возможностью поиска, CSV и txt (обычный текст).
Одиннадцатую версию ABBY FineReader можно сохранить в формате DjVu. Пятнадцатая версия поддерживает распознавание текста на 192 языках и имеет встроенную проверку орфографии для сорока восьми. Кроме того, ABBY FineReader распознает новые символы путем обучения символов, чтобы они добавлялись в алфавит распознавания.
Выбор дополнительных символов из списка, включение их в алфавит определенного языка (например, включение определенных исландских символов в немецкий алфавит для немецкого текста, описывающего Исландию), и добавление доменной лексики во встроенную программу FineReader. в лексиконе.
Этот инструмент также позволяет пользователям сравнивать документы, добавлять комментарии и аннотации, а также планировать пакетную обработку. Более того, ABBYY FineReader имеет разные версии для операционных систем Mac и Windows.
Для чего используется ABBYY FineReader?
ABBYY FineReader — это система оптического распознавания символов (OCR). Люди могут использовать его для преобразования документов PDF, отсканированных документов и документов с изображениями (например, цифровых изображений) в доступные для поиска или редактирования документы. ABBYY FineReader — это отличная система распознавания текста для управления документами, которую вы можете использовать для загрузки PDF-файлов. Помимо распознавания символов, ABBYY FineReader умеет распознавать таблицы и фотодиаграммы, а также разборчиво и правильно их оцифровывать.
Продукты ABBYY FineReader
Вы всегда хотели инструмент, который можно использовать как программу для чтения и редактирования PDF-файлов? Если у вас есть, то вы должны продолжать читать. Помимо редактора PDF, ABBYY FineReader предлагает ряд других продуктов, которые могут быть полезны вам или вашему бизнесу:
ABBYY Преимущество
Это первая облачная платформа интеллектуальной обработки документов, которая применяет искусственный интеллект для быстрого и простого понимания ваших документов.
Хронология ABBYY
Это решение для анализа процессов позволяет компаниям использовать информацию, содержащуюся в их системах, для создания визуальной модели своих процессов, анализа их в режиме реального времени для поиска узких мест и прогнозирования будущих результатов.
FlexiCapture
Этот продукт может выполнять высокомасштабируемый и универсальный сбор данных. Это платформа обработки документов и форм для различных организаций.
FlexiCapture для счетов
Это готовый к использованию продукт для автоматизации работы с кредиторской задолженностью, который позволяет организациям по всему миру значительно повысить производительность своих процессов AP.
Сервер ABBYY FineReader
Это эффективная серверная служба OCR, используемая для автоматического ввода документов и программного обеспечения для преобразования PDF.
Движок ABBYY FineReader
Это отличный SDK OCR для объединения современных технологий ABBYY OBR, OMR, ICR, визуализации документов и преобразования PDF в различные приложения для МФУ, мобильных устройств, настольных компьютеров, серверов или серверных приложений.
Захват мобильных веб-страниц
Это SDK на основе JavaScript, который вы можете подключить к своим процессам регистрации, чтобы автоматически захватывать любой документ с помощью мобильной камеры на веб-странице. Поэтому все, что вам нужно сделать, это навести камеру вашего устройства на документ и позволить Mobile Web Capture делать все.
Съемка с мобильных устройств
SDK позволяет создавать отличные возможности самообслуживания клиентов с автоматическим сбором данных в мобильном приложении, предлагая распознавание в реальном времени и захват изображений документов для внутренней обработки.
Превосходное распознавание текста
Это автоматизированная облачная служба OCR, которая превращает документы в полезный, структурированный и готовый к обработке контент.
SDK FlexiCapture
С помощью этого продукта вы можете легко объединять сбор данных с приложениями, сохраняя полный контроль над маршрутизацией документов, извлеченными данными и обработкой документов.
Облачный API FlexiCapture
Этот продукт позволяет системным интеграторам, независимым поставщикам программного обеспечения и корпоративным клиентам беспрепятственно встраивать FlexiCapture в качестве облачной службы сбора данных в свои системы.
PDF для Windows
Этот инструмент позволяет легко работать с документами в цифровом офисе. Вы можете легко сотрудничать, делиться, защищать, редактировать, извлекать и оцифровывать документы.
PDF для Mac®
Это мощная современная программа распознавания текста для macOS®, позволяющая преобразовывать бумажные документы, PDF-файлы и фотографии в редактируемые документы с возможностью поиска.
Считыватель скриншотов
Вы можете использовать этот инструмент для захвата таблиц и текстов без повторного ввода.
Мобильные приложения
Вы можете использовать этот инструмент для немедленного захвата, сканирования и перевода.
Возможности ABBYY FineReader
Теперь давайте познакомимся с некоторыми функциями, которые этот инструмент предоставляет своим пользователям:
Горячая папка
Горячая папка ABBYY FineReader позволяет автоматически конвертировать до пяти тысяч страниц документов каждый месяц. Функция Hot Folder помогает автоматически преобразовывать документы в этой папке, пока пользователь концентрируется на других задачах.
Обработка изображений и оптическое распознавание символов
Эта функция обеспечивает точную и подробную контекстуализацию и сбор данных. Помимо текстовых символов, функция OCR FineReader захватывает фотографии, таблицы, диаграммы и другие медиафайлы. Сразу же текст импортируется в систему и автоматически классифицируется на основе содержимого, проанализированного OCR.
Редактирование
С помощью этой функции пользователи могут выбирать разделы текста для редактирования, что делает ее важной для конфиденциальных файлов, таких как юридические документы.
Редактирование PDF
Эта функция ABBYY FineReader позволяет пользователям изменять текст PDF-файлов или заполнять формы в цифровом виде.
Преобразование документов
С помощью этой функции вы можете выполнять внутреннее преобразование типов файлов между документами Excel, PDF, Word и другими форматами файлов.
Поиск
Хорошо, ABBY FineReader, загруженные документы классифицируются и индексируются с помощью функции OCR, и они мгновенно становятся доступными для поиска. Функция поиска позволяет пользователям выделять в документе все экземпляры, в которых встречается фраза или ключевое слово.
Цены на ABBYY FineReader
У ABBYY FineReader есть тарифные планы для стандартной и корпоративной версий. У каждого есть бессрочная лицензия для пользователя, которая не требует ежегодного продления. Ниже приведены подробные сведения о каждом тарифном плане:
Стандартный тарифный план
Этот тарифный план стоит 199,99 долларов США.Он позволяет редактировать и комментировать PDF-файлы, а также использовать его для преобразования PDF-файлов и отсканированных документов.
Корпоративный тарифный план
Корпоративный тарифный план стоит 399,99 долл. США и обладает всеми функциями стандартного тарифного плана, включая возможность сравнения документов и автоматического преобразования пяти тысяч страниц файлов ежемесячно в Hot Folder.
Корпоративное лицензирование
Для организаций, которым требуется большое количество лицензий для ABBYY FineReader, корпоративное лицензирование предоставляет несколько видов лицензий, оптовые скидки, развертывание и внедрение, подходящие для различных ролей в вашей компании. Чтобы узнать стоимость этого плана, вам нужно будет связаться с ABBYY, чтобы узнать цену.
Среди других различных систем управления документами ABBYY FineReader — единственное программное обеспечение для работы с файлами PDF, которое взимает единовременную бессрочную лицензионную плату без дополнительного годового программного обеспечения и подписки на поддержку для продления.
Альтернативы ABBYY FineReader
ABBY FineReader — не единственный инструмент для загрузки и редактирования PDF-файлов. У него есть много других альтернатив, которые вы могли бы рассмотреть, если вас не устраивают функции ABBY FineReader. Вот другие лучшие альтернативы ABBY FineReader, которые имеют те же функции и возможности, что и ABBY FineReader:
Нанонет OCR
Nanonets – это популярная альтернатива ABBY FineReader, в которой используются сложные методы глубокого обучения и обучения распознаванию символов для извлечения важных сведений из неструктурированных документов и текста. С помощью Nanonets вы можете извлекать поля данных, оцифровывать документы и интегрировать свои повседневные приложения через API в простом и интуитивно понятном интерфейсе.
Вы также можете отказаться от ручных процессов и автоматизировать проверку документов, квитанций и счетов. Это позволяет сократить время обработки до девяноста процентов и сократить расходы до пятидесяти процентов. Этот инструмент подходит для малого и среднего бизнеса, предприятий и организаций, которые ищут способы автоматизации ручного процесса. Цены Nanonets OCR начинаются с 499 долларов США в зависимости от использования каждый месяц. У него есть бесплатная версия и бесплатная пробная версия.
Гипатос
Инструмент глубокого обучения Hypatos автоматизирует расширенные бэк-офисные процессы на основе документов, обеспечивая значительный прирост эффективности. Ручная обработка документов является важным фактором затрат в организациях. С помощью этого инструмента люди могут собирать точки данных из документов; они могут выполнять проверки и автоматизировать процессы.
Это решение для глубокого обучения идеально подходит для частных лиц, которые хотят улучшить свои проекты RPA, предприятий, стремящихся к автоматизации бэк-офиса, и консультационных проектов, которым требуется автоматизация обработки документов с помощью искусственного интеллекта. Цены на Hypatos начинаются с 500 долларов в месяц. У него есть бесплатная пробная версия и бесплатная версия.
PDFTron SDK
Это еще одна альтернатива ABBY FineReader. Это самый обширный MS Office и PDF SDK. Кроме того, он был создан собственными силами для предоставления правильного и надежного обслуживания вашего цифрового контента независимо от его размера или сложности. Он работает с вашими целями, поскольку его API-интерфейсы включают функции CAD, MS Office и видео-сотрудничества для вашего приложения в Интернете, iOS, Android, Linux, Mac OS и Windows.
PDFTron SDK позволяет просматривать, редактировать, создавать, комментировать и генерировать PDF-файлы в любом мобильном, серверном или настольном веб-приложении. Это программное обеспечение является международным поставщиком высокопроизводительных технологий обработки документов, обслуживающим тысячи клиентов в различных отраслях. PDFTron SDK предлагает бесплатную пробную версию, но у них нет бесплатной версии.
Veryfi OCR API и SDK
Veryfi API (+ Camera SDK) преобразуют неструктурированные данные (квитанции, счета, счета-фактуры и т. д.) в структурированные данные (с позициями) за несколько секунд с помощью сквозных машин. Кроме того, технология Veryfis не требует ни обучения, ни участия людей, ни шаблонов.
Каждый документ обрабатывается в режиме реального времени с использованием предварительно обученных машинных моделей Veryfis, что обеспечивает мгновенное окупаемость. Миссия Veryfis — спасти человечество от ручного бэк-офисного труда. Veryfi отлично подходит для поставщиков программного обеспечения: тех, кому нужны лучшие в своем классе компании по управлению расходами, AP/Bill Pay и CPG Loyalty, финансовые отделы и разработчики программного обеспечения. У него есть бесплатная пробная версия и бесплатная версия.
ABBYY FineReader и Adobe Acrobat
ABBYY FineReader позволяет экспертам максимально эффективно работать в цифровом пространстве. Текущая технология оптического распознавания символов ABBYY на основе искусственного интеллекта позволяет пользователям легко редактировать, оцифровывать, извлекать, защищать, совместно использовать и совместно работать над различными документами в рамках одного рабочего процесса. Он поддерживает приложения для Windows, Android, приложения для iPhone и работает в Интернете.Кроме того, чат и электронная почта/справочная служба являются вариантами поддержки.
Adobe Acrobat — это программа для редактирования PDF-файлов, с помощью которой можно создавать, конвертировать PDF-документы и делиться ими. Он может конвертировать документы в форматах Microsoft Office в PDF-файлы и наоборот. Кроме того, Adobe Acrobat предоставляет инструменты для удаленной совместной работы, такие как электронные подписи, отслеживание прогресса, комментирование и другие.
С помощью бесплатного мобильного приложения Adobe Acrobat вы можете легко просматривать, комментировать и подписывать PDF-файлы. Он поддерживает следующие платформы: приложение для Windows, приложение для Android, приложение для iPhone и веб-приложение. Его варианты поддержки - чат и электронная почта / служба поддержки. Стоимость ABBY FineReader начинается от 199,99 долларов США за разовое использование. У него есть бесплатная пробная версия. Цены на Adobe Acrobat начинаются с 12,99 долларов США в месяц. И у него есть бесплатная пробная версия и подписка.
Выводы по обзору ABBYY FineReader
ABBYY FineReader — это приложение для оптического распознавания символов (OCR) с функциями редактирования PDF. Программа работает под Microsoft Windows 7 и Apple macOS 10.12 Sierra. Это программное обеспечение PDF позволяет преобразовывать документы с изображениями, такие как изображения, сканированные файлы PDF и снимки экрана, в редактируемые форматы файлов, такие как Microsoft Excel, Rich Text Format, Microsoft Word, Microsoft PowerPoint, HTML, PDF/A, PDF с возможностью поиска, CSV, и txt (простой текст) файлы. Судя по обзору ABBY FineReader, его тарифные планы вполне доступны. У него есть бесплатная пробная версия. Имеет два тарифных плана. Его стандартный план начинается с 199,99 долларов США, а корпоративный план стоит 399,99 долларов США. ABBY FineReader — одно из лучших программ для загрузки, редактирования, подписи и управления документами в формате PDF.
Поиск по всему документу, включая комментарии, верхние и нижние колонтитулы и даже метаданные.
Доступно для FineReader PDF для Windows
Как выполнять поиск в файлах PDF
и управлять результатами
- Откройте документ PDF в редакторе PDF.
- Нажмите на вкладку "Поиск" в виде увеличительного стекла, расположенную на темно-синей панели в левой части экрана, или нажмите "Просмотр" и выберите "Поиск" в раскрывающемся меню.
- В текстовом поле введите слово или фразу, которую нужно найти.
- Отображаемые результаты поиска будут упорядочены по группам (по источнику: текст, комментарии или закладки) для удобства просмотра и сортировки.
- Выделите, зачеркните или подчеркните результаты поиска непосредственно в тексте документа.
- Используйте вкладку "Заменить", чтобы заменить слова из отображаемых поисковых запросов замещающим текстом, и нажмите "Заменить".
- Используйте вкладку «Редактировать», чтобы отметить одно слово или фразу для редактирования во всем документе (включая метаданные) или в списке слов и фраз. Одним нажатием кнопки «Редактировать» выбранные слова или фразы будут заменены черными прямоугольниками, что сделает невозможным восстановление содержимого.
- Сохранить изменения.
Поиск по тексту в файлах PDF
Ищите слово с помощью панели поиска, сортируйте целые документы, включая комментарии, верхние и нижние колонтитулы и даже метаданные, чтобы быстро найти определенные ключевые слова или фразы. Благодаря распознаванию в фоновом режиме все документы (включая отсканированные документы) мгновенно становятся доступными для поиска при открытии.
Удобная навигация по результатам поиска
Результаты поиска по ключевым словам выделены и хорошо видны по всему документу. Просматривайте, сортируйте и редактируйте список найденных результатов, отображаемых на отдельной панели, а также выделяйте, зачеркивайте или подчеркивайте результаты поиска непосредственно в тексте.
Заменить текст в файлах PDF
Быстро обновляйте содержимое PDF-файлов, не просматривая несколько PDF-файлов страница за страницей. Используйте вкладку поиска, чтобы найти ключевые слова и фразы и заменить их с помощью вкладки "Заменить".
Редактировать текст в файлах PDF
Проверьте документы PDF на наличие конфиденциальной информации, которая может содержаться, прежде чем делиться ими или публиковать их с помощью функции поиска. Выделите найденные ключевые слова для редактирования сразу из всего документа или создайте и используйте список ключевых слов. Отредактированная информация становится недоступной и заменяется черными прямоугольниками или звездочками внутри самого документа, что не дает результатов при повторном поиске. Копирование или иное извлечение отредактированной информации будет невозможно.
См. также
Как сравнивать документы
Как создавать PDF-формы
Как редактировать файлы PDF
Все функции
Опробуйте ABBYY FineReader PDF
ABBYY является полноправным членом
Ассоциации PDF с 2007 года.
- Щелкните правой кнопкой мыши файл PDF с именем «InterAmerican.pdf», выберите «Открыть с помощью ABBYY FineReader 14».
- Нажмите раскрывающийся список «Распознать текст» и выберите «Открыть в редакторе OCR». ол>р>
- После завершения процесса оптического распознавания символов мы можем сравнить исходный документ с текстовой версией.
- ABBYY выделяет потенциальные ошибки синим цветом. Мы можем вручную исправить или отредактировать текстовые данные перед сохранением/экспортом для повышения качества.
- ABBYY предоставляет встроенный редактор изображений для исправления сканов, повышая читаемость текста.
- Функция по умолчанию пытается интеллектуально исправить изображение, чтобы механизм OCR мог легче распознавать текст. Вы также можете редактировать сканы вручную.
- Щелкните правой кнопкой мыши файл PDF с именем «PlantPestsCT.pdf» и выберите «Открыть с помощью ABBYY FineReader 14».
- Нажмите раскрывающийся список «Распознать текст» и выберите «Открыть в редакторе OCR».
- Вы увидите, что качество распознанного текста очень низкое. Мы можем использовать встроенные инструменты редактирования изображений, чтобы повысить точность распознавания текста.
- Нажмите «Редактор изображений». Это откроет новый интерфейс в ABBYY для редактирования изображений с целью улучшения качества оптического распознавания символов.
- Есть несколько задач, которые мы можем решить, чтобы улучшить качество распознавания:
- Вырезать ненужные функции.
- Изменить цвет фона на белый
- Увеличить контрастность или яркость
- устранить перекос слов/строк
- Удалить шум и метки
- Редактировать можно одну страницу, четные или нечетные страницы, или все страницы.
- Выберите страницу 2 и нарисуйте зеленую текстовую рамку вокруг основного блока текста.
- Нажмите правой кнопкой мыши на любое существующее зеленое текстовое поле и выберите "Удалить". Эти поля содержат номера страниц, водяные знаки и другой текст, который мы не хотим включать (обратите внимание, что при этом также будут игнорироваться любые изображения на странице).
- Выберите «Область» в верхнем меню и выберите «Сохранить шаблон области».
- Назовите шаблон «trees_even.blk» и сохраните.
- Теперь выберите страницу 3 и повторите шаги 1 и 2 выше.
- Назовите шаблон «trees_odd.blk».
- На панели инструментов "Страницы" нажмите на три точки, "Выбрать страницы", а затем "Четные страницы".
- Выделив четные страницы, выберите «Область» в верхнем меню, выберите «Загрузить шаблон области» и выберите «trees_even.blk».
- Повторите шаги 4 и 5, используя нечетные страницы и нечетный шаблон.
- Снова «распознайте» текст и посмотрите, как изменится вывод. ол>р>
- быстро,
- без преобразования документа,
- с помощью одной программы.
Просмотр вывода OCR
Потратьте несколько минут на исправление и проверку выделенного текста вручную.
Улучшение качества оптического распознавания текста
Использование редактора изображений
Создание шаблонов
Шаблоны областей позволяют нам идентифицировать все текстовые поля на одной странице и применять идентичный макет к другим страницам. Мы даже можем сохранить эти шаблоны для использования в других проектах ABBYY.
Создать шаблон области
Сегодня мы обновили ABBYY FineReader 15 и выпустили его под торговой маркой ABBYY FineReader PDF, поскольку он объединяет в себе все инструменты для работы с PDF. По этому поводу мы публикуем первый пост из серии материалов об особенностях программы. В ней мы расскажем об одной интересной возможности, которая была в программе несколько месяцев, но, возможно, о ней знали не все.
Как долго вы открывали PDF-файлы? Спорим, что недавно. Скорее всего, у вас на компьютере обязательно будет парочка сканов, а может быть еще и макет презентации, аналитическое исследование или техническая инструкция. Какие задачи обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в формате PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят исправления в файл, исправляют ошибки и опечатки.
Даже сейчас не все знают, что в PDF можно редактировать текст. Да, изменение таких файлов не работает, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро вносить изменения прямо в PDF, без утомительного преобразования файла в другие форматы. При редактировании текст в PDF плавно перетекает из строки в строку, как в MS Word. Вы можете добавлять или удалять несколько слов, изменять целые абзацы или даже менять их местами.
В этом посте мы раскроем технические детали редактирования многострочных текстовых фрагментов в FineReader: как мы изменили движок программы, как устроено редактирование изнутри и как оно выглядит для пользователя. Идти!
Формат PDF используется во всем мире: его содержимое одинаково отображается на любых компьютерах, смартфонах и планшетах с разными операционными системами.Это удобно и помогает избежать неловких ситуаций. Например, когда вы написали текст в MS Word, отправили его своим коллегам, а они открывают его в LibreOffice или Wordpad, и все пошло и начинается самое интересное. PDF, конечно, в этом плане удобнее, а вот с текстом тут все сложно. 70 % всех существующих PDF-документов содержат текст, а 30 % — нет, потому что это изображения.
Давайте сначала поговорим о PDF, в котором находится текст. Чтобы редактировать PDF, нужно понимать, как в нем написан текст. Вы когда-нибудь открывали PDF в блокноте? Если да, то вы видели это:
Для того, чтобы все это наглядно отображалось для пользователя, нужно проделать большую работу.
Задание: понять pdf
Содержимое каждой страницы в файле PDF хранится в виде потоков команд для рисования документа — это может быть текст, изображения или векторная графика. Структура файла определяется объектами PDF, например, страница, картинка, комментарий (а абзацы, строки текста и буквы — это всего лишь части объекта). Символ в PDF представлен глифом. Способ их записи определяется шрифтом. Каждый символ хранится отдельно: у него есть шрифт, код символа в шрифте и координаты его расположения на странице. Расположение глифов определяется именно потоком команд. Кроме того, буквы объединяются в текстовые потоки (text run), но они не смысловые.
В PDF нет строк или абзацев, которые есть в текстовых документах. Даже порядок текста не всегда определен. То есть вы видите текст, но на самом деле текста нет. Это хаос из сложных для понимания инструкций (как на картинке выше), которые нужно корректно отображать в конкретных местах документа, с соответствующим форматированием.
"А как насчет текста?" – спросите вы.
Текст в PDF существует, и его даже можно редактировать. Для этого мы учим нашу технологию понимать структуру текста, например, определять и выделять строки. Мы расскажем вам об этом подробнее.
Библиотеки PDF и как мы их изменили
Чтобы сделать возможным редактирование целых абзацев, мы радикально изменили нашу внутреннюю подсистему (библиотеку), которую мы называем PdfTools. Он занимается открытием PDF-файлов, парсингом потоков команд (т. е. понимает, где находится текст, где находятся изображения, и воссоздает структуру документа) и помогает пользователям манипулировать этими данными: читать, изменять, сохранять в PDF. р>
Подсистема PdfTools содержит все необходимые инструменты для чтения содержимого и его оборачивания в объекты (страница, картинка, комментарий), с которыми удобно работать программе. Наши продукты уже умеют работать с этими объектами, в частности ABBYY FineReader PDF и другие.
Как это было раньше. В FineReader 14 мы знали, как редактировать текст только в пределах одной строки. После редактирования необходимо было выполнить «рендеринг» — расставить глифы на новых местах.
Вообще, рендеринг — это визуализация. Но мы вкладываем в это слово другое понятие — расположение объектов в PDF на своих местах. Для профессионалов PDF это визуализация, которую никто не видит. Когда мы говорим о визуализации в обычном смысле, мы используем слово «растеризация».
Весь процесс находился в подсистеме PdfTools. Она помогла нам поместить содержимое PDF в строки и отредактировать их. Например, вы должны поставить на 5-м месте глиф «А». FineReader сообщил подсистеме PdfTools, что на пятое место нужно поставить глиф «А» с заданным размером и шрифтом, а PdfTools вставил «А» и переместил на нужное место в строке все глифы, следующие за буквой «А». Построчное редактирование осуществляется достаточно легко: текст просто сдвигается вправо или, например, влево, если он написан на иврите или арабском языке. Это позволяло вносить мелкие исправления, например, исправить опечатку, но не давало возможности внести более глобальные изменения в текст PDF-документа.
Что они решили изменить. Когда появилась задача многострочного редактирования, мы поняли, что сделать это в рамках одной библиотеки PdfTools будет проблематично. Нам нужно было научиться автоматически находить более крупные фрагменты в PDF-тексте, например, «видеть» абзацы, понимать, где их границы, какое форматирование должен иметь весь фрагмент текста и что происходит при переходе с одной строки на другую. Чтобы определить все эти параметры, мы решили использовать другие наши технологии OCR — Document Analysis (DA) и Synthesis, которые могут построить структуру документа, чтобы решить эту проблему.
Анализ и синтез документов
Для определения блоков в тексте ABBYY FineReader PDF использует технологию Document Analysis. Позволяет находить абзацы, таблицы, картинки. Программа выделяет найденные блоки небольшими бледными рамками, чтобы пользователю было удобнее вносить изменения:
Далее мы улучшили еще одну подсистему нашей программы – Синтез. Мы уже рассказывали на Хабре, зачем это нужно. Короче говоря, он определяет структуру и все характеристики распознаваемого текста: какие шрифты и размеры используются, какой стиль (жирный, курсив, подчеркивание), где заголовки, списки, отступы и многие другие параметры, которые можно настроить в том же МС Ворд. Мы модифицировали Synthesis, чтобы при распознавании и пересоздании страницы очень точно восстанавливались исходные параметры текста.
Функции подчеркнутого текста
В PDF нет текстового атрибута, такого как подчеркивание, знакомого, например, пользователям MS Word. Подчеркивание в PDF — это векторная графика, которая не имеет ничего общего с текстом. Без дальнейшего развития продукта при редактировании «подчеркнутого» текста символы перемещались бы обычным образом, а строки, обозначающие подчеркивание, оставались бы на месте. ABBYY FineReader PDF может определять и редактировать подчеркнутый текст привычным для пользователя способом.
Редактирование таблиц в PDF
Редактирование таблиц также изменилось. Раньше программа «видела» таблицу отдельными строками и точно так же редактировала ее. Теперь при работе с таблицами ABBYY FineReader PDF определяет содержимое каждой ячейки, умеет извлекать из них текст и работать с ним. Это удобно, когда нужно исправить ошибку в цифре, поменять точку на точку с запятой и при этом сохранить структуру таблицы, сделать это быстро и без конвертации документа PDF в другие форматы.
Как редактировать скан?
Многострочное редактирование также доступно для сканов. Кстати, пользователю даже не нужно думать о том, скан перед ним или нет. ABBYY FineReader PDF сам это определит и запустит необходимые механизмы. Например, опечатка в дате договора, или имя контрагента изменилось: оно стало длиннее и должно «перетекать» на следующую строку.
В программе сначала распознается скан, а затем происходит подготовка к редактированию. При распознавании скана текст получается не в нашем оригинальном документе, а в его виртуальном «двойнике». И именно в нем происходят все операции редактирования.
Когда пользователь закончил редактирование документа, программа автоматически собирает все изменения со страницы и заменяет эти фрагменты в исходном документе. Наша задача — встроить текст обратно в PDF-документ, не повредив при этом все остальное, что в нем уже есть.
Редактирование скана позволяет не тратить время на преобразование документа в другие форматы и наоборот. Это удобно, когда нужно быстро внести забытое редактирование даты или другого фрагмента текста.
Пример многострочного редактирования. Текст автоматически перераспределяется по строкам по мере добавления слов и предложений в абзац.
Вместо заключения
Исправить опечатку в листовке, поменять местами блоки текста в инструкции, изменить весь абзац в скане договора или добавить несколько новых, исправить форматирование всего текста — все эти задачи теперь можно решить :
Вы можете попробовать прямо сейчас – скачайте пробную версию ABBYY FineReader PDF бесплатно.
В следующем посте через неделю мы расскажем о том, как ABBYY FineReader PDF научили еще одной интересной функции и для чего новая функциональность может пригодиться.
Напишите в комментариях, о каких еще технологических особенностях нашей программы вам было бы интересно узнать?
Читайте также: