Как сохранить в pdf в FineReader без распознавания

Обновлено: 16.05.2024

Какого бы размера ни была ваша организация, вам нужен мощный редактор PDF. Большинство компаний имеют дело с кучей документов, и, поскольку каждая компания стремится стать устойчивым предприятием, цифровое управление документами — это решение.

Вам нужна программа, позволяющая вам и вашим сотрудникам редактировать PDF-документы. Kofax Power PDF — это проверенная и достойная альтернатива другим передовым программам для работы с файлами PDF, включая ABBYY FineReader.

Почему ABBYY FineReader является альтернативой?

Как и Power PDF, ABBYY FineReader сочетает редактирование PDF с функциями оптического распознавания символов (OCR). ABBYY FineReader — это альтернатива для Mac 10.12 Sierra или более поздней версии без редактирования PDF и для Windows v7 или более поздней версии. Вы можете редактировать ряд документов PDF, а также преобразовывать изображения в PDF и другие электронные форматы. Это программное обеспечение OCR предлагает функции, аналогичные Power PDF: вы можете преобразовывать файлы PDF в документы Microsoft Office и обратно.

Интерфейс минималистичный и простой в использовании. Однако ленточный интерфейс Power PDF в стиле Microsoft Office более узнаваем, что позволяет быстрее адаптироваться. Главное меню предлагает три опции: открывать и конвертировать существующие файлы, создавать новые PDF-файлы с помощью сканера и сравнивать ваши PDF-документы. Как и в Power PDF, у вас есть возможность объединить несколько изображений или PDF-файлов в один документ для вашего удобства.

Функции, которые больше всего понравятся организациям по всему миру, — это создание форм, подписание, редактирование и добавление водяных знаков. Однако эта программа не поддерживает функцию полнотекстового индексирования нескольких файлов, которую можно найти в редакторе PDF, таком как Power PDF.

По цене вы можете рассчитывать на 199 долларов США за стандартную версию, которая не включает функцию сравнения документов, а корпоративная версия обойдется вам в 299 долларов США. Обе цены являются бессрочными лицензиями, а не подписками. Для сравнения, вы можете приобрести Power PDF Advanced всего за 179 долл. США, чтобы получить доступ к быстрому поиску с помощью функции полнотекстового индексирования.

Почему компании выбирают Power PDF

Интерфейс в стиле Office идеально подходит для работы на компьютере с Windows 10, Microsoft Surface или MacOS Big Sur. Административному персоналу нравится работать с гибкой программой, которая позволяет им создавать, редактировать и преобразовывать PDF-файлы в популярные программные расширения, такие как Word, PowerPoint, Excel, HTML, JPEG и другие, и обратно.

Когда вы решите установить Power PDF, вы не будете платить за подписку: как только вы его купите, вы получите все функции программы. Поскольку каждая организация старается минимизировать свои расходы, Power PDF является экономичным решением.

Что касается безопасности, вам никогда не придется беспокоиться о том, что информация в ваших PDF-документах станет общедоступной. Вы можете добавить зашифрованные пароли и разрешения, чтобы только те пользователи, которым вы хотите просмотреть документ, могли это сделать. В целях безопасности вы можете редактировать конфиденциальную информацию и личные метаданные.

Используйте бесплатную пробную версию Power PDF

С единой бессрочной лицензией на Power PDF Advanced вы можете сэкономить до 67% средств для своего бизнеса в течение трех лет по сравнению с Adobe Acrobat. Вы можете пользоваться преимуществами программного обеспечения в течение 15 дней в рамках бесплатной пробной версии.

В современных судебных процессах процесс обнаружения часто является длительным и дорогостоящим, в зависимости от сложности вопросов и количества документов, которые могут потребоваться. Часто поставщики электронных документов необходимы, чтобы помочь организовать и просеять потенциальные миллионы страниц документов, которые либо ваш клиент доставляет вам, либо адвокат противоположной стороны. Однако иногда все доказательства содержатся в одном документе в формате Portable Document Format (PDF).

Тем не менее, та же проблема, которая возникает в крупных исследовательских проектах, может проявиться и в этих небольших проектах. То есть опция поиска документа может быть недоступна. Недавно мы рассмотрели, как выполнять поиск в тексте PDF-документа, но этого решения будет недостаточно, если адвокат получит файл, который невозможно найти. В таких случаях может быть важно сделать документ доступным для поиска, чтобы сэкономить время и деньги вашего клиента. Для крупных проектов обнаружения эта услуга обычно включена в программное обеспечение поставщика электронного обнаружения, но для случаев с минимальным обнаружением дорогостоящая платформа электронного обнаружения не нужна. Скорее, отдельного пакета программного обеспечения может быть достаточно для удовлетворения потребностей небольшого исследовательского проекта.

Экономия денег клиента за счет приобретения необходимого программного обеспечения для электронного раскрытия информации и судебного разбирательства всегда была одним из главных приоритетов нашей компании. Таким образом, когда мы сталкиваемся с исследовательским проектом, который не требует поставщика услуг электронного обнаружения, мы считаем своим долгом искать другие более экономичные решения, что мы и сделали, когда нашли программное обеспечение, которое может создать PDF или статическое изображение с возможностью поиска.Как правило, чтобы сделать изображение или файл PDF доступным для поиска, программное обеспечение должно поддерживать оптическое распознавание символов («OCR»). Оптическое распознавание символов — это электронное преобразование изображений в машинно-кодированный текст. Он используется всеми основными поставщиками средств электронного обнаружения для создания текста с возможностью поиска, который затем можно хранить в более компактном виде, отображать в средстве просмотра и использовать в собственных программных платформах, разработанных поставщиком. [1] В большинстве случаев определенные версии Adobe Acrobat Reader могут распознавать PDF-файлы, но для проектов с большими PDF-файлами, изображениями других форматов или несколькими файлами лучше использовать программное обеспечение, специализирующееся на распознавании символов.

Программное обеспечение имеет несколько версий и вариантов приобретения. В отличие от «профессиональной» версии, «корпоративная» версия позволит вашей команде судебной поддержки выполнять пакетную обработку документов и настраивать программные задачи, которые будут экспортировать файлы в определенный формат. Функция экспорта программы позволит пользователю определить, как должен быть создан окончательный документ, например, экспорт каждой страницы многостраничного PDF-файла в отдельный текстовый документ. Наш отдел судебных разбирательств недавно использовал последнюю функцию в небольшом исследовательском проекте.

В этом случае мы получили несколько документов в формате PDF общим объемом около 20 000 страниц. Чтобы сделать все доступным для поиска, мы открыли PDF-файлы в ABBYY FineReader, экспортировали каждую страницу в отдельный текстовый файл, загрузили эти файлы на веб-сервер, а затем создали PHP-скрипт для импорта каждого текстового файла в таблицу, которую мы создали в программе. База данных MySQL. (Для более технически подкованных пользователей приведен PHP-скрипт ниже. Скрипт берет текстовый файл и вставляет содержимое и имя файла в строку базы данных. Не стесняйтесь использовать его.) Как только данные были в базе данных, мы могли бы запускать запросы и выполнять логический поиск всей информации.

По мере того, как фирмы продолжают расширять свои отделы электронного обнаружения, важно приобретать программное обеспечение, которое может выполнять рутинные задачи, и разрабатывать процесс более эффективной проверки документов. Поскольку бюджетные ограничения часто нависают над судебными отделами, важно рассмотреть простые решения часто затянувшегося процесса обнаружения.

Выражаем особую благодарность Шону Р. Гаевски (Sean R. Gajewski) за помощь в написании этой публикации и создание описанной выше процедуры электронного обнаружения. Шон работает клерком в нашем судебном отделе в Cullen and Dykman.

КОД PHP:

andlt;?php

$handle = opendir('.');

if(is_resource($handle))

$dsn = 'mysql :host=DATABASE_HOST;dbname=DATABASE_NAME';

$login = 'DATABASE_USER';

$password = 'DATABASE_PASSWORD';

$dbh = новый PDO ($dsn, $login, $password);

в то время как (false !== ($entry = readdir($handle)))

if ($entry != "." andand $entry != "..")

$contents = file_get_contents($entry);

$sql = "ВСТАВИТЬ В LEHR (docTitle, docContent) ЗНАЧЕНИЯ (?, ?);";

$sth = $dbh-andgt;prepare($sql);

$sth-andgt;bindValue(1, $entry, PDO::PARAM_STR);

$sth-andgt;bindValue(2, $contents, PDO::PARAM_STR);

set_time_limit(20);

$sth-andgt;execute();

>

>

closedir($handle);

>

?andgt;

ABBYY FineReader для ScanSnap — это приложение, используемое исключительно со ScanSnap. Его можно использовать для распознавания текста текстовой информации в изображении в формате PDF документа, отсканированного с помощью ScanSnap, и преобразования изображения в файл Word, Excel или PowerPoint.

В этом разделе описаны функции и примечания к функции преобразования текстовой информации в изображение с помощью ABBYY FineReader for ScanSnap.

Возможности функции распознавания текста ABBYY FineReader for ScanSnap

Функция OCR программы ABBYY FineReader для ScanSnap имеет следующие особенности. Перед преобразованием проверьте содержимое изображения, которое необходимо преобразовать.

Приложение, используемое для конвертации

Документы, подходящие для конвертации

Документы не подходят для преобразования

Документы, созданные с использованием простого макета страницы с одним или двумя столбцами.

Документы, такие как брошюры, журналы и газеты, созданные с использованием сложного макета страницы, состоящего из следующего:

Документы с простыми таблицами, в которых каждая граница соединяется с внешней рамкой.

Документы, содержащие следующее:

Таблицы без сплошных границ

Таблицы со сложными форматами ячеек

Сложные таблицы, содержащие подтаблицы

Документы, содержащие вертикальный текст

Сканировать в PowerPoint(R)

Документы, состоящие только из символов и простых графиков или таблиц на белом или светлом одноцветном фоне.

Документы со сложными макетами страниц, состоящими из символов, диаграмм и иллюстраций

Документы с символами на фотографиях или узорчатом фоне

Документы со светлыми символами на темном фоне

Параметры, которые нельзя воспроизвести в исходном документе

Следующие параметры могут не воспроизводиться в том виде, в каком они указаны в исходном документе. Проверьте преобразованные файлы с помощью Word, Excel или PowerPoint и при необходимости отредактируйте их.

Шрифт и размер символов

Символьный и межстрочный интервал

Подчеркнутые, полужирные и курсивные символы

Документы и символы, которые могут быть неправильно распознаны

Следующие типы документов и символов могут распознаваться неправильно.

Они могут быть распознаны, если вы отсканируете их, изменив цветовой режим или улучшив качество изображения в настройках профиля.

Документы, содержащие рукописные символы

Документы с мелкими символами размером менее 10 пт.

Документы, написанные на языках, отличных от указанного

Документы с символами на неравномерно окрашенном фоне, например, с затененными символами.

Документы с большим количеством декоративных символов, таких как рельефные или контурные символы

Документы с символами на узорчатом фоне, например символы, перекрывающие иллюстрации или диаграммы

Документы, в которых много символов касается подчеркивания или границ

Документы со сложной компоновкой и документы с шумом изображения (обработка распознавания текста для этих документов может занять дополнительное время.)

Другие примечания

Когда документ большого размера на бумаге преобразуется в файл Word, он может быть преобразован в файл с максимальным размером бумаги, допустимым для Word.

При преобразовании документа в файл Excel, если результаты распознавания превышают 65536 строк, строки после 65536-й строки не сохраняются.

При преобразовании документа в файл Excel макет всего документа, диаграммы, графики, а также высота и ширина таблиц не воспроизводятся. Воспроизводятся только таблицы и символы.

При преобразовании документа в файл PowerPoint фоновые цвета и узоры не воспроизводятся.

Если вы сканируете документ вверх ногами или боком, изображение не может быть правильно преобразовано. Установите [Поворот] в [Сканировать] в окне [Подробные настройки] или правильно загрузите документ, а затем отсканируйте документ.

Если включена функция уменьшения проступания, скорость распознавания текста может снизиться. Чтобы отключить функцию уменьшения проступания, снимите флажок [Уменьшить проступание] в окне [Параметры сканирования] в настройках профиля.

Если включена функция уменьшения проступания, скорость распознавания текста может снизиться. Чтобы отключить функцию уменьшения проступания, снимите флажок [Уменьшить проступание] на вкладке [Качество изображения] в окне [Параметры сканирования] в настройках профиля.

Читайте также: