Как добавить шрифт в FineReader

Обновлено: 21.11.2024

ABBYY FineReader для ScanSnap — это приложение, используемое исключительно со ScanSnap. Его можно использовать для распознавания текста текстовой информации в изображении в формате PDF документа, отсканированного с помощью ScanSnap, и преобразования изображения в файл Word, Excel или PowerPoint.

В этом разделе описаны функции и примечания к функции преобразования текстовой информации в изображение с помощью ABBYY FineReader for ScanSnap.

Возможности функции распознавания текста ABBYY FineReader for ScanSnap

Функция OCR программы ABBYY FineReader для ScanSnap имеет следующие особенности. Перед преобразованием проверьте содержимое изображения, которое необходимо преобразовать.

Приложение, используемое для конвертации

Документы, подходящие для конвертации

Документы не подходят для преобразования

Документы, созданные с использованием простого макета страницы с одним или двумя столбцами.

Документы, такие как брошюры, журналы и газеты, созданные с использованием сложного макета страницы, состоящего из следующего:

Документы с простыми таблицами, в которых каждая граница соединяется с внешней рамкой.

Документы, содержащие следующее:

Таблицы без сплошных границ

Таблицы со сложными форматами ячеек

Сложные таблицы, содержащие подтаблицы

Документы, содержащие вертикальный текст

Сканировать в PowerPoint(R)

Документы, состоящие только из символов и простых графиков или таблиц на белом или светлом одноцветном фоне.

Документы со сложными макетами страниц, состоящими из символов, диаграмм и иллюстраций

Документы с символами на фотографиях или узорчатом фоне

Документы со светлыми символами на темном фоне

Параметры, которые нельзя воспроизвести в исходном документе

Следующие параметры могут не воспроизводиться в том виде, в каком они указаны в исходном документе. Проверьте преобразованные файлы с помощью Word, Excel или PowerPoint и при необходимости отредактируйте их.

Шрифт и размер символов

Символьный и межстрочный интервал

Подчеркнутые, полужирные и курсивные символы

Документы и символы, которые могут быть неправильно распознаны

Следующие типы документов и символов могут распознаваться неправильно.

Они могут быть распознаны, если вы отсканируете их, изменив цветовой режим или улучшив качество изображения в настройках профиля.

Документы, содержащие рукописные символы

Документы с мелкими символами размером менее 10 пт.

Документы, написанные на языках, отличных от указанного

Документы с символами на неравномерно окрашенном фоне, например, с затененными символами.

Документы с большим количеством декоративных символов, таких как рельефные или контурные символы

Документы с символами на узорчатом фоне, например символы, перекрывающие иллюстрации или диаграммы

Документы, в которых много символов касается подчеркивания или границ

Документы со сложной компоновкой и документы с шумом изображения (обработка распознавания текста для этих документов может занять дополнительное время.)

Другие примечания

Когда документ большого размера на бумаге преобразуется в файл Word, он может быть преобразован в файл с максимальным размером бумаги, допустимым для Word.

При преобразовании документа в файл Excel, если результаты распознавания превышают 65536 строк, строки после 65536-й строки не сохраняются.

При преобразовании документа в файл Excel макет всего документа, диаграммы, графики, а также высота и ширина таблиц не воспроизводятся. Воспроизводятся только таблицы и символы.

При преобразовании документа в файл PowerPoint фоновые цвета и узоры не воспроизводятся.

Если вы сканируете документ вверх ногами или боком, изображение не может быть правильно преобразовано. Установите [Поворот] в [Сканировать] в окне [Подробные настройки] или правильно загрузите документ, а затем отсканируйте документ.

Если включена функция уменьшения проступания, скорость распознавания текста может снизиться. Чтобы отключить функцию уменьшения проступания, снимите флажок [Уменьшить проступание] в окне [Параметры сканирования] в настройках профиля.

Если включена функция уменьшения проступания, скорость распознавания текста может снизиться. Чтобы отключить функцию уменьшения проступания, снимите флажок [Уменьшить проступание] на вкладке [Качество изображения] в окне [Параметры сканирования] в настройках профиля.

Примечание. Если в окне ABBYY FineReader Text символы отображаются некорректно (например, вместо некоторых или всех букв можно увидеть «?» или «□»), это означает, что ваш текущий шрифт не поддерживает ваше распознавание. алфавит языка полностью.Выберите шрифт, который поддерживает весь ваш набор распознавания (например, Arial Unicode или Bitstream Cyberbit), на вкладке «Сохранить» (меню «Сервис»> «Параметры») в группе «Шрифты» и снова распознайте документ. См. «Шрифты для языков распознавания, которые могут неправильно отображаться в текстовом редакторе».

После того как страница распознана, ее текст отображается в текстовом окне. Когда вы отправляете текст во внешнее приложение, макет текста сохраняется в соответствии с выбранными параметрами сохранения макета. Задайте эти параметры на вкладке «Сохранить» (меню «Инструменты»> «Параметры») и в диалогах соответствующих форматов.

Неверно распознанные символы выделяются. Чтобы отключить эту функцию, снимите флажок «Выделять неопределенные символы» на вкладке «Вид» (меню «Инструменты»> «Параметры»).

Редактор ABBYY FineReader имеет два режима просмотра документов: полный режим (отображается полный макет) и режим черновика.

В полном режиме блоки с распознанным текстом, таблицами и картинками отображаются точно так же, как и на исходном изображении. Таким образом, сохраняется полный исходный макет: столбцы, таблицы, изображения и пропущенные заглавные буквы (крупногабаритные буквы, занимающие несколько строк в абзаце). Блок, в котором в данный момент находится указатель, является активным блоком. При перемещении указателя с помощью клавиш со стрелками порядок перехода между блоками определяется их нумерацией на исходном изображении. Если объем текста внутри определенного блока становится слишком большим для соответствующего блока (например, после редактирования), части других неактивных блоков могут стать невидимыми. В этом случае границы соответствующего блока (блоков) будут отображаться красными маркерами. Когда блок активен, его границы увеличиваются, чтобы отобразить весь текст блока.

В режиме черновика не отображаются следующие элементы текста: отступ слева; выравнивание абзаца (все абзацы выравниваются по левому краю); цвет текста и фона. Для отображения текста в черновом режиме используется шрифт одинакового размера (по умолчанию 12pt). Эффекты (жирный, курсив, подчеркнутый, верхний и нижний индексы) сохраняются.

Переключайтесь между черновым и полным режимами, нажимая кнопки (полный режим) или (черновой режим) в текстовом окне.

Мы рады сообщить, что новая программа ABBYY FineReader PDF 15 уже доступна. Обновление значительно расширяет возможности решения, которые теперь позволяют создавать и редактировать заполняемые PDF-формы. Мы также рады сообщить, что дали нашему программному обеспечению для работы с файлами PDF новое имя, которое более полно отражает мощные возможности продукта: ABBYY FineReader PDF.

ABBYY FineReader PDF 15

ABBYY FineReader PDF – это комплексное решение для работы с файлами PDF, в котором современная технология оптического распознавания символов ABBYY сочетается с универсальным набором расширенных функций для создания, улучшения и преобразования всех типов документов PDF.

Несмотря на новое название, ABBYY FineReader PDF 15 не является ни отдельной версией существующего FineReader, ни отдельным продуктом. FineReader 15 стал FineReader PDF 15, и все пользователи предыдущих выпусков FineReader 15 могут получить обновление до последнего выпуска 5 с новым названием «FineReader PDF 15» и новыми мощными функциями.

Создание и редактирование интерактивных (заполняемых) форм PDF

С обновлением FineReader PDF 15 до Release 5 пользователи получают доступ к новому набору инструментов — Редактор форм, который предоставляет инструменты для редактирования существующих заполняемых форм PDF или создания новых с нуля. Эта функция позволяет пользователям собирать информацию в цифровом виде, что может исключить как заполнение форм вручную, так и дальнейшую оцифровку заполненных форм. Новая функция также предоставляет возможность создавать эффективные, согласованные и простые в использовании шаблоны документов для вашей организации, чтобы оптимизировать различные бизнес-процессы, включая адаптацию сотрудников, управление запросами, адаптацию клиентов и внутренний аудит, и это лишь некоторые из них. в дополнение к совершенствованию и упрощению документооборота во всей организации.

Распознавание исторических шрифтов: Gothic (Fracture) OCR

FineReader PDF 15 теперь может преобразовывать сканы книг, напечатанных между 18 и 20 веками готическими шрифтами, в редактируемые документы или PDF-файлы с возможностью поиска. Он поддерживает распознавание старых печатных шрифтов, таких как Textura, Fraktur, Schwabacher и других, на старом английском, немецком, французском, итальянском, испанском и латышском языках. Теперь FineReader PDF 15 поддерживает распознавание текста на 198 различных языках (полный список см. здесь)!

Другие улучшения

Инструмент помощника по выравниванию. Новый помощник по выравниванию помогает легко выравнивать текст или изображение с другими элементами страницы при их расположении.

Новое технологическое ядро.Мы обновили технологическое ядро ​​для выпуска 5, что повысило общее качество обработки документов как для преобразования документов, так и для задач, связанных с PDF.

Улучшенное преобразование в файлы PDF с возможностью поиска. При преобразовании отсканированных изображений и отсканированных PDF-файлов в PDF-файлы с возможностью поиска последняя версия 5 создает файлы меньшего размера, сохраняя при этом визуальное качество документа.

Получение последней версии FineReader PDF 15

При каждом выпуске мы обновляем журнал изменений FineReader PDF 15, где вы можете найти полный список улучшений и основных ошибок, исправленных в каждом выпуске. Проверьте номер детали вашего FineReader 15 сейчас (Справка->О программе… в меню) и обновите свой продукт, чтобы получить доступ к последним улучшениям.

Совет: Чтобы изменить настройки вашего продукта FineReader PDF, чтобы он обновлялся автоматически, следуйте инструкциям, изложенным ниже (в «Параметры» -> вкладка «Другое»). Если вы не видите эту опцию в своем продукте FineReader PDF 15, попросите системного администратора вашей организации создать заявку в нашу специальную службу поддержки.

Я бы не сказал, что полностраничное распознавание символов — тривиальная задача. Использование решения с открытым исходным кодом (99% основано на Tesseract) даст вам хорошие результаты, если ваш ввод относительно чистый (без сложного макета, отсканированных документов с планшетного сканера, стандартных шрифтов) и вас не волнует скорость. Если вас волнует точность распознавания, то Tesseract не поможет (по крайней мере, без серьезных усилий).

Отвечая на пункты 1 и 3: для небольших плееров и/или сложных задач вы всегда можете реализовать свой собственный парсер.

Я работаю подрядчиком в этом пространстве.

Я согласен с вами в том, что Tesseract не очень хорош в готовом виде, но если вы не работаете с большими объемами, есть множество доступных облачных вариантов.

При всем уважении, я не согласен с тем, что это проблема синтаксического анализа. Вся причина, по которой существует так называемое «зональное распознавание», заключается в проблемах надежного определения структуры документа во время синтаксического анализа. Да, есть документы, для которых достаточно логики парсинга, но для более сложных задач нужно то, что продают ABBYY и Nuance.

Просто чтобы быть уверенным, что мы говорим об одном и том же, под "настраиваемым синтаксическим анализатором" я имел в виду реализацию вашей собственной базовой функции "зонального распознавания текста" только с теми функциями, которые необходимы для конкретной проблемы.

Я думаю, все сводится к потребностям каждого отдельного приложения.

В некоторых случаях используется множество шаблонов, и им требуется функция "автоматического нечеткого сопоставления" и дополнительные навороты.

Но более мелкие игроки часто имеют дело с несколькими относительно простыми шаблонами, где FlexiCapture был бы излишним (не говоря уже о паре других проблем, о которых я расскажу в конце поста). Это, конечно, непростая задача, потому что вам нужен кто-то, кто может спроектировать и внедрить сквозную систему, которая, возможно, включает обработку изображений, «зональное распознавание текста», включает механизм распознавания текста, а также выполняет надежное извлечение текста из изображений/PDF (извлечение текста). из PDF-файлов сложно). Не разработчику намного проще думать о том, какие наборы правил/логику применять, и не думать о битах обработки изображений/OCR. Я думаю, что это одно из основных преимуществ FlexiCapture. Он абстрагирует биты OCR, чтобы разработчик системы мог подумать о самой проблеме, разработать спецификацию и подумать о логике. Вам требуется выравнивание документов? Нажмите кнопку, и вы получите выравнивание.

Существует также FlexiCapture Engine, предназначенный для разработчиков. У него те же проблемы, что и у других предложений от ABBYY (насчет Nuance не знаю, но подозреваю, что там то же самое):

Можете ли вы привести пример, когда вы считаете, что индивидуальное решение не сработает? Мне любопытно.

<р>1. FlexiCapture делает предварительную обработку невероятно безболезненной и не требующей обучения. Помимо обычной бинаризации, мы широко используем встроенный автоповорот и очистку (перекос, шум, спекл и т. д.).

<р>2. Создание шаблонов — это действительно большая победа FlexiCapture. Я не видел ничего другого с графическим интерфейсом шаблона, который был бы близок к тому, чтобы быть удобным, надежным или простым. Это действительно важно для нас, потому что мы создаем МНОГО шаблонов. Мне очень трудно представить, что мне нужно кодировать их.

<р>3. Механизм шаблонов FlexiCapture очень эффективен для типов документов, с которыми мы работаем, в основном это сложные повторяющиеся группы с вложенными структурами. Он также очень хорошо справляется как с фотографиями документов (например, мобильных), так и со сканами. Еще одна вещь, которую он предлагает, чего я не видел нигде в готовом продукте или существующей платформе, — это возможность определять зоны в чисто относительных терминах без абсолютных позиций. Я не знаю о Nuance, но я не видел ни одного другого графического интерфейса шаблона, который позволил бы вам указать что-то вроде «ищите либо это слово, либо двухстрочную строку, содержащую эти слова, в верхнем левом квадранте документа».

<р>4. Не хватает зональных фреймворков распознавания.Помимо SDK ABBY и Nuance, единственный, о котором я даже знаю, это OpenKM, и я не пишу Java. FlexiCapture Engine SDK — ужасный зверь. Документация ужасна, это только Windows, и все это COM-объекты.

OCR не "привет, мир" для tensorflow. Вся статья посвящена собственно разработке конвейера OCR. Они перенесли модель на тензорный поток как второстепенную вещь.

Распознавание символов может быть "привет, мир", но полностраничное распознавание символов определенно не является таковым. Когда я читаю статью и думаю обо всех препятствиях, которые преодолел Dropbox, это выглядит как довольно большое достижение. Я могу сказать вам, что это заняло бы у меня намного больше времени, чем 8 месяцев.

OCR для действительно простых документов может быть "привет, мир", но, как обычно, в реальных практических приложениях есть множество интересных вещей, которые делают эту проблему более сложной, чем кажется.

В таком случае. было бы неплохо, если бы в Tensorflow было OCR в качестве одного из примеров/учебников.

> Поскольку OCR — это, по сути, «привет, мир» для tensorflow, я не понимаю, почему эти действующие лица до сих пор не стерты с лица земли.

Есть ли у вас пример того, кто работал над этим? Я думаю, что эти пакеты имеют большую инерцию, потому что вы можете купить продукт с API, документацией и т. д. Что-то, что говорит: «Изучите TensorFlow и достаточно ИИ, чтобы быть опасным», будет трудно попасть в дверь во многих крупных организациях. так что это может быть областью, в которой солидный проект с открытым исходным кодом может оказать значительное влияние.

Основной пост не подразумевает, что компании сами внедряют Tensorflow и решают эту проблему. Сообщение подразумевает, что конкурент выходит на рынок, используя более новую, лучшую технологию, и заменяет ее лучшим продуктом (с API, документацией и т. д.).

Здесь проблема заключается в том, что отрасли стагнируют, когда представить новый продукт на этом рынке сложно или дорого. Обычно вам нужны значительные технические и/или социальные изменения, прежде чем действующие лица могут быть смещены. В данном случае это было техническое изменение.

Другая часть проблемы заключается в том, что инвесторы хотят вкладывать в них идеи "от 0 до 1", и основатели часто гонятся за этими идеями. На самом деле нам нужно больше продуктов "от 1,0 до 1,5", особенно на переполненных рынках.

Я думаю, что ваше последнее замечание верно: существует огромный разрыв между демонстрацией типа "привет, мир", о которой говорил первоначальный постер, и инструментом на уровне продукта, который имеет разумные данные для обучения и производительность в нетривиальном диапазоне документы.

Я думаю, что это требует гораздо больше работы, чем ожидал ОП.

Недавно я просмотрел несколько пакетов, и, на мой взгляд, лучший вариант — это ABBYY Finereader Pro для Mac. Версию для Mac можно легко автоматизировать с помощью Hazel или Automator, которые добавляют функции, которые стоят на 400 долларов дороже для ПК. Результаты намного лучше, чем в Acrobat.

Когда я работал над своим большим проектом, я использовал дешевую стандартную версию Finereader для (виртуализированной) Windows и построил для нее автоматизированный конвейер с помощью комбинации инструментов AutoHotkey, pdftk, Multivalent pdf и Python.

Я тоже сначала попробовал Acrobat OCR и обнаружил, что он намного хуже. Одним из сюрпризов было то, что (по крайней мере, в то время) файлы OCR с помощью Acrobat были не только гораздо менее точными в текстовом слое, но и размер файла также неожиданно раздувался.

<р>1. Нет такого набора данных/конкурса, как ImageNet для OCR.

<р>2. Большинство людей/конференций/университетов преследуют естественные изображения и проблемы с «компьютерным зрением». OCR — это отдельный зверь, и хотя он разделяет некоторые концепции с компьютерным зрением, это не одно и то же.

<р>3. Много интеллектуальной собственности, знаний и талантов заперто в горстке очень старых компаний, занимающихся этим в течение длительного времени. ABBYY для оптического распознавания символов — это то же самое, что Google + Facebook для глубокого обучения (а может и больше).

<р>4. OCR — это своего рода ниша, многие знания недоступны для многих людей, кроме нескольких инсайдеров (ABBYY/Nuance, университеты, исследовательские лаборатории, конференции OCR). Я уверен, что Google часто использует его для внутренних целей (например, номера Google Street View и т. д.).

<р>5. Действующие лица не просто занимаются распознаванием символов. Они выполняют предварительную обработку (компьютерное зрение/обработка изображений) + OCR + NLP.

<р>6. Трудно найти данные. ABBYY Finereader поддерживает 190 языков. Сбор этих данных — непростая задача.

Возможно, я упускаю из виду и другие причины, но это просто не приходит мне в голову.

При этом я уверен, что скоро будет достигнут значительный прогресс в области OCR + глубокого обучения.

Это сильное заявление. Есть ли у вас ссылки на код или документацию, реализующую высококачественное распознавание текста с помощью tensorflow?

Не высокое качество. Но поскольку MNIST обычно используется в качестве базового эталона, я был удивлен, что более расширенное распознавание символов не было основным продуктом в этой области. Из введения в tensorflow[0]: «Когда кто-то учится программировать, существует традиция, что первое, что вы делаете, это печатаете «Hello World».' Так же, как в программировании есть Hello World, в машинном обучении есть MNIST."

Я понимаю, что это результат моего отсутствия знаний в этой области, но реклама машинного обучения позволяет легко переоценить возможности глубокого обучения для непрофессионала.

Потому что, например, Эбби заменяет изображение PDF-файлом с невидимыми наложениями текста. Я думаю, что это немного сложнее, если учесть форматирование документов.

У Эбби была такая возможность в течение более длительного периода времени, поэтому она может быть более точной, но это то, что поддерживает tesseract[1]. На самом деле я бы сказал, что большинство систем OCR поддерживают его с разной степенью точности.

Теперь создание документа Word из отсканированного изображения — это совсем другое дело, поскольку для этого требуется анализ макета. Здесь Abbyy с ее многолетним опытом по-прежнему лидирует.

Моя проблема заключалась в том, что мне нужен был API-интерфейс для распознавания текста на изображениях, снятых с мобильных устройств. Было очень сложно найти пакеты, отличные от настольных.

Клиенту требовалось решение для оптического распознавания символов для счетов-фактур поставщиков с различными форматами и сочетанием печатных и рукописных символов, и у него не было бюджета на индивидуальное решение. Справедливости ради, это очень сложная проблема, я был просто удивлен тем, что, учитывая все разрекламированные недавние достижения в области глубокого обучения для компьютерного зрения, большинство решений на рынке, похоже, работают на основе технологий, которым уже несколько десятков лет.

Для извлечения данных из документов требуется решение, использующее OCR, но являющееся другим продуктом (например, ABBYY FlexiCapture).

Это чаще всего называется зональным распознаванием символов и поставляется с дополнительными функциями обработки нескольких шаблонов, определения зон/полей, указания специальных правил для полей, процесса проверки для ручной проверки (например, срабатывает, когда изображение получает распознавание с низким уровнем достоверности). оценка) и т. д. Это отличается и является более сложным, чем продукт, который выполняет полностраничное распознавание текста (например, ABBYY Finereader).

Рукописное распознавание текста — это совсем другая история. Продукты, поддерживающие зональное распознавание текста, не смогут распознать рукописный текст, если только он не находится в коробках (формы PDF). Я работаю над прототипом, который также может обрабатывать рукописный текст вне блоков.

Знаете ли вы, что использует Evernote? Хотя я больше им не пользуюсь, когда я им воспользовался, я был поражен тем, как он находит и индексирует текст.

Они используют несколько механизмов OCR. Некоторые из них разработаны собственными силами, а некоторые — запатентованы. В сообщении блога упоминается I.R.I.S. как один из собственных.

Они не предлагают OCR публично, вместо этого они создают список возможных кандидатов для сопоставления с поисковыми запросами (нечеткое сопоставление).

Из одного из сообщений в блоге: "Использование нескольких движков reco важно не только потому, что они специализируются на разных типах текста и языках, но и потому, что это позволяет реализовать механизм "голосования" — анализ альтернатив слов, созданных разными движками, для одно и то же слово позволяет лучше подавлять ложные распознавания и придавать больше уверенности согласованным вариантам."

Насколько я помню, они не используют традиционное распознавание символов, а создают базу данных вероятностей терминов, которая позволяет им сопоставлять поисковые запросы. И Evernote, и ABBYY, похоже, связаны с определенной российской исследовательской группой.

Я знаю, что вы говорите о распознавании символов на рабочем столе, но у меня очень хороший опыт работы с Google Vision API. На моем предыдущем концерте мы пытались автоматизировать сканирование квитанций, и это дало очень хорошие результаты без каких-либо предварительных манипуляций с изображением (то есть без специального выравнивания камеры, условий освещения, поворота, перекоса и т. д.).

Это было не идеально, но я был очень впечатлен качеством, скоростью и ценой.

ABBYY доминировала в этой области на протяжении многих лет (на самом деле, десятилетий) и до сих пор превосходит все имеющиеся решения. OmniPage от Nuance, вероятно, на втором месте.

Предварительная обработка изображений (конвейер OCR) очень важна для OCR. Для обычных отсканированных PDF-документов Finereader работает очень хорошо.

В движке OCR происходит много всего. Анализ макета, устранение искажений, бинаризация, устранение перекосов, удаление пятен (и другие), а затем и само распознавание символов. С Tesseract вам приходится многое делать самому, вы должны предоставить ему чистый образ. Коммерческие пакеты делают это за вас автоматически. ABBYY и другие решения также используют NLP для дополнения/проверки результатов OCR с точки зрения семантического анализа.

Кроме того, универсального оптического распознавания символов не существует. Это очень специфично для характера приложения. Рассмотрим следующие варианты использования:

Это все "проекты OCR", но они требуют совершенно разных подходов. Вы не можете просто отправить любое входное изображение в механизм OCR и ожидать, что оно сработает. Часто для этого требуется сочетание компьютерного зрения/обработки изображений, машинного обучения и механизма оптического распознавания символов.

Все больше статей с использованием глубокого обучения отправляются на ICDAR (ведущую конференцию OCR) и другие конференции OCR.Одной из проблем является отсутствие универсального набора данных/конкурса, такого как ImageNet. Конкурс SmartDoc (документы, снятые со смартфонов) в этом году отменен из-за недостаточного количества участников.

Если кто-то работает с OCR + глубокое обучение, я хотел бы обсудить!

Невыпущенная версия tesseract v4 имеет новый движок, основанный на современных методах глубокого обучения. При первоначальном рассмотрении может показаться, что оно может превзойти существующие коммерческие решения с точки зрения качества.

Можете ли вы рассказать об этом немного подробнее? У него все еще есть некоторые проблемы с качеством в крайних случаях, но я пока не видел ничего, в чем Эбби справилась бы лучше. Тем не менее, в приложении по умолчанию отсутствует часть предварительной обработки, которую необходимо добавить (например, выравнивание страницы, перелистывание и т. д.).

Есть ли у вас представление о том, когда он будет выпущен? Или это будет только внутреннее дело Google?

О, спасибо. Я посмотрел на количество коммитов, которых было немного после последнего релиза, поэтому я подумал, что он еще не был объединен.

> Я экспериментировал с Tesseract OCR с открытым исходным кодом, но он сильно отставал от коммерческих пакетов для настольных ПК по точности и удобству использования. Это отставало, особенно при работе с различными макетами документов.

Как давно вы им пользовались? Мы используем его для распознавания фотографий бумажных чеков, сделанных с помощью смартфона, и извлечения контактной информации. Это работает очень хорошо.

Это было более 4 лет назад. Я не помню точно когда, но в то время проект все еще размещался в Google Code.

Я пытался расшифровать отсканированные научные публикации с многоколоночным макетом и рисунками. Я не ожидал, что что-то будет правильно отображать все заголовки или обрабатывать специальные обозначения, но было важно распознавать все обычные английские слова на странице и располагать текст в правильном порядке.

Читайте также: