Программное обеспечение GdPictureNET OCR Tesseract Engine – технология распознавания оптических символов для разработки приложений, требующих OCR. С помощью GdPictureNET OCR Tesseract Engine разработчики могут добавлять надежную, быструю и многопоточную поддержку OCR в управляемых и не управляемых приложениях с несколькими строками кода.
Основные функции:
- OCR SDK с полной поддержкой Unicode.
- Поддержка нескольких потоков (демо-приложение включено в пакет SDK GdPicture.NET).
- Признание распознавания символов.
- Возвращает расположение символов.
- Возможность получать информацию о шрифтах.
- Получение информации о абзацах.
- Текст вывода.
- Поддержка создания PDF / A OCR (PDF Image + скрытый текст для поиска).
- Может создавать PDF и PDF / A с символами Unicode с очень небольшим размером.
- Поддерживает более 100 языков, таких как английский, французский, итальянский, немецкий, испанский, бразильский португальский, вьетнамский, китайский, русский, польский, голландский и т. д.
- Может распознавать только цифры, только альфа или только «белые символы». Плюс опция – указать черный список символов.
- Поддержка контекста OCR. Определяет, обрабатывает ли движок документ, одно слово, одиночный символ, текстовый блок, вертикальный текст и т. д.
- Быстрая обработка области.
- Автоматическое определение ориентации документа.
- Автоматическая коррекция перекоса.
- Автоматическая коррекция изображения для повышения точности и скорости распознавания.
- Функции сегментации для обнаружения блоков, абзацев, строк, слов и символов.
- Встроенный многопоточный движок для создания PDF / OCR.
- Доступен в 32-битных и 64-разрядных версиях.
- Может работать в многопоточных приложениях.