hOCR
hOCR — открытый стандарт, который определяет формат для представления OCR-вывода. Стандарт имеет целью приобщить к распознанному тексту информацию о макете, уровень достоверности распознавания, стиль и другие данные. Для достижения цели вступления этой информации распознанного текста используется стандартный формат HTML.
Существует утилита командной строки hocr2pdf для преобразования hocr-данных в файлы PDF.
См. также
Ссылки
- Общедоступная спецификация для формата hOCR (англ.)
- hocr-tools на „Google Code“
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.