Распознавание текста

⇐ ПредыдущаяСтр 9 из 12Следующая ⇒

Широкое применение информационных технологий, предназначенных для переноса в компьютерную среду информации, хранящейся на твердых носителях (книги, журналы, фотографии, слайды и т. п.), открывает возможности резкого ускорения процесса обработки огромных объемов информации. Эти технологии позволяют поднять на более высокий уровень эффективность делопроизводства на предприятиях.

Реализация данных технологий требует наличия двух существенных компонентов: устройства, предназначенного для ввода в компьютер растрового изображения документов на твердых носителях (сканер, цифровая фото- или видеокамера), и программ, позволяющих преобразовывать растровое изображение в требуемый формат для его дальнейшей обработки. Таким образом, процесс ввода документа в компьютер можно разделить на два этапа.

Сканирование. На этом этапе сканер оцифровывает изображение и передает его в компьютер. При этом полученное изображение представляет собой растр, который невозможно отредактировать ни в одном текстовом редакторе.

Распознавание. Представляет собой специальную обработку изображения. При этом получают почти полноценный документ, требующий форматирования и незначительного редактирования.

Для распознавания текстов используются так называемые системы оптического распознавания символов (Optical Character Recognition — OCR). Одной из лучших OCR-систем является программа FineReader. Основным преимуществом этой программы является то, что она позволяет с высокой точностью распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. К основным особенностям программы также следует отнести малую чувствительность к дефектам печати, а также возможность редактирования в главном окне программы и сохранение результатов в наиболее удобном для пользователя формате.

Автоматический ввод печатных документов в компьютер с помощью программы FineReader осуществляется в пять этапов: сканирование, анализ макета страницы, распознавание, проверка результатов, сохранение распознанного текста.

Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы.

Существует ряд методов, позволяющих распознавать различные объекты (например, символы). Одним из наиболее распространенных является метод сравнения с эталоном. При этом под эталоном понимается набор пар «усредненное точечное изображение символа — его название». Суть метода сравнения с эталоном заключается в последовательном сравнении растра объекта распознавания с растрами эталонов. В результате такого сравнения выбирается название символа, усредненное точечное изображение которого в наибольшей степени соответствует растру объекта распознавания.

Преимуществом OCR-систем, использующих данный метод, является возможность их обучения, т. е. возможность создания пар «растровое изображение — название символа». Такое обучение позволяет распознавать тексты, использующие декоративные шрифты, специальные символы, а также документы плохого качества и большого объема.

Недостатки метода сравнения с эталоном: во-первых, для одного и того же символа необходимо хранить несколько растров-эталонов, а во-вторых, сравнение растра объекта распознавания с растрами-эталонами осуществляется последовательно, что снижает скорость распознавания. С целью устранения указанных недостатков разработчики OCR-системы FineReader усовершенствовали метод сравнения с эталоном, сделав его весьма эффективным.

Несмотря на высокую точность распознавания текста современных OCR-систем (в том числе и FineReader), она по-прежнему несоизмерима с точностью распознавания символов человеком. Определенное количество ошибок распознавания почти неизбежно, поэтому возникает необходимость проверки результатов распознавания и редактирования полученного текста.

Программа FineReader оснащена соответствующими средствами проверки правописания и редактирования.

Сохранение результатов распознавания возможно в разнообразных форматах: rtf, doc, word, xml, PDF, ppt, html, txt, csv, dbf, xls.

К приложениям, поддерживающим передачу данных из FineReader, относятся: Microsoft Word 6.0, 7.0, 97 (8.0), 2000 (9.0), 2002 (10.0) и 2003 (11.0); Microsoft Excel 6.0, 7.0, 97 (8.0), 2000 (9.0), 2002 (10.0) и 2003 (11.0); Microsoft PowerPoint 2002 (10.0) и 2003 (11.0); Corel WordPerfect 7.0, 8.0, 9.0 и 2002 (10.0); PROMT 98 и многие другие приложения, поддерживающие стандарт ODMA.

⇐ Предыдущая 3 4 5 6 7 8910 11 12 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.