Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Оптическое распознавание символов (OCR)






Когда страница текста отсканирована в ПК, она представле­на в виде состоящего из пикселей растрового изображе­ния. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превра­тить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, извест­ный как оптическое распознавание символов (optical character recognition — OCR).

В то время как переход от символьной информации к графи­ческой (растровой) достаточно элементарен и без труда осущест­вляется, например при выводе текста на экран или печать, обратный переход (от печатного текста к текстовому файлу в ма­шинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфоленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. «В защиту» перфокарт скажем здесь, что наиболее «продвину­тые» устройства перфорации делали надпечатку на карте для проверки ее содержания.

Первые шаги в области оптического распознавания симво­лов были предприняты в конце 50-х гг. XX в. Принципы распо­знавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.

В середине 70-х гг. была предложена технология для ввода информации в ЭВМ, заключающаяся в следующем:

• исходный документ печатается на бланке с помощью пи­шущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, по­добно тому, как это делаем мы и сейчас, нанося на почто­вый конверт цифры индекса);

• полученный «машинный документ» считывается оптоэлектрическим устройством (собственно OCR), которое коди­рует каждый символ и определяет его позицию на листе;

• информация переносится в память ЭВМ, образуя элек­тронный образ документа или документ во внутреннем представлении.

Очевидно, что по сравнению с перфолентами (перфокарта­ми) OCR-документ лучше хотя бы тем, что он без особого труда может быть прочитан и проверен человеком и, вообще, представляет собой «твердую копию» соответствующего введенного доку­мента. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A, OCR В и пр., рис. 4.1).

Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный (считывание стилизованных символов), но интеллектуальный (распознавание их).

OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид:

• считывание исходного документа осуществляется универ­сальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;

• функции распознавания полностью возлагаются на про­граммные продукты, которые, естественно, получили на­звание OCR-software.

Исследования в этом направлении начались в конце 1950-х гг., и с тех пор технологии непрерывно совершенствова­лись. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с неко­торыми типами и размерами шрифтов. В настоящее время программное обеспечение оптического распознавания символов на­много более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения доку­мента.






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.