Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Практическая работа №17






Тема: Сканирование и распознавание документов с помощью программы ABBYY Fine Reader 8.0 Professional Edition

 

Цель: научиться сканировать и работать со сканером

Оборудование: IBM PC, сканер

Программное обеспечение: Windows, ABBYY Finereader

 

Краткая теория

 

Сканеры с интерфейсом SCSI требуют установки в компьютер дополнительной платы SCSI- адаптера, которая поставляется в комплекте со сканером. Преимуществом интерфейса SCSI является обеспечение высокой скорости сканирования.

К компьютерам, оснащенным USB-портом, лучше подключать сканер с USB-интерфейсом. Скорость при этом несколько уступает интерфейсу SCSI, однако простота подключения сканера искупает этот недостаток.

Сканеры с интерфейсом параллельного порта подключаются к уже имеющемуся параллельному порту. Пропускная способность параллельного порта значительно меньше по сравнению с интерфейсом SCSI. Однако при этом нет необходимости устанавливать дополнительную плату.

В комплект поставки сканера входит специальная программа — драйвер, предназначенная для управления процедурой сканирования и настройки основных параметров сканера.

Стандарт TWAIN определяет порядок обмена данными между прикладной программой и драйвером сканера, что позволило решить проблему совместимости различных компьютерных плат­форм, сканеров разных моделей и форматов представления данных. С помощью TWAIN-совместимого сканера можно сканировать изображения из любой программы, например Photoshop, CorelDRAW, PageMaker, PhotoStyler и др.

OCR-приложения (приложения, которые производят сканирование и распознавание текста, от англ. Optical Character Recognition - Оптическое распознавание символов) - программы для перевода изображений документов в редактируемый текст, который можно затем обрабатывать в текстовых и табличных редакторах. По сравнению с ручной перепечаткой текста, такие программы дают существенный выигрыш в скорости работы, к тому же делают меньше ошибок. Еще одно достоинство - возможность сохранить иллюстрации, а они иногда не менее важны, чем текст документа.

OCR CUNEIFORM - это бесплатная программа сканирования и распознавания текста российского разработчика Cognitive Technologies.

Первоначально OCR CuneiForm разрабатывался как коммерческий продукт, однако, в декабре 2007 года компания-разработчик стала распространять программу бесплатно, а в апреле 2008 года открыла исходные тексты программы. В планах дальнейшее развитие этой системы распознавания текста - проект OpenOcr.Org, поддерживаемый компанией Cognitive Technologies и сообществом OpenSource разработчиков.

Эта OCR программа прилагается в комплекте с некоторыми моделями сканеров фирм Canon, Hewlett Packard, Oki, Olivetti. Технологии распознавания компании Cognitive используются в популярном издательском пакете Corel Draw.

OCR CuneiForm обеспечивает быстрое, удобное и качественное распознавание текста с сохранением* исходного вида документа. Поддерживается распознавание с более 20 языков, среди них русский, украинский, английский, немецкий, французский, испанский, итальянский, португальский, шведский, финский, сербский, хорватский, польский, а также распознавание смешанного русско-английского текста.

Основные возможности бесплатной программы сканирования и распознавания текста OCR CuneiForm:

· современный и интуитивно-понятный интерфейс, встроенные помощники для сканирования распознавания текста;

· встроенный текстовый редактор и система контроля правописания для работы с распознанным текстом;

· распознавание текста с сохранением исходного вида документа;

· •распознавание таблиц со сложной структурой, многоколоночного текста;

· сохранение черно-белых и цветных иллюстраций в распознанном документе;

· поддерживаются все TWAIN-совместимые сканеры;

· использование современных разработок, таких как нейронные сети, адаптивное распознавание символов, когнитивный анализ и другие;

· распознавание печатных шрифтов из книг, журналов, газеты, текстов из пишущих машинок, распечаток из матричных и лазерных принтеров и т.п.;

· режимы автоматического, полуавтоматического и ручного разбиения на блоки для поиска - документе текстовых фрагментов, рисунков и таблиц;

· дополнительные возможности, повышающие удобство работы с программой.

 

Сайт компании-разработчика www.cognitive.ru.

ABBYY Finereader - популярная программа распознавания текста российской компании ABBYY.

Finereader обеспечивает качественное распознавание и сохранение оформления документов. Существуют три версии этого пакета распознавания: Home Edition, Professional Edition и Corporate Edition, которые отличаются своими возможностями, пользовательским интерфейсом, ценой и типом лицензии.

Версия Home Edition предназначена только для домашнего использования и пригодится тем, кому время от времени требуется получить распознанную копию страниц книги, учебника, статьи из журнала для последующего редактирования в распространенных офисных программах. Интерфейс программы упрощен, для работы можно выбрать один из типовых способов обработки изображения и нажатием одной кнопки быстро получить результат.

Professional и Corporate Edition имеют профессиональный интерфейс, дополнительно содержат поддержку распознавания PDF файлов, встроенный редактор текста, проверку орфографии. Corporate версия ориентирована на использование в организациях, поддерживаются сетевые сканеры и многофункциональные устройства, добавлены возможности для совместной работы пользователей.

Программа производит распознавание текста с более 180 языков, для 38 из них предусмотрена встроенная проверка орфографии. Начиная с версии Professional, распознаются иврит, японский, тайский, китайский языки. Finereader открывает файлы графических форматов (TIFF, JPG, PFD, PNG и др.) в том числе DjVu - компактный формат для хранения отсканированных документов, книг.

 

Этапы работы с программой:

 

1. Запуск программы.

Осуществляется в меню ПУСК-> Все программы ABBYY Finereader

 

Стартует программа с предложения - ввести документ с помощью Мастера Scan& Read, запустить обучающее приложение или показать работу пакета в демонстрационном режиме. Демо-пример, стоит отметить, отличный способ ознакомиться с принципом работы пакета для новичков.

 

2. Сканирование.

 

 

3. Теперь задаём в режим распознавания - мышкой или горячей клавишей, и процесс пошёл.

 

 

· Исправление или проверка орфографии и распознанного текста.

· Если необходимо сканировать несколько листов повторяем 2-4 пункт.

4. Сохранение результатов.

 

 

Ход работы

1. Изучить краткую теорию и ответить на контрольные вопросы.

2. Проверьте подключение сканера. Запишите в отчёт марку и особенности предлагаемого оборудования.

3. Запустите ABBYY Finereader.

4. Произвести сканирование с источника, содержащего текстовый фрагмент и графическое изображение с разрешающей способностью 72, 96, 120, 150, 200, 300 точек на дюйм. Определить размеры полученных графических файлов в формате BMP.

5. Выполнить распознавание текста для каждого из полученных графических файлов. Определить количество ошибок (неправильно распознанных символов, включая знаки препинания и пробелы) для каждого случая. Сделать выводы о факторах, влияющих на качество распознавания текстовой информации и способах уменьшения ошибок распознавания.

6. При помощи графического редактора сохранить файл, имеющий максимальное разрешение, различных форматах (JPG (низкое качество), JPG (среднее качество), JPG (наилучшее качество), G. PNG). Выполнить качественное и количественное сравнение исходного BMP и файлов, использующих алгоритмы сжатия. Сделать выводы относительно достоинств и областей использования каждого из форматов.

7. Сделать вывод о проделанной работе.

 

Количество символов в оригинальном тексте (N):  
№№ Разрешение Количество Относительное количество
п./п. сканирования, dpi ошибок (n) ошибок (n/N)* 100%
       
       
       
       
       
       

 

 

Разрешение сканирования, dpi:  

№ п./п Формат (качество) Размер файла, байт Качественная оценка изображения в масштабе 100% (наблюдаемые явления, эффекты, особенности)
  BMP    
  JPG (низкое качество)    
  JPG (среднее качество)    
  JPG (наилучшее качество)    
  GIF    
  PNG    

 

 

Контрольные вопросы

  1. Для чего нужен драйвер?
  2. Какие программы для сканирования и распознавания текста вы знаете?
  3. Чем программы для сканирования и распознавания текста отличаются друг от друга?
  4. Как производится сканирование документа?
  5. Как в программе проверить ошибки, допущенные при распознавании текста?
  6. Что такое распознавание?

Литература

1. Михеева Е.В. Информационные технологии в профессиональной деятельности: учеб. пособие для студ. сред. проф. образования / Е.В. Михеева. – 8-е изд., стер. – М.: Издательский центр «Академия», 2010. – 384 с.







© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.