Реферат 6 Перечень сокращений, символов и специальных терминов 8 1 Оптическое распознавание текста 10

Содержание

Реферат 6

Перечень сокращений, символов и специальных терминов 8

Введение 9

1 Оптическое распознавание текста 10

1.1 Понимание изображения документа 10

1.1.1 Анализ проекционных профилей 11

1.1.2 Преобразование Хафа 11

1.1.3 Кластеризация ближайших соседей 12

1.1.4 Корреляция строк 12

1.1.5 Другие методы 13

1.2 Логический анализ разметки 13

1.3 Оптическое распознавание символов 14

1.4 Применение нейронных сетей для оптического распознавания символов 17

1.4.1 Перцептрон 17

1.4.1.1 Классификация перцептронов 20

1.4.1.2 Обучение перцептронов 22

1.4.1.2.1 Обучение с пощрением 23

1.4.1.2.2 Обучение без поощрения 24

1.4.1.2.3 Метод обратного распространения ошибки 25

1.4.1.3 Ограничения перцептронов 25

1.4.1.4 Применение перцептронов для оптического распознавания символов 27

1.4.2 Сети Джордана и Элмана 28

1.4.2.1 Применение сетей Джордана и Элмана для OCR 29

1.4.3 Сети Хопфилда и Хэмминга 30

1.4.3.1 Архитектура сети Хопфилда 30

1.4.3.2 Обучение сетей Хопфилда 33

1.4.3.3 Процесс работы сетей Хопфилда и Хэмминга 36

1.4.3.3.1 Синхронный режим работы сети 40

1.4.3.3.2 Асинхронный режим работы сети 41

1.4.3.4 Ограничения сетей Хопфилда и Хэмминга 42

1.4.3.5 Применение сетей Хопфилда и Хэмминга для оптического распознавания символов 43

1.4.4 Сети Ворда 43

1.4.5 Сети Кохонена 44

1.4.6 RBF-сети 45

1.5 Выводы 46

2 Неокогнитрон 47

2.1 Архитектура неокогнитрона 47

2.2 Обучение неокогнитрона 52

2.3 Выводы 55

3 Модульная система распознавания текста 56

3.1 Выводы 59

4 Программная реализация 60

4.1 Генерация обучающих последовательностей 60

4.2 Обучение сети и распознавание текста 63

4.3 Выводы 66

5 Экспериментальное исследование разработанной системы распознавания текста 67

5.1 Выводы 69

6 Организационно-экономическая часть 70

Введение 70

6.1 Описание продукта 70

6.2 Анализ рынка сбыта 71

6.3 Конкурентоспособность 71

6.4 Маркетинг 72

6.5 План работ 73

6.6 Организационный план 74

6.7 Расчет договорной цены 78

6.8 Оценка экономической целесообразности проведения работ 81

Выводы по главе «Организационно-экономическая часть» 81

7 Экологическая безопасность и безопасность жизнедеятельности 83

Введение 83

7.1 Требования к производственным процессам и оборудованию 83

7.2 Требования к отоплению, вентиляции и кондиционированию воздуха 86

7.3 Требования к организации рабочих мест 87

7.4 Требования к естественному и искусственному освещению 90

7.5 Требования к шуму и вибрации 92

7.6 Требования к организации режима труда и отдыха 92

7.7 Организация оптимального рабочего места программиста 95

7.8 Расчет освещенности 96

Выводы по главе «Экологическая безопасность и безопасность жизнедеятельности» 99

Заключение 101

Литература 102

Реферат

Объем расчетно-пояснительной записки составил 103 страницы, из которых специальная часть – 59 страниц, организационно-экономическая часть – 12 страниц и экологическая безопасность и безопасность жизнедеятельности – 17 страниц. Число страниц приложения с исходным текстом программы составило 123 страницы. Число иллюстраций в расчетно-пояснительной записке – 10, таблиц – 4.

В рамках дипломного проекта была разработана система распознавания текста СиРТ.

В первом разделе дипломного проекта был проведен анализ принципов построения систем оптического распознавания текста и обзор существующих архитектур нейронных сетей и их применимости для решения задач распознавания символов.

Во втором разделе детально рассматривается архитектура нейронной сети «неокогнитрон» и процесс обучения этой сети.

В третьем разделе дипломного проекта содержится описание модульной системы распознавания текста. Предложены различные комбинации модулей для изменения функциональности системы.

В четвертом разделе дипломного проекта описана программная реализация предложенной системы и её пользовательский интерфейс

В пятом разделе дипломного проекта программная реализация предложенной системы подвергается экспериментальному исследованию, приведены результаты этого исследования.

Далее, в восьмой и девятой главах представлены разделы по организационно-экономической части и части экологии безопасности жизнедеятельности. Здесь приведен бизнес-план по внедрению данного проекта, рассчитана его оценочная стоимость. В части безопасности жизнедеятельности спроектировано оптимальное рабочее место программиста.

В конце пояснительной записки приведено приложение с текстом разработанного программного продукта, а также обучающая и тестирующая последовательности в полном объёме.

Перечень сокращений, символов и специальных терминов
OCR – Optical Character Recognition, Оптическое Распознавание Символов;

ПО – программное обеспечение;

СОПО — свободное и открытое программное обеспечение — ПО, которое распространяется с условием передачи каждому пользователю прав на запуск/использование ПО, адаптацию/модификацию ПО, распространение ПО и распространение модифицированных версий ПО. СОПО гарантирует передачу этих прав каждому пользователю и делает невозможным отчуждение этих прав. Открытость подразумевает гарантию предоставления исходного кода программы;

СиРТ — Система Распознавания Текста — название разработанной в рамках проекта системы;

ИНС — искусственная нейронная сеть.
Введение

Оптическое распознавание символов (Optical Character Recognition, OCR) – это механическое или электронное преобразование изображения рукописного или отпечатанного текста (обычно полученного путём сканирования) в текст, поддающийся обработке текстовыми процессорами.

Оптическое распознавание текста — более общее понятие, которое включает в себя не только распознавание собственно символов, но и анализ разбивки страниц и выделение нетекстовых элементов (рисунки, таблицы). Часто под OCR подразумевают распознавание текста и называют системы распознавания текста OCR-системами.

Проблема OCR становится всё более актуальной в связи с активным внедрением цифровой вычислительной техники и широким использованием текстовых процессоров. Уже существует ряд систем, способных распознавать печатный текст с достаточно высокой эффективностью, однако проблема распознавания рукописного текста остаётся предметом активных научных исследований в областях распознавания образов, искусственного интеллекта и машинного зрения. Однако некоторые решения, предлагаемые для распознавания рукописного текста, могут быть применены и для распознавания печатного текста. Целью данной работы является разработка новой системы распознавания текста, которая использует наиболее передовые алгоритмы распознавания образов, обладает гибкой структурой и может распространяться в качестве СОПО.

1 Оптическое распознавание текста

Проблема распознавания текста обычно решается в три этапа:

Выделение текста из изображения — включает в себя определение угла наклона страницы, выделение абзацев, удаление декоративной графики, определение таблиц и так далее
Распознавание символов текста — собственно OCR, включает в себя выделение характерных черт и классификацию образов
Распознавание слов текста — составление слов из распознанных символов

На каждом этапе для решения проблемы требуются разные средства, которые в совокупности образуют систему распознавания текста. В зависимости от специфики задачи (печатный или рукописный текст, язык текста и т.д.) разные средства применяются на разных этапах.

1.1 Понимание изображения документа

Большинство техник анализа изображения можно разделить на несколько групп, основываясь на используемых в них основных подходах:

1)Анализ проекционных профилей

2)Преобразование Хафа

3)Кластеризация связанных компонентов

4)Корелляция строк

5)Другие

Существуют также техники, основанные на градиентном анализе, анализе спектра Фурье, использовании морфологических преобразований и на обнаружении пустых строк.

Приведённые подходы применяются для определения угла наклона текста и декомпозиции страницы (деления страницы на регионы).

1.1.1 Анализ проекционных профилей

Этот подход отталкивается от предположения о том, что текст выстроен вдоль параллельных прямых линий. Принципиальная схема предполагает расчёт проекционного профиля по каждому углу наклона, определение функции премиума и выбор такого угла, который приводит её в оптимальное состояние. Подход требует относительно большое количество вычислительной мощности, поэтому было предложено несколько упрощённых вариантов, которые либо уменьшают время расчёта профилей, или оптимизируют стратегию поиска оптимума.

1.1.2 Преобразование Хафа

Эти техники основаны на наблюдении того, что текст отличается выравниванием символов, и что строки обычно параллельны друг другу. Для каждого чёрного пикселя изображения находится соответствующая кривая в параметрическом пространстве , пространстве Хафа, с помощью преобразования . Угловое разрешение метода зависит от разрешения оси . Сложность — линейна относительно числа преобразовывающихся точек и требуемого углового разрешения.

Срихари (Srihari) и Говиндараю (Govindaraju) применяют эту технику к бинарному изображению участка документа, который гарантированно содержит лишь текст, и только под одним углом наклона. Каждый чёрный пиксель отображается в пространство Хафа, и наклон определяется как угол в параметрическом пространстве, дающий максимальную сумму квадратов градиента по .

Для ускорения расчётов был предложен ряд вариантов, в которых происходит меньшее число отображений. Это достигается либо ограничением области анализа, либо ограничением пикселей неким подмножеством представителей.

1.1.3 Кластеризация ближайших соседей

Методы этого класса нацелены на использование общего предположения о том, что символы в строке выровнены и расположены близко друг к другу. Они характеризуется обработкой снизу вверх, которая начинается с множества объектов, связанных компонентов или представляющих их точек, и используют их взаимные расстояния и пространственные отношения для оценки угла наклона.

1.1.4 Корреляция строк

Делая предположение о том, что повёрнутые текстовые регионы представляют собой гомогенную горизонтальную структуру, эти подходы нацелены на оценку наклона путём измерения вертикального отклонения в изображении.

Акияма (Akiyama) и Хагита (Hagita) описывают быстрый метод определения наклона: документ делится на несколько вертикальных полос одинаковой ширины. Вычисляются горизонтальные проекционные профили полос, а также сдвиги, дающие лучшую корреляцию одной проекции с последующей. Наклон определяется как обратный тангенс отношения среднего сдвига и ширины полосы.

1.1.5 Другие методы

Также существуют методы, основанные на градиентном направленном анализе, преобразовании Фурье, на открытых и закрытых морфологических преобразованиях, техники основанные на размытии, техники классификации блоков и другие.

следующая страница >>