Модели нейронных сетей

⇐ ПредыдущаяСтр 3 из 6Следующая ⇒

Многослойный персептрон

В данное время для решения прикладных задач чаще всего используются так называемые многослойные нейронные сети прямого распространения (Multilayer Perceptron MLP) с нелинейной функцией активации, что позволяет существенно расширить область решаемых сетью задач. На рис. 8.4 приведена схема построения трехслойной сети прямого распространения. Такая сеть теоретически может аппроксимировать любую многомерную функцию с каждой, заранее заданной точностью [Колмогоров] – вопрос касается лишь количества нейронов, размеров сети и времени учебы.

Задачи моделирования для нейронной сети сводятся к настройке всех ее взвешивающих коэффициентов, что проводится на «учебном множественном числе».

Как известно, уровнем активации элемента называется взвешенная сумма его входов с прибавленным к ней предельным значением. Таким образом, уровень активации являет собой простую линейную функцию входов.

Эта активация потом превращается с помощью нелинейной (часто – «сігмавидної», что имеет S-подобную форму) кривой.

Комбинация линейной функции нескольких переменных и скалярной «сігмавидної» функции приводит к характерному профилю «сігмавидного склона», который выдает элемент первого промежуточного слоя MLP. При изменении ваг и порогов изменяется и поверхность отзыва. При этом может изменяться как ориентация всей поверхности, так и крутизна склона. Большим значением ваг отвечает более крутой склон. Да, если увеличить все весы в два разы, то ориентация не изменится, а наклон будет круче.

Рис. Ошибка! Текст указанного стиля в документе отсутствует.. 12. Схема построения трехслойной сети

В многослойной сети подобные функции отзыва комбинируются одна из одною путем образования их линейных комбинаций и применения нелинейных функций активаций

Перед началом учебы сети весам и порогам случайным образом присваиваются небольшие за величиной начальные значения. Тем самым отзывы отдельных элементов сети имеют малый наклон и ориентированные хаотически – фактически они не связаны одна с другой. По мере того, как происходит учеба, поверхности отзыва элементов сети возвращаются и сдвигаются в нужное положение, а значения ваг увеличиваются, поскольку они должны моделировать отдельные участки целевой поверхности отзыва.

В задачах классификации исходный элемент должен выдавать сильный сигнал в случае, если данное наблюдение принадлежит к классу, что нас интересует, и слабый – в противоположном случае. Иначе говоря, этот элемент должен стремиться смоделировать функцию, ровную единице в той области пространства объектов, где располагаются объекты нужного класса, и ровную нулю вне этой области. Такая конструкция известна как дискримінантна функция в задачах распознавания. " Идеальная" дискримінантна функция должна иметь плоскую структуру, так, чтобы точки соответствующей поверхности располагались или на нулевом уровне, или на высоте единица.

Если сеть не содержит скрытых элементов, то на выходе она может моделировать только одинарный " сігмавидний склон": точки, которые находятся по одну его сторону, располагаются низко, по другую – высоко. При этом всегда будет существовать область между ними (на склоне), где высота принимает промежуточные значения, но в меру увеличения ваг эта область будет сужаться.

В задачах классификации очень важно понять, как стоит интерпретировать те точки, которые попали на склон или лежат близко от него. Стандартный выход здесь заключается в том, что для предельных значений установить некоторые доверительные границі (принятие или отбрасывание), которые должны быть достигнуты, чтобы данный элемент считался " таким, который принял решение". Например, если установлены пороги принятия/отбрасывания 0, 95/0, 05, то при уровне исходного сигнала, который превосходит 0, 95 элемент считается активным, при уровне ниже 0, 05 – неактивным, а в промежутке – " неопределенным".

Есть и более тонкий способ интерпретировать уровни исходного сигнала: считать их вероятностями. В этом случае сеть выдает немного большую информацию, чем просто " так/ні": она сообщает нам, насколько (в некотором формальном смысле) мы можем доверять ее решению. Разработаны модификации модели MLP, которые позволяют интерпретировать исходный сигнал нейронной сети как вероятность, в результате чего сеть собственно говоря учится моделировать плотность вероятности деления данного класса.

Вероятностная нейронная сеть в задачах классификации.

Выходы сети можно интерпретировать, как оценки вероятности принадлежности элемента к определенному классу. Вероятностная сеть (Probabilistic Neural Network – PNN) учится оценивать функцию плотности вероятности, ее выходной сигнал рассматривается как ожидаемое значение характеристики модели в данной точке пространства входов. Это значение связано с плотностью вероятности общего деления входных и исходных данных.

Задача оценки плотности вероятности относится к области байєсовської статистики. Обычная статистика по заданной модели показывает, какая вероятность того или другого выхода (например, на игральном кубике 6 глазков будет выпадать в среднем в одном случае из шести). Байесовска статистика интерпретирует по другому: правильность модели оценивается по имеющимся достоверным данным, то есть дает возможность оценивать плотность вероятности деления параметров модели по имеющимся данным. При решении задачи классификации можно оценить плотность вероятности для каждого класса, сравнить между собой вероятности принадлежности разным классам и выбрать наиболее вероятный. Традиционный подход к задаче заключается в том, чтобы построить оценку для плотности вероятности по имеющимся данным. Обычно при этом предусматривается, что плотность имеет некоторый определено деление (чаще всего – что она имеет нормальное деление). После этого оцениваются параметры модели.

Другой подход к оценке плотности вероятности основан на ядерных оценках. Можно рассуждать так: тот факт, что результат наблюдения расположен в данной точке пространства, свидетельствует о том, что в этой точке есть некоторая плотность вероятности. Кластеры из близко лежащих точек указывают на то, что в этом месте плотность вероятности большая. Вблизи наблюдения есть большее доверие к уровню плотности, а по мере отдаления от него доверие уменьшается и следует к нулю. В методе «ядерных оценок» в точке, которая отвечает каждому наблюдению, размещается некоторая простая функция, потом все они добавляются и в результате получается оценка для общей плотности вероятности. Чаще всего в качестве «ядерных функций» берутся гауссу функции (с формой звона). Если учебных примеров достаточное количество, то такой метод дает достаточно красивое приближение к истинной плотности вероятности.

Эта сеть имеет входной, радиальный (спрятанный) и исходный слои. Радиальные элементы скрытого слоя берутся по одному на каждое учебное наблюдение. Каждый из них представляет гаусову функцию с центром в этом наблюдении. Каждому классу отвечает один выходной элемент. Каждый такой элемент соединен со всеми радиальными элементами, которые относятся к его классу, а со всеми другими радиальными элементами он имеет нулевое соединение. Таким образом, исходный элемент просто добавляет отзывы всех элементов, которые принадлежат к его классу. Значения исходных сигналов оказываются пропорциональными «ядерным оценкам» вероятности принадлежности соответствующим классам, и пронормировав их на единицу, мы достаем окончательные оценки вероятности принадлежности классам.

Базовая модель сети может иметь две модификации. В первом случае мы допускаем, что пропорции классов в учебном множественном числе отвечают их пропорциям во всей исследуемой популяции (или так называемым априорным вероятностям). Например, если среди всех людей больными является 2%, то в учебном множественном числе для сети, которая диагностирует заболевание, больных должно быть тоже 2%. Если же априорные вероятности будут отличаться от пропорций в учебной выборке, то сеть будет выдавать неправильный результат. Это можно впоследствии учесть (если стали известными априорные вероятности), вводя поправочные коэффициенты для разных классов.

Второй вариант модификации основан на следующей идее. Любая оценка, которая кажется сетью, основывается на зашумлених данных и неминуемо будет приводить к отдельным ошибкам в классификации (например, у некоторых больных результаты анализов могут быть целиком нормальными). Иногда бывает целесообразно считать, что некоторые виды ошибок обходятся " дороже" других (например, если здоровый человек будет диагностирован как больная, то это вызовет лишние расходы на его обследование, но не создаст угрозы для жизни; если же не будет обнаружен действительно больной, об это может привести к смертельному результату). В такой ситуации те вероятности, которая выдает сеть, стоит умножить на коэффициенты потерь, что отбивает относительную цену ошибок классификации.

Наиболее важны преимущества рассмотренных сетей заключаются в потому, что исходное значение имеет вероятностное содержание и потому его легче интерпретировать), и в том, что сеть быстро учится. При учебе такой сети время тратится практически только на то, чтобы подавать ей на вход учебные наблюдения, и сеть работает настолько быстро, насколько это вообще возможно.

Существенным недостатком таких сетей является их объем в сравнении из MLP моделями, которые решают аналогичные задачи. Нейронная сеть фактически вмещает у себя все учебные данные, потому она требует много памяти и может медленно работать.

Обобщенно регрессионная нейронная сеть в задачах регрессии

Обобщенно регрессионная нейронная сеть (Generalized Regression Neural Network - GRNN) построена аналогично вероятностной нейронной сети (PNN), но она предназначена для решения задач регрессии, а не классификации. Как и в случае PNN-сети, в точку расположение каждого учебного наблюдения размещается гаусова ядерная функция. Считается, что каждое наблюдение свидетельствует о некоторой нашей уверенности в том, что поверхность отзыва в данной точке имеет определенную высоту, и эта уверенность уменьшается при отходе в сторону от точки. GRNN-сеть копирует у себя все учебные наблюдения и использует их для оценки отзыва в произвольной точке. Окончательная исходная оценка сети образуется как взвешено среднее выходов по всем учебным наблюдениям, где величины ваг отбивают расстояние от этих наблюдений к той точке, в которой осуществляется оценивание (и, таким образом, более близкие точки вносят больший вклад в оценку).

Первый скрыт слой сети состоит из радиальных элементов. Второй спрятанный слой содержит элементы, которые помогают оценить взвешенное среднее. Для этого используется специальная процедура. Каждый выход имеет в этом слое свой элемент, который формирует для него взвешенную сумму. Чтобы получить из взвешенной суммы взвешено среднее, эту сумму нужно разделить на сумму взвешивающих коэффициентов. Последнюю сумму вычисляет специальный элемент второго слоя. После этого в исходном слое проводится собственное деление (с помощью специальных элементов " деления"). Таким образом, число элементов во втором промежуточном слое на единицу больше, чем в исходном слое. Как правило, в задачах регрессии нужно оценить одно исходное значение и, соответственно, второй промежуточный слой содержит два элемента.

Преимущества и недостатки сетей GRNN в основном такие же, как и у сетей PNN. Единственная разница в том, что GRNN используются в задачах регрессии, а PNN – в задачах классификации.

Карты Кохонена, что самоорганізуються

Сети Кохонена принципиально отличаются от других приведенных типов сетей. В то время как все другие сети предназначены для задач с управляемой учебой, сети Кохонена рассчитаны на неуправляемую учебу. При этом учебные данные содержат только значение входных переменных. Схема сети Кохонена представлена на рис.8.5.

Рис. Ошибка! Текст указанного стиля в документе отсутствует.. 13. Схема сети Кохонена

Одно из возможных применений таких сетей – исследовательский анализ данных. Сеть Кохонена может распознавать кластеры в данных, а также устанавливать близость классов. Таким образом, исследователь может улучшить свое понимание структуры данных, чтобы потом уточнить нейромережеву модель. Если в данных распознаны классы, то их можно обозначить, после чего сеть сможет решать задачи классификации. Сети Кохонена можно использовать и в тех задачах классификации, где классы уже заданы, – тогда преимущество будет в том, что сеть сможет обнаружить подобие между разными классами.

Другая возможна область применения – выявление новых явлений. Сеть Кохонена распознает кластеры в учебных данных и относит все данные до тех или других кластеров. Если после этого сеть встретится с набора данных, непохожего ни на один из известных образцов, то она не сможет классифицировать такой набор и тем самым обнаружит его новизну.

Сеть Кохонена имеет всего два слоя: входной и исходный, составленный из радиальных элементов (выходной слой называют также слоем топологической карты). Элементы топологической карты располагаются в некотором пространстве – как правило двумерному.

Учится сеть Кохонена методом последовательных приближений. Начиная со случайным чином избранного исходного расположения центров, алгоритм постепенно улучшает его так, чтобы улавливать кластеризацию учебных данных.

При решении задач классификации в сетях Кохонена используется так называемый порог доступа. Из-за того, что в такой сети уровнем активации нейрона является расстояние от него к входному примеру, порог доступа играет роль максимального расстояния, на котором происходит распознавание. Если уровень активации нейрона, который выиграл, превышает это предельное значение, то сеть считается такой, которая не приняла никакого решения.

Линейная сеть

В соответствии с общепринятым принципом – если более сложная модель не дает лучших результатов, чем более простая, то из них следует отдать преимущество второй. В сроках аппроксимации отображений самой простой моделью будет линейна, в которой подгоночная функция определяется гиперплоскостью. В задаче классификации гиперплоскость размещается таким образом, чтобы она разделяла собой два класса (линейная дискримінантна функция); в задаче регрессии гиперплоскость должна проходить через заданные точки. Линейная модель обычно записывается с помощью матрицы Nx и вектора сдвига размера N.

Линейная сеть является красивой точкой отсчета для оценки качества построенных нейронных сетей. Может оказаться, что задачу, которая считалась очень сложной, можно успешно решить не только нейронной сетью, но и простым линейным методом. Если же в задаче не так много учебных данных, то, вероятно, просто нет оснований использовать более сложные модели.

⇐ Предыдущая 1 234 5 6 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.