Критический анализ моделей нейронных сетей

Тип работы:
Реферат
Предмет:
Кибернетика
Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

© Д.В. ПОСТАРНАК
dmi1852@yandex. ru
УДК 662
КРИТИЧЕСКИЙ АНАЛИЗ МОДЕЛЕЙ НЕЙРОННЫХ СЕТЕЙ
АННОТАЦИЯ. В статье описываются сильные и слабые стороны распространённых на сегодняшний день моделей нейронных сетей с целью выявления причины недостаточной активности нейронных сетей на практике.
SUMMARY. Strong and weak sides of neural network models extended today are investigated in this article for purpose of revealing the reason of insufficient neural networks activity in practice.
КЛЮЧЕВЫЕ СЛОВА. Входной образ, нейрон, классификация, синаптический
вес.
KEY WORDS. Entrance image, neuron, classification, synapse weight.
Введение. Цель работы — выяснение причины недостаточной активности в использовании на практике мощного инструмента распознавания и классификации образов — искусственных нейронных сетей (ИНС). Для этого ниже приводится краткий обзор и критический анализ распространенных моделей ИНС.
Персептрон Розенблатта. Персептрон Розенблатта является одной из ранних моделей ИНС. Он является простейшей формой нейронной сети, предназначенной для классификации линейно-разделимых сигналов. Состоит он из одного нейрона с настраиваемыми синаптическими весами и порогом. Первый алгоритм настройки свободных параметров для такой нейронной сети был создан Розенблаттом для персептронной модели мозга. Розенблатт доказал, что если образы (векторы), используемые для обучения персептрона, выбраны из двух линейно-разделимых классов, то алгоритм персептрона сходится и формирует поверхность решений в форме гиперплоскости, разделяющей эти два класса. Доказательство сходимости этого алгоритма получило название теоремы о сходимости персептрона. Персептрон, построенный на одном нейроне, ограничен выполнением задачи разделения только двух классов (гипотез). Увеличивая размерность выходного (вычислительного) слоя персептрона и включая в него несколько нейронов, можно решать задачи классификации на большее число классов [1- 171−172].
Интерес к однослойным персептронам исчез, когда выяснилось, что они не способны обучиться решению ряда простых задач, например, задачи исключающего «или». М. Л. Минский [2- 27] проанализировал эту проблему и показал, что имеются жесткие ограничения на то, что могут выполнять однослойные персептроны, и, следовательно, на то, чему они могут обучаться. Так как в 60-е гг. методы обучения многослойных сетей не были известны, исследователи перешли в более многообещающие области, и исследования в области нейронных сетей пришли в упадок. Недавнее открытие методов
обучения многослойных сетей в большей степени повлияло на возрождение интереса и исследовательских усилий.
многослойный персептрон. Многослойные персептроны имеют три отличительных признака. Каждый нейрон имеет нелинейную функцию активации. Эта нелинейная функция является гладкой (всюду дифференцируемой), в отличие от жесткой пороговой функции, используемой в персептроне Розенблат-та. Самой популярной формой функции, удовлетворяющей этому требованию, является сигмоидальная, определяемая логистической функцией
У,-=------------, (1)
7 1 + ехр (-V,.)
где V. — индуцированное локальное поле (взвешенная сумма всех синаптических входов плюс пороговое значение) нейрона /- у. — выход нейрона. Наличие нелинейности играет очень важную роль, так как в противном случае отображение «вход-выход» сети можно свести к обычному однослойному персептрону. Более того, использование логистической функции мотивировано биологически, так как в ней учитывается восстановительная фаза реального нейрона.
Сеть содержит один или несколько слоев скрытых нейронов, не являющихся частью входа или выхода сети. Эти нейроны позволяют сети обучаться решению сложных задач, последовательно извлекая наиболее важные признаки из входного образа (вектора). Сеть обладает высокой степенью связности, реализуемой посредством синаптических соединений. Изменение уровня связности сети требует изменения множества синаптических соединений или их весовых коэффициентов. Комбинация этих свойств наряду со способностью к обучению на собственном опыте (имеется в виду использование алгоритма обратного распространения ошибки) обеспечивает вычислительную мощность многослойного персептрона. Однако эти же качества являются причиной неполноты современных знаний о поведении такого рода сетей. Во-первых, распределенная форма нелинейности и высокая связность сети существенно усложняют теоретический анализ многослойного персептрона. Во-вторых, наличие скрытых нейронов делает процесс обучения более трудным для визуализации (представления). Именно в процессе обучения необходимо определить, какие признаки входного сигнала следует представлять скрытыми нейронами [1- 221].
К недостаткам персептронов можно также отнести неспособность к самообучению и неустойчивость к помехам во входных образах.
модель Кохонена. Эта модель основана на идее классификации входных образов с помощью пространства признаков. Благодаря такому подходу появляется возможность классифицировать по степени принадлежности к разным классам.
Разработка карт самоорганизации в качестве нейронных моделей обусловлена следующим отличительным свойством человеческого мозга: он организован таким образом, что отдельные сенсорные входы представляются топологически упорядоченными вычислительными картами в его определенных областях. В частности, такие сенсорные входы, как нервные окончания тактильной системы, зрения, и слуха, топологически упорядоченно отображаются на различные
контуры церебральной коры мозга. Карта вычислений, в свою очередь, образована массивом нейронов, представляющих собой несколько по-разному настроенные процессоры или фильтры, параллельно принимающие информацию от различных сенсоров. Следовательно, нейроны преобразовывают входные сигналы в пространственно-кодированные распределения вероятности, представляющие вычисленные значения параметров узлами относительных максимумов активности [1- 574].
В сравнении с персептронами (как с однослойным, так и с многослойным) модель Кохонена является существенным шагом вперёд, поскольку ни одна модель персептрона не способна к промежуточной классификации образов без предварительного обучения сети для необходимого промежуточного класса. Однако модель Кохонена обладает и недостатком. Здесь имеется в виду неустойчивость к помехам во входном образе. То есть, невозможно отличить, принадлежит ли текущий зашумленный образ промежуточному классу, или основному.
Когнитрон. Такие модели как персептрон и самоорганизующаяся карта Кохонена хорошо справляются с задачами распознавания и классификации образов, но только тогда, когда образы предварительно приведены в заранее установленную форму. При работе с системами распознавания часто приходится иметь дело с зашумленными данными. Модель под названием «когнитрон» осуществляет качественную и достоверную классификацию, несмотря на искажения.
Среди множества слоев нейронов выделяются слои предсинаптических нейронов и слои постсинаптических нейронов. Слои первого типа также подразделяются на области связей, которые ответственны за конкретный фрагмент входных данных. Слой постсинаптических нейронов ответственен за классификацию частей составного образа, которые могут располагаться в областях входного вектора, в соответствии с определенной областью связи. После распознавания фрагментов образа возникает задача распознать общий составляющий образ. В таком случае следующий слой рассматривается как постсинаптический, а текущий постсинаптический становится предсинаптическим. Процесс работы нейронной сети завершается с окончанием классификации общего образа. Устойчивость к искажениям обеспечивается за счет механизма конкурентного обучения нейронов постсинаптического слоя. Этот механизм используется для каждого фрагмента входного образа и выбирает нейрон постсинаптического слоя с максимальным уровнем возбуждения вне зависимости от искажения входных данных, хотя вероятность ошибки с увеличением искажений, естественно, увеличивается.
Несмотря на успешные применения и многочисленные достоинства, такие как соответствие нейроструктуры и механизмов обучения биологическим моделям, параллельность и иерархичность обработки информации, распределенность и ассоциативность памяти и др., когнитрон имеет и свои недостатки. По-видимому, главным из них является неспособность этой сети распознавать смещенные или повернутые относительно их исходного положения образы [3]. Другим недостатком является неспособность к самообучению.
Неокогнитрон. Неокогнитрон состоит из иерархии нейронных слоев, каждый из которых является массивом плоскостей. Элемент массива состоит из пары плоскостей нейронов. Первая плоскость состоит из простых нейронных клеток, которые получают сигналы от предыдущего слоя и выделяют определенные образы. Эти образы далее обрабатываются сложными нейронами второй плоскости, задачей которых является сделать выделенные образы независимыми от их положения в пространстве.
При высоких потребностях в исключении зависимости от пространственного положения входных образов неокогнитрон может представлять очень массивную и ресурсоемкую структуру. Так происходит потому, что нейроны каждой пары плоскостей обучаются реагировать на определенный образ, представленный в определенной ориентации. Для другой ориентации или для нового угла поворота образа требуется новая пара плоскостей.
Неокогнитрон успешно проявил себя при распознавании символов. Нужно отметить, что структура этой сети существенно сложна, и объем вычислений очень велик. Поэтому компьютерные модели неокогнитрона будут слишком дорогими в промышленных приложениях. Возможной альтернативой здесь является переход на аппаратные реализации. Также в качестве недостатка следует отметить неспособность к самоорганизации (самообучению).
Нейронные сети теории адаптивного резонанса. В реальной ситуации нейронная сеть головного мозга подвергается постоянно меняющимся воздействиям. Это не ограничивается аспектом распознавания зашумленных данных и данных, подверженных пространственному изменению. При изучении нейронных сетей возникает вопрос о том, как научить нейронную сеть учиться без учителя на своем опыте. Теория адаптивного резонанса является наиболее выдающимся средством для решения поставленного вопроса.
Сеть АРТ-1 (АРТ — адаптивная резонансная теория) состоит из пяти функциональных модулей (рис. 1): двух слоев нейронов — слоя сравнения, слоя распознавания и трех управляющих специализированных нейронов — сброса, управления 1 и управления 2.
Рис. 1. Модель АРТ-1
Слой распознавания служит для отнесения входного вектора X с двоичными компонентами к одному из классов. Каждому классу соответствует один нейрон слоя распознавания. В результате распознавания всего один нейрон может быть активирован. После определения наиболее подходящего класса с помощью слоя сравнения определяется остаточный сигнал, который является разницей между входным образом и образом, соответствующим подобранному классу. Если разница существенная, нейронная сеть фиксирует входной образ в качестве нового класса, то есть в набор нейронов слоя распознавания поступает новый.
Следует упомянуть о таком понятии как критическая черта образа. Дело в том, что одному классу в модели АРТ может соответствовать несколько входных образов. Критической чертой образа называется обобщённый образ, формируемый по ходу эксплуатации ИНС. Такой образ необходим для того, чтобы сделать правильный вывод о необходимости создавать дополнительный класс для поступающего образа. При рассмотрении рис. 2 становится очевидно, что входные образы а) имеют принципиальное отличие несмотря на то, что изменилась всего одна точка. Вариант б), напротив, представляет собой два одинаковых зашумленных образа.
а)
Рис. 2. Примеры входных образов
Сеть АРТ-1 приспособлена к работе только с битовыми векторами. Это неудобство преодолевается в сетях АРТ-2 и АРТ-3. Однако в этих архитектурах, как и в АРТ-1, сохраняется главный недостаток АРТ — локализован -ность памяти. Память нейросети АРТ не является распределенной. Некоторой заданной категории отвечает вполне конкретный нейрон слоя распознавания. При его разрушении теряется память обо всей категории. Эта особенность, увы, не позволяет говорить о сетях адаптивной резонансной теории, как о прямых моделях биологических нейронных сетей. Память последних является распределенной [3].
Заключение. Недостаточная активность в использовании нейронных сетей на практике является следствием выбора неправильной модели ИНС для определенной задачи. Как было показано, существует множество моделей нейронных сетей, каждая из которых хоть и имеет недостатки, но в конкретной предметной области они могут не оказывать отрицательного воздействия, или могут оказывать незначительное воздействие. Преимущества конкретной
модели не должны быть избыточными для определённой задачи, поскольку лишние положительные свойства могут повлечь нерациональное использование вычислительных ресурсов. Например, в задаче распознавания букв не следует применять карту самоорганизации Кохонена, поскольку промежуточная классификация никакого полезного эффекта не даст. Если входные образы не имеют помех, то нет смысла использовать модели когнитрона и неокогни-трона, иначе также последует лишняя нагрузка на техническую часть. Данная статья показала, на что следует обращать внимание при выборе модели нейронной сети.
список литературы
1. Хайкин С. Нейронные сети. Полный курс. Второе издание. М.: Вильямс, 2006. 1104 с.
2. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992. 240 с.
3. Терехов С. А. Лекции по теории и приложениям искусственных нейронных сетей. Лаборатотория Искусственных Нейронных Сетей НТО-2, ВНИИТФ. Снежинск, 1998.

Показать Свернуть
Заполнить форму текущей работой