Основы теории нейронных сетей

         

Когнитрон как модель зрительной коры мозга


Анализ, проводимый до этого момента, был упрощен рассмотрением только одномерных слоев. В действительности когнитрон конструировался как каскад двумерных слоев, причем в любом слое каждый нейрон получает входы от набора нейронов на части двумерного плана, составляющей его область связи в предыдущем слое.

С этой точки зрения когнитрон организован подобно зрительной коре человеческого мозга, которая представляет собой трехмерную структуру, состоящую из нескольких различных слоев. Оказывается, что каждый слой коры головного мозга реализует различные уровни обобщения; входной слой чувствителен к простым образам, таким как линии и их ориентации в определенных областях "поля зрения", в то время как реакция других слоев является более сложной, абстрактной и независимой от позиции образа.

Аналогичные функции реализованы в когнитроне путем моделирования организации зрительной коры. На рис. 13.5 показано, что нейроны когнитрона в слое 2 реагируют на определенную небольшую область входного слоя 1. Нейрон в слое 3 связан с набором нейронов слоя 2, тем самым реагируя косвенно на более широкий набор нейронов слоя 1. Далее, нейроны в последующих слоях чувствительны к более широким областям входного образа до тех пор, пока в выходном слое каждый нейрон не станет реагировать на все входное поле.

Структура сети

Рис. 13.5. 

Если область связи нейронов имеет постоянный размер во всех слоях, требуется большое количество слоев для перекрытия всего входного поля выходными нейронами. Количество слоев может быть уменьшено, если расширить область связи в последующих слоях. К сожалению, в результате может произойти настолько большое перекрытие областей связи, что нейроны выходного слоя будут иметь одинаковую реакцию. Для решения этой проблемы может быть использовано расширение области конкуренции. Так как в данной области конкуренции может возбудиться только один узел, влияние малой разницы в реакциях нейронов выходного слоя усиливается.

В альтернативном варианте связи с предыдущим слоем могут быть распределены вероятностно с большинством синаптических связей в ограниченной области и с более длинными соединениями, встречающимися намного реже. Здесь смоделировано вероятностное распределение нейронов, обнаруженное в мозге. В когнитроне это позволяет каждому нейрону выходного слоя реагировать на полное входное поле при наличии ограниченного количества слоев.



Обучение когнитрона


Так как когнитрон реализован в виде многослойной сети, возникают сложные проблемы обучения, связанные с выбранной структурой. Получая обучающий набор входных образов, сеть самоорганизуется посредством изменения силы синаптических связей. При этом отсутствуют предварительно определенные выходные образы, представляющие требуемую реакцию сети, однако сеть самонастраивается с целью распознавания входных образов с замечательной точностью.

Алгоритм обучения когнитрона является концептуально привлекательным. В заданной области слоя обучается только наиболее сильно возбужденный нейрон. Автор сравнивает это с "элитным обучением", при котором обучаются только "умные" элементы. Те нейроны, которые уже хорошо обучены, что выражается силой их возбуждения, получат приращение силы своих синапсов с целью дальнейшего усиления своего возбуждения.

На рис. 13.2 показано, что области связи соседних узлов значительно перекрываются. Такое расточительное дублирование функций оправдывается взаимной конкуренцией между ближайшими узлами. Даже если узлы в начальный момент имеют абсолютно идентичный выход, небольшие отклонения всегда случаются; один из узлов всегда будет иметь более сильную реакцию на входной образ, чем соседние. Его сильное возбуждение будет оказывать сдерживающее воздействие на возбуждение соседних узлов, и усиливаться будут только его синапсы — синапсы соседних узлов останутся неизменными.

Структура сети

Рис. 13.2. 

Возбуждающий нейрон.

Можно сказать, что выход возбуждающего нейрона в когнитроне определяется отношением его возбуждающих входов к тормозящим входам. Эта необычная функция имеет важные преимущества, как практические, так и теоретические. Суммарный возбуждающий вход в нейрон является взвешенной суммой входов от возбуждающих входов в предшествующем слое. Аналогично суммарный вход является взвешенной суммой входов от всех тормозящих нейронов. В символьном виде

Структура сети

где

Структура сети
— вес
Структура сети
-го возбуждающего синапса,
Структура сети
— выход
Структура сети
-го возбуждающего нейрона,
Структура сети
— вес
Структура сети
-го торозящего синапса,
Структура сети
— выход
Структура сети
-го торозящего нейрона.




Заметим, что веса имеют только положительные значения. Выход нейрона затем вычисляется следующим образом:

Структура сети


Предполагая, что NET имеет положительное значение, можно записать:

Структура сети


Когда тормозящий вход мал (
Структура сети
), OUT может быть аппроксимировано как

Структура сети


что соответствует выражению для обычного линейного порогового элемента (с нулевым порогом).



Таким образом,

Структура сети


где
Структура сети
,
Структура сети
— возбуждающий вес
Структура сети
.

Процедура обучения.

Как объяснялось ранее, веса возбуждающих нейронов изменяются только тогда, когда нейрон возбужден сильнее, чем любой из узлов в области конкуренции. Если это так, изменение в процессе обучения любого из его весов может быть определено следующим образом:

Структура сети


где
Структура сети
— тормозящий вес связи нейрона
Структура сети
в слое 1 с тормозящим нейроном
Структура сети
,
Структура сети
— выход нейрона
Структура сети
в слое 1,
Структура сети
— возбуждающий вес
Структура сети
,
Структура сети
— нормирующий коэффициент обучения.

Изменение тормозящих весов нейрона
Структура сети
в слое 2 пропорционально отношению взвешенной суммы возбуждающих входов к удвоенному тормозящему входу. Вычисления проводятся по формуле

Структура сети


Когда возбужденных нейронов в области конкуренции нет, для изменения весов используются другие выражения. Это необходимо, поскольку процесс обучения начинается с нулевыми значениями весов; поэтому первоначально нет возбужденных нейронов ни в одной области конкуренции, и обучение производиться не может. Во всех случаях, когда победителя в области конкуренции нейронов нет, изменение весов нейронов вычисляется следующим образом:

Структура сети


где
Структура сети
— положительный обучающий коэффициент, меньший, чем
Структура сети
.

Приведенная стратегия настройки гарантирует, что узлы с большой реакцией заставляют возбуждающие синапсы, которыми они управляют, увеличиваться сильнее, чем тормозящие синапсы. Верна и обратная зависимость: узлы, имеющие малую реакцию, вызывают малое возрастание возбуждающих синапсов, но большее возрастание тормозящих синапсов. Таким образом, если узел 1 в слое 1 имеет больший выход, синапс
Структура сети


возрастет больше, чем синапс
Структура сети
. И наоборот, узлы, имеющие малый выход, обеспечат малую величину для приращения
Структура сети
. Однако другие узлы в области связи будут возбуждаться, тем самым увеличивая сигнал INHIB и значения
Структура сети
.

В процессе обучения веса каждого узла в слое 2 настраиваются таким образом, что вместе они составляют шаблон, соответствующий образам, которые часто предъявляются в процессе обучения. При предъявлении сходного образа шаблон соответствует ему и узел вырабатывает большой выходной сигнал.



Сильно отличающийся образ вызывает малый выход и обычно подавляется конкуренцией.

Латеральное торможение. На рис. 13.3 показано, что каждый нейрон слоя 2 получает латеральное торможение от нейронов, расположенных в его области конкуренции. Тормозящий нейрон суммирует входы от всех нейронов в области конкуренции и вырабатывает сигнал, стремящийся к торможению целевого нейрона. Этот метод является эффектным, но с вычислительной точки зрения медленным. Он охватывает большую систему с обратной связью, включающую каждый нейрон в слое; для его стабилизации может потребоваться большое количество вычислительных итераций.

Для ускорения вычислений используется остроумный метод ускоренного латерального торможения (см. рис. 13.4). Здесь дополнительный узел латерального торможения обрабатывает выход каждого возбуждающего узла для моделирования требуемого латерального торможения. Сначала он определяет сигнал, равный суммарному тормозящему влиянию в области конкуренции:

Структура сети


где
Структура сети
— выход
Структура сети
-го нейрона в области конкуренции,
Структура сети
— вес связи от этого нейрона к латерально-тормозящему нейрону;
Структура сети


выбраны таким образом, что
Структура сети
.

Структура сети

Рис. 13.4. 

Выход тормозящего нейрона
Структура сети
затем вычисляется следующим образом:

Структура сети


Благодаря тому что все вычисления, связанные с таким типом латерального торможения, являются нерекурсивными, они могут быть проведены за один проход для слоя. Такой подход позволяет весьма эффективно экономить вычисления.

Метод ускоренного латерального торможения решает и другую сложную проблему. Предположим, что узел в слое 2 возбуждается сильно, но возбуждение соседних узлов уменьшается постепенно с увеличением расстояния. При использовании обычного латерального торможения будет обучаться только центральный узел: другие узлы определят, что центральный узел в их области конкуренции имеет более высокий выход. С предлагаемой системой латерального торможения такой ситуации случиться не может. Множество узлов может обучаться одновременно, и процесс обучения становится более достоверным.


Результаты моделирования


В качестве примера рассмотрим компьютерное моделирование четырехслойного когнитрона, предназначенного для целей распознавания образов. Каждый слой состоит из массива

Структура сети
возбуждающих нейронов и такого же количества тормозящих нейронов. Область связи представляет собой квадрат, включающий
Структура сети
нейронов. Область конкуренции имеет форму ромба высотой и шириной в 5 нейронов. Латеральное торможение охватывает область
Структура сети
нейронов. Нормирующие параметры обучения установлены таким образом, что
Структура сети
и
Структура сети
. Веса синапсов проинициализированы в 0.

Сеть обучалась путем предъявления на входном слое пяти стимулирующих образов, представляющих собой изображения арабских цифр от 0 до 4. Веса сети настраивались после предъявления каждой цифры, входной набор подавался на вход сети циклически до тех пор, пока каждый образ не был предъявлен суммарно 20 раз.

Структура сети

Рис. 13.6. 

Эффективность процесса обучения оценивалась путем запуска сети в реверсивном режиме; выходные образы, являющиеся реакцией сети, подавались на выходные нейроны и распространялись обратно к входному слою. Образы, полученные во входном слое, затем сравнивались с исходным входным образом. Чтобы сделать это, обычные однонаправленные связи принимались проводящими в обратном направлении и латеральное торможение отключалось. На рис. 13.6 приведены типичные результаты тестирования. В столбце 2 показаны образы, произведенные каждой цифрой на выходе сети; они возвращались обратно, вырабатывая на входе сети образ, близкий к точной копии исходного входного образа. Для столбца 4 на выход сети подавался только выход нейрона, имеющего максимальное возбуждение. Результирующие образы в точности те же, что и в случае подачи полного выходного образа, за исключением цифры 0, для которой узел с максимальным выходом располагался на периферии и не покрывал полностью входного поля.

Структура сети

Рис. 13.7. 



Структура сети


Когнитрон состоит из иерархически связанных слоев нейронов двух типов — тормозящих и возбуждающих. Состояние возбуждения каждого нейрона определяется суммой его тормозящих и возбуждающих входов. Синаптические связи идут от нейронов одного слоя (далее слоя 1) к следующему (слою 2). Относительно данной синаптической связи соответствующий нейрон слоя 1 является пресинаптическим, а нейрон второго слоя — постсинаптическим. Постсинаптические нейроны связаны не со всеми нейронами 1-го слоя, а лишь с теми, которые принадлежат их локальной области связей. Области связей близких друг к другу постсинаптических нейронов перекрываются, поэтому активность данного пресинаптического нейрона будет сказываться на все более расширяющейся области постсинаптических нейронов следующих слоев иерархии.

Структура сети

Рис. 13.1. 

Вход возбуждающего постсинаптического нейрона (на рис. 13.1 — нейрон

Структура сети
) определяется отношением суммы
Структура сети
его возбуждающих входов (
Структура сети
,
Структура сети
и
Структура сети
) к сумме
Структура сети

тормозящих входов (

Структура сети
и вход от нейрона
Структура сети
):

Структура сети

где

Структура сети
— возбуждающие входы с весами
Структура сети
,
Структура сети
— тормозящие входы с весами
Структура сети
. Все веса имеют положительные значения. По значениям
Структура сети
и
Структура сети
вычисляется суммарное воздействие на
Структура сети
-й нейрон:
Структура сети
. Его выходная активность
Структура сети
затем устанавливается равной
Структура сети
, если
Структура сети
. В противном случае выход устанавливается равным нулю. Анализ формулы для суммарного воздействия показывает, что при малом торможении
Структура сети
оно равно разности возбуждающего и тормозящего сигналов. В случае же, когда оба эти сигнала велики, воздействие ограничивается отношением. Такие особенности реакции соответствуют реакциям биологических нейронов, способных работать в широком диапазоне воздействий.

Пресинаптические тормозящие нейроны имеют ту же область связей, что и рассматриваемый возбуждающий постсинаптический нейрон

Структура сети
. Веса таких тормозящих нейронов (
Структура сети
,
Структура сети
и
Структура сети
) являются заданными и не изменяются при обучении. Их сумма равна единице, и таким образом, выход тормозного пресинаптического нейрона равен средней активности возбуждающих пресинаптических нейронов в области связей:

Структура сети