Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Нейронные сети - файл 1.doc


Нейронные сети
скачать (350.5 kb.)

Доступные файлы (1):

1.doc351kb.15.12.2011 13:38скачать

содержание

1.doc

Содержание


IV. Свойства процессов обучения в нейронных сетях 23

Задача обучения нейронной сети на примерах 23

Классификация и категоризация 24

Обучение нейронной сети с учителем, 26

как задача многофакторной оптимизации 26

Постановка задачи оптимизации при обучении нейронной сети 27

Практическая часть

Введение
При современном уровне развития техники, когда даже бытовая техника оснащается микропроцессорными устройствами, возникла потребность в интеллектуальных адаптивных системах управления, способных приспосабливаться к очень широкому диапазону внешних условий. Более того, возникла потребность в универсальной технологии создания таких систем. Научный опыт человечества свидетельствует о том, что в природе можно найти великое множество ценных идей для науки и техники. Человеческий мозг является самым удивительным и загадочным созданием природы. Способность живых организмов, наделенных высшей нервной системой, приспосабливаться к окружающей среде может служить призывом к подражанию природе или имитации при создании технических систем.

Среди имитационных подходов выделяется класс нейросетевых методов. Нейронные сети (НС) нашли широкое применение в областях искуственного интеллекта, в основном связанных с распознаванием образов и с теорией управления. Одним из основных принципов нейросетевого подхода является принцип коннективизма. Суть его выражается в том, что рассматриваются очень простые однотипные объекты, соединенные в большую и сложную сеть. Таким образом, НС является в первую очередь графом, с которым можно связать совокупность образов, представленных как численные значения, ассоциированные с вершинами графа, алгоритм для преобразования этих численных значений посредством передачи данных между соседними вершинами и простых операций над ними. Современный уровень развития микроэлектроники позволяет создавать нейрочипы, состоящие из очень большого числа простых элементов, способных выполнять только арифметические операции. Таким образом, нейросетевые методы поддерживается аппаратно.

Математически НС можно рассматривать как класс методов статистического моделирования, который в свою очередь можно разделить на три класса: оценка плотности вероятности, классификация и регрессия. В частности, в показано, что с помощью сетей обратного распространения и обобщенного -правила решается задача оценки плотности вероятности методом смешивания гауссовских распределений.
^ Что такое нейронные сети?

Нейронные сети – это сети, состоящие из связанных между собой простых элементов формальных нейронов. Большая часть работ по нейроинформатике посвящена переносу различных алгоритмов решения задач на такие сети. В основу концепции положена идея о том, что нейроны можно моделировать довольно простыми автоматами, а вся сложность мозга, гибкость его функционирования и другие важнейшие качества определяются связями между нейронами. Каждая связь представляется как совсем простой элемент, служащий для передачи сигнала, или кратко – «Структура связей всё, свойства элементов ничто».

Совокупность идей и научно-техническое направление, определяемое описанным представлением о мозге, называется коннекционизмом. С реальным мозгом все это соотносится примерно так же, как карикатура или шарж со своим прототипом. Важно не буквальное соответствие оригиналу, а продуктивность технической идеи.

С коннекционизмом тесно связан следующий блок идей:

  • однородность системы (элементы одинаковы и чрезвычайно просты, все определяется структурой связей);

  • надежные системы из ненадежных элементов и «аналоговый ренессанс» использование простых аналоговых элементов;

  • «голографические» системы при разрушении случайно выбранной части система сохраняет свои свойства.

Предполагается, что широкие возможности систем связей компенсируют бедность выбора элементов, их ненадежность и возможные разрушения части связей.

Для описания алгоритмов и устройств в нейроинформатике выработана специальная «схемотехника», в которой элементарные устройства (сумматоры, синапсы, нейроны и т.п.) объединяются в сети, предназначенные для решения задач. Для многих начинающих кажется неожиданным, что ни в аппаратной реализации нейронных сетей, ни в профессиональном программном обеспечении эти элементы вовсе не обязательно реализуются как отдельные части или блоки. Используемая в нейроинформатике идеальная схемотехника представляет собой особый язык описания нейронных сетей и их обучения. При программной и аппаратной реализации выполненные на этом языке описания переводятся на более подходящие языки другого уровня.

Самый важный элемент нейросистем адаптивный сумматор, который вычисляет скалярное произведение вектора входного сигнала x на вектор параметров a. Адаптивным он называется из-за наличия вектора настраиваемых параметров a.

Нелинейный преобразователь сигнала получает скалярный входной сигнал x и переводит его в заданную нелинейную функцию f(x).

Точка ветвления служит для рассылки одного сигнала по нескольким адресам. Она получает скалярный входной сигнал x и передает его на все свои выходы.

Стандартный формальный нейрон состоит из входного сумматора, нелинейного преобразователя и точки ветвления на выходе.

Линейная связь синапс отдельно от сумматоров не встречается, однако для некоторых рассуждений бывает удобно выделить этот элемент. Он умножает входной сигнал x на «вес синапса» a.

Нейронные сети можно строить как угодно, лишь бы входы получали какие-нибудь сигналы. Обычно используется несколько стандартных архитектур, из которых путем вырезания лишнего или (реже) добавления строят большинство используемых сетей. Для начала следует определить, как будет согласована работа различных нейронов во времени. Как только в системе появляется более одного элемента, встает вопрос о синхронизации функционирования. Для обычных программных имитаторов нейронных сетей на цифровых ЭВМ этот вопрос не актуален только из-за свойств основного компьютера, на котором реализуются нейронные сети. Для других способов реализации он весьма важен. Мы же будем рассматривать только те нейронные сети, которые синхронно функционируют в дискретные моменты времени: все нейроны срабатывают «разом».

^ Слоистые сети. Здесь нейроны расположены в несколько слоев. Нейроны первого слоя получают входные сигналы, преобразуют их и через точки ветвления передают нейронам второго слоя. Далее срабатывает второй слой и т.д. до слоя k, который выдает выходные сигналы для интерпретатора и пользователя. Если противное не оговорено, то каждый выходной сигнал слоя i подается на вход всех нейронов слоя i+1. Число нейронов в каждом слое может быть любым и никак заранее не связано с количеством нейронов в других слоях. Стандартный способ подачи входных сигналов: все нейроны первого слоя получают каждый входной сигнал. Особенно широко распространены трехслойные сети, в которых каждый слой имеет свое наименование: первый входной, второй скрытый, третий выходной.

^ Полносвязные сети. Здесь каждый нейрон передает свой выходной сигнал остальным нейронам, включая самого себя. Выходными сигналами сети могут быть все или некоторые выходные сигналы нейронов после нескольких тактов функционирования сети. Все входные сигналы подаются всем нейронам.

Элементы слоистых и полносвязных сетей могут выбираться по-разному. Существует, впрочем, стандартный выбор: нейрон с адаптивным неоднородным линейным сумматором на входе.

Для полносвязной сети входной сумматор нейрона фактически распадается на два: первый вычисляет линейную функцию от входных сигналов сети, второй линейную функцию от выходных сигналов других нейронов, полученных на предыдущем шаге.

Функция активации нейронов (характеристическая функция) это нелинейный преобразователь выходного сигнала сумматора. Если функция одна для всех нейронов сети, то сеть называют однородной (гомогенной). Если же характеристическая функция зависит еще от одного или нескольких параметров, значения которых меняются от нейрона к нейрону, то сеть называют неоднородной (гетерогенной).

Составлять сеть из нейронов стандартного вида не обязательно. Слоистая или полносвязная архитектуры не налагают существенных ограничений на участвующие в них элементы. Единственное жесткое требование, предъявляемое архитектурой к элементам сети, это соответствие размерности вектора входных сигналов элемента (она определяется архитектурой) числу его входов. Если полносвязная сеть функционирует до получения ответа заданное число тактов k, то ее можно представить как частный случай k-слойной сети, все слои которой одинаковы и каждый из них соответствует такту функционирования полносвязной сети.

^ I Метод нейробиологии
К предмету нейробилологии относится изучение нервной системы и ее главного органа – мозга. Принципиальным вопросом для этой науки является выяснение соотношения между строением нервной системы и ее функцией. При этом рассмотрение проводится на нескольких уровнях: молекулярном, клеточном, на уровне отдельного органа, организма в целом, и далее на уровне социальной группы. Таким образом, классический нейробилогический подход состоит в последовательном продвижении от элементарных форм в направлении их усложнения.

По современным представлениям, именно на клеточном уровене совокупность элементарных молекулярных химико-биологических процессов, протекающих в отдельной клетке, формирует ее как элементарных процессор, способный к простейшей переработке информации.
^ Биологический нейрон
На рис.1 представлен в упрощенном виде биологический нейрон. Схематично его можно разделить на три части: тело клетки, содержащее ядро и клеточную протоплазму; дендриты – древовидные отростки, служащие входами нейрона; аксон, или нервное волокно, – единственный выход нейрона, представляющий собой длинный цилиндрический отросток, ветвящийся на конце.



Рис. 1. Биологический нейрон
Для описания формальной модели нейрона выделим следующие факты.

В любой момент возможны лишь два состояния волокна: наличие импульса и его отсутствие, так называемый закон “все или ничего”.

Передача выходного сигнала с аксона предыдущего нейрона на дендриты или прямо на тело следующего нейрона осуществляется в специальных образованиях – синапсах. Входные сигналы суммируются с синаптическими задержками и в зависимости от суммарного потенциала генерируется либо нет выходной импульс – спайк.

^ II. Искусственные нейронные сети

Формальный нейрон. Основные нейросетевые парадигмы
1. Формальный нейрон
Большинство моделей основывается на схеме формального нейрона У.С.Мак-Каллока и У.Питтса (1943 год) [1], согласно которой нейрон представляет собой пороговый элемент (Рис.1). На входах нейрона имеются возбуждающие и тормозящие синапсы, в нейроне определяется взвешенная сумма (с учетом весов синапсов) входных сигналов, при превышении этой суммой порога нейрона вырабатывается выходной сигнал.



Рис. 2. Схема формального нейрона. Xi – входные сигналы, Y – выходной сигнал нейрона.
Работа формального нейрона (Рис.2) может быть описана уравнениями:
Yj = F(netj – Kj) , (1)

netj = Si wji Xi , (2)
где j – номер нейрона в сети, Xi – входные сигналы, Yj – выходной сигнал нейрона, wji – веса синапсов, netj – суммарное входное воздействие на нейрон, Kj – порог нейрона, F(.) –активационная функция.
Активационная функция характеризует реакцию нейрона на входное воздействие netj , она может быть пороговой:



или некоторой непрерывной, например, линейной:
F(a) = ka (3a)
или логистической:

. (3b)
В зависимости от реализуемого алгоритма на допустимые значения входов и выходов нейрона накладываются определенные ограничения: значения Xi и Yj могут бинарными (т.е. равными 0 или 1), бинарными биполярными (+1 или -1), принадлежащими интервалу (0,1), неотрицательными или действительными. Аналогичные ограничения накладываются на веса синапсов нейронов wij .

В основополагающей работе Мак-Каллока и Питтса [1] входы и выходы нейронов предполагались бинарными, веса синапсов считались бинарными биполярными, а активационная функция – пороговой. Исследования нейросетей в [1] проводились с точки зрения анализа логических исчислений, которые могут быть построены на базе формальных нейронов. В частности было показано, что "для всякого логического выражения, удовлетворяющего некоторым условиям, можно найти сеть, имеющую описываемое этим выражением поведение" [1].

Формальные нейроны до определенной степени отражают динамику передачи сигналов в реальных биологических нейронах. Живые нейроны состоят тела клетки, дендритов и аксона. Очень упрощая картину, работу нейрона можно описать следующим образом. дендриты получают сигналы от других клеток через синапсы, эти сигналы поступают в тело клетки, где они суммируются с другими такими же сигналами. Если суммарный сигнал в течение короткого промежутка времени является достаточно большим, то клетка возбуждается, вырабатывая в аксоне импульс, который передается на следующие клетки. Не вдаваясь в подробности, подчеркнем, что формальные нейроны только очень грубо отражают работу биологических живых нервных клеток.
^ 2. Немного истории

2.1. Первый бионический бум. Перцептрон
История исследования нейронных сетей испытывала взлеты и падения. Первый всплеск энтузиазма был в 50-60-х годах. Его можно связать с работами Дж. фон Неймана по концептуальному сравнительному анализу работы биологических нейронных сетей и компьютеров [2] и по разработке принципов построения надежных вычислительных систем из ненадежных компонент (фактически формальных нейронов) [3] и с работами Ф.Розенблата по перцетронам [4]. Работы по перцептронам – наиболее значимое направление исследований первого бионического бума.

Следуя в основном изложению, представленному в книге С.В. Фомина и М.В. Беркенблита "Математические проблемы в биологии" [5]. Перцепторон состоит из элементов 3-х типов: S-элементов, A-элементов и R-элемента (Рис.3) . S-элементы это – слой рецепторов. Эти рецепторы соединены с A-элементами, с помощью тормозных или возбуждающих связей. Каждый рецептор может находиться в одном из двух состояний – покоя или возбуждения. A-элементы представляют собой сумматоры с порогом (т.е. формальные нейроны). Это означает, что A-элемент возбуждается, если алгебраическая сумма возбуждений, приходящих к нему от рецепторов, превышает определенную величину – его порог. При этом сигнал от рецептора, приходящий по возбуждающей связи, считается положительным, а приходящий по тормозной связи – отрицательным. Сигналы от возбудившихся A-элементов передаются в сумматор R, причем сигнал от i-го ассоциативного элемента передается с коэффициентом ki.

Рис. 3. Схема перцептрона.
Система связей между рецепторами S и A-элементами, так же как и пороги A-элементов выбираются некоторым случайным, но фиксированным образом, а обучение состоит лишь в изменении коэффициентов ki. Считаем, что мы хотим научить перцептрон разделять два класса объектов, и потребуем, чтобы при предъявлении объектов первого класса выход перцептрона был положителен, а при предъявлении объектов второго класса – отрицательным. Начальные коэффициенты ki полагаем равными нулю. Далее предъявляем обучающую выборку: объекты (например, круги либо квадраты) с указанием класса, к которым они принадлежат. Показываем перцетрону объект первого класса. При этом некоторые A-элементы возбудятся. Коэффициенты ki , соответствующие этим возбужденным элементам, увеличиваем на 1. Затем предъявляем объект второго класса и коэффициенты ki тех A - элементов, которые возбудятся при этом показе, уменьшаем на 1. Этот процесс продолжим для всей обучающей выборки. В результате обучения сформируются значения весов связей ki.

После обучения перцептрон готов работать в режиме распознавания. В этом режиме перцептрону предъявляются "не знакомые" перцептрону объекты, и перцептрон должен установить, к какому классу они принадлежат. Работа перцептрона состоит в следующем: при предъявлении объекта возбудившиеся A - элементы передают сигнал R - элементу, равный сумме соответствующих коэффициентов ki. Если эта сумма положительна, то принимается решение, что данный объект принадлежит к первому классу, а если она отрицательна – то второму.

Исследования перцептронов показали, что перцептроны способны обучаться, хотя способности их обучения довольно ограничены. Справедлива теорема о сходимости перцептрона, согласно которой независимо от начальных значений коэффициентов и порядка показа образцов при обучении перцептрон за конечное число шагов научится различать два класса объектов, если только существуют такие значения. Подчеркнем, что теорема ничего не говорит о том, какие классы могут быть разделены.

Исследования также показали, что слабые стороны перцептрона (в частности большое время обучения) в значительной степени связаны со случайностью связей между его элементами. Однако эта конструктивная особенность обеспечивает перцептрону и положительное качество – надежность: выход из строя заметного числа элементов перцептрона слабо сказывается на качестве его работы (Рис.4).

Первые успехи исследованиям перцептронов других нейросетей вызвал взрыв активности и энтузиазма. М. Минский, Ф.Розенблат, Б. Уидроу и другие разработали ряд искусственных нейронных сетей. В течение некоторого времени казалось, что ключ к интеллекту найден, и воспроизведение человеческого мозга является лишь вопросом конструирования достаточно большой сети.



Рис.4. Поведение перцептрона при выходе из строя ассоциативных элементов. По оси ординат – процент правильных ответов, по оси абсцисс – доля выключенных ассоциативных элементов.
Но эта иллюзия вскоре рассеялась. Возможности перцептронов оказались довольно ограниченными. Серьезный математический анализ перцептронов был проведен М.Минским и С. Пейпертом [6]. Они, в частности, показали, что задачи, которые в принципе могут быть решены перцептроном могут потребовать нереально больших времен или нереально большой памяти. Например, для различения некоторых классов объектов коэффициенты части ассоциативных элементов должны быть столь велики, что для хранения их в вычислительной машине потребовался бы больший объем памяти, чем для того, чтобы просто запомнить все конкретные объекты этих двух классов.

Критика перцептронов М. Минским (а он – один из признанных авторитетов в теории искусственного интеллекта), а также сравнительно небольшой прогресс нейрокибернетики 50-60 –х годов привели к тому, что период энтузиазма сменился периодом спада активности исследований искусственных нейронных сетей. Многие исследователи ушли в те области, которые им показались более привлекательными.

Только немногие кибернетики (Т. Кохонен, С. Гроссберг, Дж.Андерсон, Г.С. Бриндли, Д. Мар, В.Л.Дунин-Барковский, А.А.Фролов и др.) продолжали исследования нейросетей в 70-х годах.
^ 2.2. Второй бионический бум
Однако в середине 80-х годов снова возник нейросетевой бум. Причиной бума, по-видимому, послужил постоянный интерес человечества к изучению работы нервной системы и ряд новых интересных моделей, разработанных к этому времени. Одной из таких "стимулирующих" моделей стали работы Дж.Дж. Хопфилда [7,8], которые позволили привлечь методы теоретической физики к исследованию нейронных сетей.

Во второй половине 80-х годов был предложен целый ряд интересных и содержательных моделей нейронных сетей. В моделях строятся нейросети, выполняющие различные алгоритмы обработки информации: ассоциативная память [7-11], категоризация, т.е. разбиение множества образов на кластеры, состоящие из подобных друг другу [12], топологически корректное картирование [13], распознавание зрительных образов, инвариантное относительно деформаций и сдвигов в пространстве [14], решение задач комбинаторной оптимизации [15]. Хотя ряд исследований посвящен анализу характеристик НС с целью понимания свойств естественных нейронных систем, подавляющее изобилие работ относится к исследованию алгоритмов нейросетей с прагматическими целями.

В большинстве моделей запоминание информации в нейронной сети (обучение) происходит в результате формирования весов синапсов нейронов. Во многих случаях это интерпретируется как формализация гипотезы Хебба [16], в соответствии с которой изменение состояния произвольного синапса определяется его текущим состоянием и активностью пре- и постсинаптических нейронов.

Предполагается, что определенные практические задачи должны решаться нейрокомпьютерами и нейрочипами – искусственными нейроподобными сетями, созданными на основе микроэлектронных вычислительных систем. Спектр задач для нейрокомпьютеров достаточно широк: распознавание зрительных и звуковых образов, создание экспертных систем и их аналогов, управление роботами, создание нейропротезов для людей, потерявших слух или зрение. Достоинства нейрокомпьютеров – параллельная обработка информации и обучаемость.

В 90-х годах активность по предложению новых нейропарадигм несколько снизилась, но зато нейросети и нейрочипы вошли в инженерный обиход, Например, одно из последних достижений – разработка нейрогентов, т.е. нейронных агентов (специализированных программ), предназначенных для оптимизации потоков пакетов информации в компьютерных сетях. Активно продолжается исследование характеристик различных нейросетей. Нейросетевые методы активно используются в новых кибернетических направлениях, таких как "Искусственная жизнь" и "Адаптивное поведение".
^ 3. Ассоциативная память
Одно из ведущих направлений исследования нейронных сетей – ассоциативная память. Теория нейроподобной ассоциативной памяти была развита в фундаментальных работах Г.С. Бриндли, Д. Мара, Т. Кохонена, Г.Пальма, Д. Д.Уилшоу, В.Л.Дунина-Барковского, Дж.Хопфида, С.Амари, А.А.Фролова И.П. Муравьева и ряда других авторов.

Различают автоассоциативную и гетероассоциативную память. В обоих случаях имеется режим записи и режим воспроизведения.

В случае автоассоциативной памяти при записи происходит запоминание набора эталонных образов, задаваемых векторами Xk, k = 1,2,…, n ; а при воспроизведении по искаженному образу Xj + dX (Xj – один из эталонов, dX – вектор, характеризующий искажение) восстанавливается эталон Xj.

В случае гетероассоциативной памяти нейронная сеть при записи запоминает отображение Xk→Yk между векторами Xk и Yk , k = 1,2,…, n ; при воспроизведении предъявляется один из эталонных векторов Xj (возможно несколько искаженный), и с помощью нейронной сети восстанавливается парный ему вектор Yj.
^ 4. Сеть Хопфилда: нейронная сеть + гамильтониан

4.1. Общий подход
Отличительная черта работ Хопфилда – попытка применить физический подход к нейронным сетям. Ход рассуждений основополагающей работы Хопфилда примерно таков [7] . Допустим, что имеется некоторая физическая система, имеющая множество устойчивых особых точек: X1 , X2 , ... Эти точки могут рассматриваться как память устройства, реализуемого физической системой. Начиная с некоторой точки Xj + dX (Xj – один из эталонов, dX– вектор, характеризующий искажение), при малом dX мы придем к Xj. Это вариант автоассоциативной памяти, в которой запомненный образ восстанавливается по искаженному образу.

Удобно построить физическую систему, имеющую локальные минимумы энергии, соответствующие устойчивым особым точкам. Для того чтобы систему можно было бы рассматривать как память, нужно иметь большое число локальных минимумов. Пример физической системы с большим числом локальных минимумов энергии – спиновые стекла, т.е. система спинов, матрица обменных взаимодействий между которыми стохастична. Хопфилд построил модель нейроподобной ассоциативной памяти, допускающую проведение явных аналогий со спиновыми стеклами.
^ 4.2. Схема нейросети
Схема нейросети по Хопфилду показана на Рис.5. Сеть состоит из N нейронов, все нейроны связаны со всеми, каждая связь характеризуется своим весом wij , матрица весов предполагается симметричной: wji = wij . Считаем, что N >> 1.


Рис.5. Схема нейронной сети по Хофилду. – нейроны, – синапсы.
Состояние нейронной сети характеризуется вектором X = X1 , X2 , …, XN.

Каждый нейрон может находиться в двух состояниях Xi=0 – покой, Xi=1 – возбужденное состояние, i – номер нейрона.
^ 4.3. Режим записи и режим воспроизведения
В режиме записи формируется матрица связей между нейронами wij , равная

wij = Sk (2Xki –1) (2Xkj –1), k = 1, 2, …, (4)
при i≠j , wii = 0, – запоминаемые бинарные векторы, n – число запоминаемых паттернов. Эталоны предполагаются случайными, компоненты векторов Xki компоненты выбираются равными 0 либо 1 с равной вероятностью: p{Xki = 0} = p{Xki = 0}= 0,5.

В процессе воспроизведения нейронная сеть функционирует в дискретном времени. Работа нейронной сети происходит в так называемом ассинхоронном режиме, т. е. в один такт времени только один нейрон может изменить свое состояние. Нейрон, которому разрешено менять состояние, выбирается стохастически. При этом нейроны работают как нейроны Мак-Каллока и Питтса с пороговой активационной функцией. А именно, полагаем:

Xj (t+1) = 1 при netj > 0 и Xj (t+1) = 0 при netj < 0 , (5)

netj = Si wji Xi (t) , (6)

где t – момент "пересмотра" состояния j-го нейрона.
Работу нейронной сети в режиме воспроизведения можно рассматривать как динамическую систему. Покажем, что если число эталонов не слишком высоко, то эталоны соответствуют устойчивым состояниям (особым точкам) рассматриваемой динамической системы.
Оценим величину

nets j = Si wji Xs i (t) , (7)

где Xs i (t) – компоненты какого-либо эталонного вектора. С учетом (4) имеем:

nets j = Sk (2Xkj –1) [Si (2Xki –1) Xs i (t)] . (8)
В силу случайности эталонов среднее значение величины в квадратных скобках равно 0 при s≠k и равно N/2 при s = k . Следовательно, в силу такой псевдоортогональности имеем:

nets j ≈(2Xs i –1) N/2 . (9)
Итак, имеем: nets j > 0 при Xs i = 1 и nets j < 0 при Xs i = 0.

Следовательно, в пренебрежении шумом, возникающим от случайных флуктуаций, запомненные эталоны устойчивы.
Работа Хопфилда послужила мощным стимулом для исследований нейронных сетей физиками. Аналогия между нейронными сетями и спиновыми стеклами привлекла к нейронным сетям интерес большого числа физиков-теоретиков, которые стали записывать гамильтониан системы нейронов и исследовать свойства искусственных нейронных сетей высокоэффективными методами математической физики [17-19].
^ 5. Метод обратного распространения ошибок
Предполагается, что нейронная сеть имеет многослойную структуру (Рис.6), нейроны сети представляют собой формальные нейроны с логистической активационной функцией (см. формулу (3b)). Сеть не имеет обратных связей: при вычислении выхода нейронной сети по ее входу сигналы нейронов передаются от слоя к слою, слева направо. Схема такой сети напоминает перцептрон (Рис.2). Иногда ее так и называют "обобщенный перцептрон".


Рис.6. Схема нейронной сети, используемой в методе обратного распространения ошибок. Стрелками показано направление движения сигналов в процессе расчета выхода нейронной сети. При коррекции весов синапсов сигналы перемещаются в обратном направлении.
Нейронная сеть фактически реализует функцию гетероассоциативной памяти. Имеется режим обучения и режим воспроизведения.

В режиме обучения нейронная сеть запоминает отображение Xk→Yk между векторами Xk и Yk , k = 1,2,…, n ; при воспроизведении предъявляется один из эталонных векторов Xj (возможно несколько искаженный), и с помощью нейронной сети восстанавливается парный ему вектор Yj.

Режим воспроизведения фактически тривиален: на вход нейронной сети поступают входные векторы X и в процессе функционирования формальных нейронов вычисляется выходной вектор Y.

Обучение многослойной нейронной сети осуществляется путем оптимизации весов синапсов методом градиентного спуска. Это обучение может быть представлено как последовательность следующих операций [20]:

1) Выбрать очередную пару векторов Xk и Yk из обучающей выборки.

2) Вычислить выход сети Y.

3) Вычислить разность между выходом сети Y и требуемым выходным вектором Yk (целевым вектором обучающей пары). Т.е. определить ошибку нейронной сети.

4) Подкорректировать веса сети wji так, чтобы минимизировать ошибку.

5) Повторять шаги с 1 по 4 для каждой пары обучающей выборки до тех пор, пока ошибка не достигнет приемлемого уровня.

Все вычисления производятся послойно: в процессе расчета выхода нейронной сети по входу расчет идет слева направо, при корректировке весов рассчитываются всех нейронов и по этим ошибкам корректируются веса нейронов, при этом ошибки как бы "распространяются" в обратном направлении – справа налево. Отметим, что фактически коррекция весов означает минимизацию ошибки нейронной сети, а поиск минимума ошибки производится методом градиентного спуска.

^ III. Теория и приложениям искусственных нейронных сетей
Обучение нейрона детектированию границы "черное-белое"
Способность формального нейрона к обучению проявляется в возможности изменения значений вектора весов W, соответствующей пластичности синапсов биологических нейронов. Рассмотрим обучение формального нейрона на примере простейшей задачи детектирования границы. Пусть имеется образ, составленный из одномерной цепочки черных и белых клеток. Зачерненные клетки соответствуют единичному сигналу, а белые клетки – нулевому. Сигнал на входах формального нейрона устанавливается равным значениям пар примыкающих клеток рассматриваемого образа. Нейрон обучается всякий раз возбуждаться и выдавать единичный выходной сигнал, если его первый вход (на Рис. 7. – левый) соединен с белой клеткой, а второй (правый) – с черной. Таким образом, нейрон должет служить детектором границы перехода от светлого к темному тону образа.


Рис. 7. Формальный нейрон с двумя входами, занятый обработкой образа в виде одномерной цепочки черных и белых клеток.
Функция, выполняемая нейроном, определяется следующей таблицей.


Вход 1

Вход 2

Требуемый выход

1

1

0

1

0

0

0

1

1

0

0

0

Для данной задачи значения весов и порога нейрона могут быть предъявлены и без специальной процедуры обучения. Легко убедиться, что нужным требованиям удовлетворяет набор Q = 0, W1 = -1, W1 = +1. В случае задачи детектирования границы перехода от темного к светлому веса нужно поменять местами.

В общем случае для подстройки весов при обучении нейрона разработаны различные алгоритмы, которые будут рассматриваться в применении к конкретным типам нейронных сетей, составленных из формальных нейронов.
^ ПЕРСЕПТРОН Розенблатта
Простейшая нейронная сеть – ПЕРСЕПТРОН Розенблатта.

Одной из первых искусственных сетей, способных к перцепции (восприятию) и формированию реакции на воспринятый стимул, явился ^ PERCEPTRON Розенблатта (F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное техническое вычислительное устройство, а как модель работы мозга. Нужно заметить, что после нескольких десятилетий исследований современные работы по искусственным нейронным сетям редко преследуют такую цель.



Рис. 8. Элементарный персептрон Розенблатта.
Простейший классический персептрон содержит нейрободобные элементы трех типов (см. Рис. 8), назначение которых в целом соответствует нейронам рефлекторной нейронной сети, рассмотренной в предыдущей лекции. S-элементы формируют сетчатку сенсорных клеток, принимающих двоичные сигналы от внешнего мира. Далее сигналы поступают в слой ассоциативных или A-элементов (для упрощения изображения часть связей от входных S-клеток к A-клеткам не показана). Только ассоциативные элементы, представляющие собой формальные нейроны, выполняют нелинейную обработку информации и имеют изменяемые веса связей. R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул.

Розенблатт называл такую нейронную сеть трехслойной, однако по современной терминологии, используемой в этой книге, представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов. Однослойный персептрон характеризуется матрицей синаптических связей W от S- к A-элементам. Элемент матрицы отвечает связи, ведущей от i-го S-элемента к j-му A-элементу.

В Корнельской авиационной лаборатории была разработана электротехническая модель персептрона MARK-1, которая содержала 8 выходных R-элементов и 512 A-элементов, которые можно было соединять в различных комбинациях. На этом персептроне была проведена серия экспериментов по распознаванию букв алфавита и геометрических образов.

В работах Розенблатта был сделано заключение о том, что нейронная сеть рассмотренной архитектуры будет способна к воспроизведению любой логической функции, однако, как было показано позднее М.Минским и С.Пейпертом (M.Minsky, S.Papert, 1969), этот вывод оказался неточным. Были выявлены принципиальные неустранимые ограничения однослойных персептронов, и в последствии стал в основном рассматриваться многослойный вариант персептрона, в котором имеются несколько слоев процессорных элементов.

С сегодняшних позиций однослойный персептрон представляет скорее исторический интерес, однако на его примере могут быть изучены основные понятия и простые алгоритмы обучения нейронных сетей.
^ Теорема об обучении персептрона
Обучение сети состоит в подстройке весовых коэффициентов каждого нейрона. Пусть имеется набор пар векторов (xa, ya), a = 1..p, называемый обучающей выборкой. Будем называть нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора xa на выходах всякий раз получается соответсвующий вектор ya

Предложенный Ф.Розенблаттом метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько шагов:


Шаг 0.

Начальные значения весов всех нейронов полагаются случайными.

Шаг 1.

Сети предъявляется входной образ x, в результате формируется выходной образ .

Шаг 2.

Вычисляется вектор ошибки , делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора весовых коэффициентов в области малых ошибок должно быть пропорционально ошибке на выходе, и равно нулю если ошибка равна нулю.

Шаг 3.

Вектор весов модифицируется по следующей формуле: . Здесь – темп обучения.

Шаг 4.

Шаги 1 – 3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает изменяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.


Используемая на шаге 3 формула учитывает следующие обстоятельства: а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов; б) знак приращения веса соответствует знаку ошибки, т.е. положительная ощибка (d > 0, значение выхода меньше требуемого) проводит к усилению связи; в) обучение каждого нейрона происходит независимо от обучения остальных нейронов, что соответсвует важному с биологической точки зрения, принципу локальности обучения.

Данный метод обучения был назван Ф.Розенблаттом “методом коррекции с обратной передачей сигнала ошибки”. Позднее более широко стало известно название “d -правило”. Представленный алгоритм относится к широкому классу алгоритмов обучения с учителем, поскольку известны как входные вектора, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика).

Доказанная Розенблаттом теорема о сходимости обучения по d -правилу говорит о том, что персептрон способен обучится любому обучающему набору, который он способен представить. Ниже мы более подробно обсудим возможности персептрона по представлению информации.
^ Линейная разделимость и персептронная представляемость
Каждый нейрон персептрона является формальным пороговым элементом, принимающим единичные значения в случае, если суммарный взвешенный вход больше некоторого порогового значения:



Таким образом, при заданных значениях весов и порогов, нейрон имеет определенное значение выходной активности для каждого возможного вектора входов. Множество входных векторов, при которых нейрон активен (y=1), отделено от множества векторов, на которых нейрон пассивен (y=0) гиперплоскостью, уравнение которой есть, суть:



Следовательно, нейрон способен отделить (иметь различный выход) только такие два множества векторов входов, для которых имеется гиперплоскость, отсекающая одно множество от другого. Такие множества называют линейно разделимыми. Проиллюстрируем это понятие на примере.

Пусть имеется нейрон, для которого входной вектор содержит только две булевые компоненты (x1,x2), определяющие плоскость. На данной плоскости возможные значения векторов отвечают вершинам единичного квадрата. В каждой вершине определено требуемое значение активности нейрона 0 (на рис. 9 – белая точка) или 1 (черная точка). Требуется определить, существует ли такое такой набор весов и порогов нейрона, при котором этот нейрон сможет отделить точки разного цвета?

На рис. 9 представлена одна из ситуаций, когда этого сделать нельзя вследствие линейной неразделимости множеств белых и черных точек.



Рис. 9. Белые точки не могут быть отделены одной прямой от черных.
Требуемая активность нейрона для этого рисунка определяется таблицей, в которой не трудно узнать задание логической функции “исключающее или”.

X1

X2

Y

0

0

0

1

0

1

0

1

1

1

1

0


Линейная неразделимость множеств аргументов, отвечающих различным значениям функции означает, что функция “исключающее или”, столь широко использующаяся в логических устройствах, не может быть представлена формальным нейроном. Столь скромные возможности нейрона и послужили основой для критики персептронного направления Ф. Розенблатта со стороны М. Минского и С. Пейперта.

При возрастании числа аргументов ситуация еще более катастрофична: относительное число функций, которые обладают свойством линейной разделимости резко уменьшается. А значит и резко сужается класс функций, который может быть реализован персептроном (так называемый класс функций, обладающий свойством персептронной представляемости). Соотвествующие данные приведены в следующей таблице:


Число

переменных N

Полное число возможных логических функций

Из них линейно разделимых функций

1

4

4

2

16

14

3

256

104

4

65536

1882

5

> 1000000000

94572


Видно, что однослойный персептрон крайне ограничен в своих возможностях, точно представить наперед заданную логическую функцию. Нужно отметить, что позднее, в начале 70-х годов, это ограничение было преодолено путем введения нескольких слоев нейронов, однако критическое отношение к классическому персептрону сильно заморозило общий круг интереса и научных исследований в области искусственных нейронных сетей.

В завершении остановимся на тех проблемах, которые остались открытыми после работ Ф.Розенблатта. Часть из них была впоследствии решена.

  1. Практическая проверка условия линейной разделимости множеств. Теорема Розенблатта гарантирует успешное обучение только для персептронно представимых функций, однако ничего не говорит о том, как это свойство практически обнаружить до обучения

  2. Сколько шагов потребуется при итерационном обучении? Другими словами, затянувшееся обучение может быть как следсвием не представимости функции (и в этом случае оно никогда не закончится), так и просто особенностью алгоритма.

  3. Как влияет на обучение последовательность предъявления образов в течение эпохи обучения?

  4. Имеет ли вообще -правило преимущества перед простым перебором весов, т.е. является ли оно конструктивным алгоритмом быстрого обучения?

  5. Каким будет качество обучения, если обучающая выборка содержит не все возможные пары векторов? Какими будут ответы персептрона на новые вектора?

Последний вопрос затрагивает глубокие пласты вычислительной нейронауки, касающиеся способностей искусственных систем к обобщению ограничеснного индивидуального опыта на более широкий класс ситуаций, для которых отклик был заранее не сообщен нейросети. Ситуация, когда системе приходится работать с новыми образами, является типичной, так как число всех возможных примеров экспоненциально быстро растет с ростом числа переменных, и поэтому на практике индивидуальный опыт сети всегда принципиально не является полным.
^

IV. Свойства процессов обучения в нейронных сетях

Задача обучения нейронной сети на примерах


По своей организации и функциональному назначению искусственная нейронная сеть с несколькими входами и выходами выполняет некоторое преобразование входных стимулов – сенсорной информации о внешнем мире – в выходные управляющие сигналы. Число преобразуемых стимулов равно n – числу входов сети, а число выходных сигналов соответствует числу выходов m. Совокупность всевозможных входных векторов размерности n образует векторное пространство X, которое мы будем называть признаковым пространством (При рассмотрении соответсвующих пространств предполагается использование обычных векторных операций сложения и умножения на скаляр. Аналогично, выходные вектора также формируют признаковое пространство, которое будет обозначаться Y. Теперь нейронную сеть можно мыслить, как некоторую многомерную функцию F: X  Y , аргумент которой принадлежит признаковому пространству входов, а значение – выходному признаковому пространству.

При произвольном значении синаптических весовых коэффициентов нейронов сети функция, реализуемая сетью также произвольна. Для получения требуемой функции необходим специфический выбор весов. Упорядоченная совокупность всех весовых коэффициентов всех нейронов может быть представлена, как вектор W. Множество всех таких векторов также формирует векторное пространство, называемое пространством состояний или конфигурационным (фазовым) пространством W. Термин "фазовое пространство" пришел из статистической физики систем многих частиц, где под ним понимается совокупность координат и импульсов всех частиц, составляющих систему.

Задание вектора в конфигурационном пространстве полностью определяет все синаптические веса и, тем самым, состояние сети. Состояние, при котором нейронная сеть выполняет требуемую функцию, называют обученным состоянием сети W*. Отметим, что для заданной функции обученное состояние может не существовать или быть не единственным. Задача обучения теперь формально эквивалентна построению процесса перехода в конфигурационном пространстве от некоторого произвольного состояния W0 к обученному состоянию.

Требуемая функция однозначнно описывается путем задания соотвествия каждому вектору признакового пространства X некоторого вектора из пространства Y. В случае сети из одного нейрона в задаче детектирования границы, полное описание требуемой функции достигается заданием всего четырех пар векторов. Однако в общем случае, как например, при работе с видеоизображением, признаковые пространства могут иметь высокую размерность, поэтому даже в случае булевых векторов однозначное определение функции становится весьма громоздким. Во многих практических случаях значения требуемых функций для заданных значений аргумента получаются из эксперимента или наблюдений, и, следовательно, известны лишь для ограниченной совокупности векторов. Кроме того, известные значения функции могут содержать погрешности, а отдельные данные могут даже частично противоречить друг другу. По этим причинам перед нейронной сетью обычно ставится задача приближенного представления функции по имеющимся примерам. Имеющиеся в распоряжении исследователя примеры соответствий между векторами, либо специально отобранные из всех примеров наиболее представительные данные называют обучающей выборкой. Обучающая выборка определяется обычно заданием пар векторов, причем в каждой паре один вектор соотвествует стимулу, а второй – требуемой реакции. Обучение нейронной сети состоит в приведении всех векторов стимулов из обучающей выборки требуемым реакциям путем выбора весовых коэффициентов нейронов.

Общая проблема кибернетики, заключающаяся в построении искусственной системы с заданным функциональным поведением, в контексте нейроных сетей понимается, как задача синтеза требуемой искусственной сети. Она может включать в себя следующие подзадачи: 1) выбор существенных для решаемой задачи признаков и формирование признаковых пространств; 2) выбор или разработка архитектуры нейронной сети, адекватной решаемой задаче; 3) получение обучаюшей выборки из наиболее представительных, по мнению эксперта, векторов признаковых пространств; 4) обучение нейронной сети на обучающей выборке.

^

Классификация и категоризация


В случае, когда выходное признаковое пространство представляет собой дискретный перечень из двух или более групп данных, задачей нейронной сети является отнесение входных векторов к одной из этих групп. В этом случае говорят, что нейросетевая система выполняет классификацию или категоризацию данных.

Эти две интеллектуальные задачи, по-видимому, следует отличать друг от друга. Термин класс можно определить, как совокупность предметов или понятий (образов), выделенных и сгруппированных по определенным признакам или правилам. Под классификацией понимают отнесение некоторого образа к классу, выполняемое по этим формальным правилам по совокупности признаков. Категория же (если отвлечься от специфического философского характера этого понятия) определяет лишь некоторые общие свойства образов и связи между ними. Задача категоризации, т.е. определения отношения данного образа к некоторой категории, гораздо менее определена, чем задача отношения к классу. Границы различных категорий являются нечеткими, расплывчатыми, и обычно сама категория понимается не через формальное определение, а только в сравнении с другими категориями. Границы классов, напротив, определены достаточно точно – образ относится к данному классу, если известно, что он обладает необходимым числом признаков, характерных для этого класса.

Итак, задачей систем-классификаторов является установление принадлежности образа к одному из формально определенных классов. Примерами такой задачи является задача классификации растений в ботанике, классификация химических веществ по их свойствам и типам возможных реакций, в которые они вступают, и другие. Формальные признаки могут быть определены посредством правил типа “если..-то..”, а системы, оперирующие с такими правилами, получили название экспертных систем. Традиционной областью применения классификаторов на нейронных сетях является экспериментальная физика высоких энергий, где одной из актуальных задач выступает выделение среди множества зарегистрированных в эксперименте событий с элементарными частицами событий, представляющих интерес для данного эксперимента.

Проблема категоризации находится на ступеньку выше по сложности в сравнении с классификацией. Особенность ее заключается в том, что помимо отнесения образа к какой-либо группе, требуется определить сами эти группы, т.е. сформировать категории.

В случае обучения с учителем (например, в персептроне) формирование категорий происходит методом проб и ошибок на основе примеров с известными ответами, предоставляемыми экспертом. Формирование категорий весьма напоминает процесс обучения у живых организмов, поэтому обычно эксперта называют “супервизором” или учителем. Учитель управляет обучением при помощи изменения параметров связей и реже, самой топологии сети.Задачей системы-категоризатора является формирование обобщающих признаков в совокупности примеров. При увеличении числа примеров несущественные, случайные признаки сглаживаются, а часто встречающиеся – усиливаются, при этом происходит постепенное уточнение границ категорий. Хорошо обученная нейросетевая система способна извлекать признаки из новых примеров, ранее неизвестных системе, и принимать на их основе приемлемые решения.

Важно отметить различие в характере неявных “знаний”, запомненных искусственной нейронной сетью, и явных, формальных “знаний”, заложенных в экспертных системах. Некоторые сходства и различия представлены в следующей таблице.




^ Экспертные системы (ЭС)

Нейросетевые системы (НС)

Источник знаний

Формализованный опыт эксперта, выраженный в виде логических утверждений – правил и фактов, безусловно принимаемых системой

Совокупный опыт эксперта-учителя, отбирающего примеры для обучения + индивидуальный опыт обучающейся на этих примерах нейронной сети

Характер знаний

Формально-логическое “левополушарное” знание в виде правил

Ассоциативное “правополушарное” знание в виде связей между нейронами сети

Развитие знаний

В форме расширения совокупности правил и фактов (базы знаний)

В форме дообучения на дополнительной последовательности примеров, с уточнением границ категорий и формированием новых категорий

Роль эксперта

Задает на основе правил полный объем знаний экспертной системы

Отбирает характерные примеры, не формулируя специально обоснование своего выбора

Роль искусственной системы

Поиск цепочки фактов и правил для доказательства суждения

Формирование индивидуального опыта в форме категорий, получаемых на основе примеров и категоризация образов


Различия в характере экспертных и нейросетевых систем обуславливают и различия в их сферах применения. Экспертные системы применяются в узких предметных областях с хорошо структурированными знаниями, например в классификации неисправностей конкретного типа оборудования, фармакологии, анализе хим.состава проб и т.д. Нейронные сети применяются кроме перечисленных областей и в задачах с плохо структурированной информацией, например при распознавании образов, рукописного текста, анализе речи и т.д.

^

Обучение нейронной сети с учителем,

как задача многофакторной оптимизации


Возможность применения теории оптимизации и обучения нейронных сетей крайне привлекательна, так как имеется множество хорошо опробованных методов оптимизации, доведенных до стандартных компьютерных программ. Сопоставление процесса обучения с процессом поиска некоторого оптимума также не лишено и биологических оснований, если рассматривать элементы адаптации организма к окружающим условиям в виде оптимального количества пищи, оптимального расходования энергии и т.п.

Функция одной действительной переменной f(x) достигает локального минимума в некоторой точке x0, если существует такая -окрестность этой точки, что для всех x из этой окрестности, т.е. таких, что |x-x0|<, имеет место f(x) > f(x0).

Без дополнительных предположений о свойствах гладкости функции выяснить, является ли некоторая точка достоверной точкой минимума, используя данное определение невозможно, поскольку любая окрестность содержит континуум точек. При применении численных методов для приближенного поиска минимума исследователь может столкнуться с несколькими проблемами. Во-первых, минимум функции может быть не единственным. Во-вторых, на практике часто необходимо найти глобальный, а не локальный минимум, однако обычно не ясно, нет ли у функции еще одного, более глубокого, чем найденный, минимума.

Математическое определение локального минимума функции в многомерном пространстве имеет тот же вид, если заменить точки x и x0 на вектора, а вместо модуля использовать норму. Поиск минимума для функции многих переменных (многих факторов) является существенно более сложной задачей, чем для одной переменной. Это связано прежде всего с тем, что локальное направление уменьшения значения функции может не соответствовать направлению движения к точке минимума. Кроме того, с ростом размерности быстро возрастают затраты на вычисление функции.

Решение задачи оптимизации во многом является искусством, общих, заведомо работающих и эффективных в любой ситуации методов нет. Среди часто используемых методов можно рекомендовать симплекс-метод Нелдера, некоторые градиентные методы, а также методы случайного поиска.

В случае, если независимые переменные являются дискретными и могут принимать одно значение из некоторого фиксированного набора, задача многомерной оптимизации несколько упрощается. При этом множество точек поиска становится конечным, а следовательно задача может быть, хотя бы в принципе, решена методом полного перебора.

Для комбинаторных задач также существуют методы поиска приближенного решения, предлагающие некоторую стратегию перебора точек, сокращающую объем вычислительной работы. Отметим, что имитация отжига и генетический алгоритм также применимы и к комбинаторной оптимизации.

^

Постановка задачи оптимизации при обучении нейронной сети



Пусть имеется нейронная сеть, выполняющая преобразование F: XY векторов X из признакового пространства входов X в вектора Y выходного пространства Y. Сеть находится в состоянии W из пространства состояний W. Пусть далее имеется обучающая выборка (X,Y),  = 1..p. Рассмотрим полную ошибку E, делаемую сетью в состоянии W.



Отметим два свойства полной ошибки. Во-первых, ошибка E=E(W) является функцией состояния W, определенной на пространстве состояний. По определению, она принимает неотрицательные значения. Во-вторых, в некотором обученном состоянии W*, в котором сеть не делает ошибок на обучающей выборке, данная функция принимает нулевое значение. Следовательно, обученные состояния являются точками минимума введенной функции E(W).

Таким образом, задача обучения нейронной сети является задачей поиска минимума функции ошибки в пространстве состояний, и, следовательно, для ее решения могут применяться стандартные методы теории оптимизации. Эта задача относится к классу многофакторных задач, так, например, для однослойного персептрона с N входами и M выходами речь идет о поиске минимума в NxM-мерном пространстве.

На практике могут использоваться нейронные сети в состояниях с некоторым малым значением ошибки, не являющихся в точности минимумами функции ошибки. Другими словами, в качестве решения принимается некоторое состояние из окрестности обученного состояния W*. При этом допустимый уровень ошибки определяется особенностями конкретной прикладной задачи, а также приемлемым для пользователя объемом затрат на обучение.

Заключение
Таким образом, в настоящее время активно продолжаются исследования нейронных сетей и ведутся интенсивные работы по практическим применениям нейросетевых алгоритмов. Отметим, что, несмотря на все экономические трудности, работы по нейронным сетям в нашей стране активно продолжаются. В Москве уже более 20 лет под руководством В.Л. Дунина-Барковского ежемесячно проводится семинар по нейронным сетям. На базе этого семинара сформирована Российская ассоциация нейроинформатики, объединяющая энтузиастов-нейросетевиков

Необходимо подчеркнуть, что современные исследования нейронных сетей характеризуются внедрением в нейроинформатику высокоэффективных математических методов, заимствованных из статистической физики [17-19], синергетики [21], математической кибернетики [22], теории вероятностей [23], дифференциальной геометрии [24].

Однако, несмотря на чрезвычайную активность исследований по нейронным сетям и нейрокомпьютерам, многое в этих исследованиях настораживает. Изучаемые алгоритмы выглядят как бы "вырванным куском" из общего осмысления работы нервной системы. Исследуются те алгоритмы, для которых удается построить хорошие модели, а не наиболее важные для понимания свойств мышления, работы мозга и для создания систем искусственного интеллекта.

Настораживает также чрезмерная упрощенность понимания работы нейронный сетей, при котором нейроны рассматриваются как суммирующие пороговые элементы, а обучение сети происходит путем модификации синапсов. Ряд исследователей рассматривают нейрон как значительно более сложную систему обработки информации, предполагая, что основную роль в обучении играют молекулярные механизмы внутри нейрона [25-27]. В частности, в цикле работ Л.Е. Цитоловского с сотрудниками экспериментально продемонстрировано изменение порога командных нейронов (а не весов синапсов) при выработке и угашении условного рефлекса, и построены математические модели, демонстрирующие возможный механизм внутринейронного молекулярного обучения.

Все это указывает на необходимость максимально полного понимания работы биологических систем обработки информации и свойств организмов, обеспечиваемых этими системами. По моему мнению, одним из важных направлений исследований, способствующих такому пониманию, может быть анализ того, как в процессе биологической эволюции возникали "интеллектуальные" свойства биологических организмов. По-видимому, наиболее интересные исследования, направленные на изучение интеллектуальных свойств биологических организмов, ведутся сейчас в направлениях исследований "Искусственная жизнь" и "Адаптивное поведение".

Литература:


  1. Мак-Каллок У.С., Питтс У. Логическое исчисление идей, относящихся к нервной активности // Автоматы, под ред. Шеннона К.Э. и Маккарти Дж. М.: ИЛ, 1956. С. 362 – 384.

  2. Фон Нейман Дж. Теория самовоспроизводящихся автоматов. М.: Мир, 1971, 382 с.

  3. Фон Нейман Дж. Вероятностная логика и синтез надежных организмов из ненадежных компонент. // Автоматы, под ред. Шеннона К.Э. и Маккарти Дж. М.: ИЛ, 1956. С. 68 – 139.

  4. Розенблат Ф. Принципы нейродинамики. Перцептроны и теория механизмов мозга. Мир, 1965.

  5. Фомин С.В., Беркенблит М.Б. Математические проблемы в биологии. М.: Наука, 1973, 200 с.

  6. Минский М., Пейперт С. Перцептроны. Мир, 1971.

  7. Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities // Proc. Natl. Acad. Sci. USA. 1982. V.79. N.8. P.2554-2558.

  8. Hopfield J.J. Neurons with gradual response have collective computational properties like those of two-state neurons // Proc. Natl. Acad. Sci. USA. 1984. V.81. N.10. P.3088-3092.

  9. Фролов А.А., Муравьев И.П. нейронные модели ассоциативной памяти. М.: Наука, 1987. 160 с.

  10. Фролов А.А., Муравьев И.П. Информационные характеристики нейронных сетей. М.: Наука, 1988. 160 с.

  11. Rumelhart D.E., Hinton G.E., Williams R.G. Learning representation by back-propagating error // Nature. 1986. V.323. N.6088. P. 533-536.

  12. Carpenter G.A., Grossberg S. A massively parallel architecture for selforganizing neural pattern recognition machine // Comput. Vision, Graphics, Image Process. 1987. V.37. N.1. P. 54-115.

  13. Kohonen T. Self-organized formation of topologically correct feature maps // Biol.Cybern. 1982. V.43. N.1. P.56-69.

  14. Fukushima K. Neocognitron: A hierarchical neural network capable for visual pattern recognition // Neural networks. 1988. V.1. N.2. P.119-130.

  15. Hopfield J.J., Tank D.W. Computing with neural circuits: A model. // Science. 1986. V.233. N.464. P.625-633.

  16. Hebb D.O. The organization of behavior. A neuropsychlogical theory. N.Y.: Wiley & Sons, 1949. 355 p.

  17. Amit D.J., Gutfreund H., Sompolinsky H. Spin-glass model of neural networks // Physical Review A. 1985. V.32. N.2. P.1007-1018.

  18. Amit D.J., Gutfreund H., Sompolinsky H. Storing infinite number of patterns in a spin-glass model of neural networks // Physical Review Letters. 1985. V.55. N.14. P.1530-1533.

  19. Gutfreund H. Neural networks with hierarchically correlated patterns // Physical Review A. 1988. V.37. N.2. P.570-577.

  20. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1972. 238 с.

  21. Хакен Г. Информация и самоорганизация: Макроскопический подход к сложным системам. М.: Мир, 1991. 240 с.

  22. Poggio T., Girosi F. Networks for approximation and learning // Proceedings of the IEEE. 1990. V.78. N.9. P.1481-1497.

  23. Amari S. Mathematical foundations of neurocomputing // Proceedings of the IEEE. 1990. V.78. N.9. P.1443-1462.

  24. Amari S. Dualistic geometry of manifold of higher-order neurons // Neural networks. 1991. V.4. P.443-451.

  25. Либерман .Е.А. Молекулярная вычислительная машина клетки (МВМ). Общие соображения и гипотезы // Биофизика. 1972. Т.17. N.5. С.932-943.

  26. Conrad M. Evolutinary learning circuits // J. Theor. Biol. 1974. V.46. N.1. P.167-188.

  27. Цитоловский Л.Е. Интегративная деятельность нервных клеток при записи следа памяти // Успехи физиол. наук. 1986. Т.17. N.2. С.83-103.

  28. http://alife.narod.ru/lectures/neural/Neu_index.htm

  29. http://www.keldysh.ru/pages/BioCyber/Lectures/Lecture11/Lecture11.html



Скачать файл (350.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации