Автореферат диссертации по теме "Психофизиологический анализ рефлекторного взаимодействия со средой"

На правах рукописи

Крылов Андрей Константинович

Психофизиологический анализ рефлекторного взаимодействия со средой

Специальность 19 00 02 - «Психофизиология» (психологические науки)

Автореферат

Диссертации на соискание ученой степени кандидата психологических наук

Москва - 2007

ООЗОТОББ2

003070662

Работа выполнена в лаборатории нейрофизиологических основ психики им В Б Швыркова Института психологии Российской академии наук

Научный руководитель

Доктор психологических наук, профессор Александров Юрий Иосифович

Официальные оппоненты

Доктор психологических наук, профессор Черноризов Александр Михайлович Кандидат психологических наук, доцент Савченко Татьяна Николаевна

Ведущая организация

Институт высшей нервной деятельности и нейрофизиологии Российской академии наук

Защита состоится 28 мая 2007г в 11 часов на заседании диссертационного совета Д002 016 03 при Институте психологии РАН по адресу 129366, Москва, ул Ярославская, 13

С диссертацией можно ознакомиться в библиотеке Института психологии РАН

Автореферат разослан <<^>> 2007г

Ученый секретарь диссертационного совета кандидат психологических наук

Никитина Е А.

Общая характеристика работы. Актуальность темы.

Традиционно в «сопоставляющей психофизиологии» психические явления напрямую сопоставляются с локализуемыми элементарными физиологическими явлениями, что неизменно приводит к рассмотрению психологических и физиологических процессов как тождественных, параллельно протекающих или взаимодействующих [Александров Ю И, 2004] Такое положение отражается в программах редукционизма и элиминативизма, предполагающих поэтапное замещение психологии нейробиологией [Иванов-Смоленский А Г, 1929, Churchland P.S , 1986, Gold I, Daniel S , 1999]

В системной психофизиологии [Швырков В Б , 1995, Александров Ю И и др, 1997; Александров Ю И, 2004] реализуется иное решение психофизиологической проблемы (В Б Швырков, 1978), принадлежащее к группе «двухаспектных решений» [СпенсерГ, 1897; БехтеревВМ, 1991, Chalmers D J, 1995, Прист С , 2000] психическое и физиологическое являются разными аспектами рассмотрения одних и тех же системных процессов, организующих активность физиологических элементов в пределах всего организма для достижения тех или иных полезных результатов

Если в сопоставляющей психофизиологии используется методика предъявления стимулов, то в системной психофизиологии используется методика «погружения в среду» («embodied and situated agent» [Brooks R A, 1991]) и свободное поведение В первом случае экспериментатор задает ситуации, с которыми сталкивается испытуемый (агент), во втором случае испытуемый сам влияет на то, в каких ситуациях он окажется

До сих пор, однако, не был в достаточной мере рассмотрен вопрос о месте двух упомянутых типов методик в научном исследовании, об ограничениях, которые они, возможно, накладывают на тип исследования и характер получаемых результатов [Brembs В , et al, 2004] Между тем ответ на этот вопрос позволил бы продвинуться в разработке представлений о специфике и области применения методики предъявления стимулов в психологии и, в частности, в психофизиологии «Генеральной линией развития

психологии (и смежных с ней наук) является более глубокая разработка специфически психологических методик исследования, основанных на философски фундированной методологии» - соглашаясь с C.JI Рубинштейном, писал А В Брушлинский еще в 1979 [Брушлинский А.В , 1979]

Организация экспериментальный среды во многом предопределяет характер получаемых данных Например, в ситуации предъявления стимулов удобно трактовать изменения активности организма, связанные по времени со стимулом, как реакции Теория рефлекса достигла определенных успехов в описании активности организма в этом случае. Напротив, при «погружении в среду», в свободном поведении, испытуемый сам влияет на то, какие ситуации складываются в среде и на их последовательность В этом случае учет только лишь рефлекторных детерминант может оказаться недостаточным Поэтому актуальным представляется исследование взаимодействия рефлекторного агента со средой при использовании методики погружения в среду. В качестве агента может рассматриваться как человек и животное, так и модель, реализующие поведение (обзор содержания понятия «агент» см в [Franklin S, Graesser F , 1996]) Поскольку вопрос о том, является ли живой агент (человек, животное) рефлекторным, остается спорным [Анохин П.К., 1978; Швырков В Б , 1978; Александров Ю И., 2004; Schall J D, 2001], важно изучить именно модель рефлекторного агента в компьютерном эксперименте Такой подход гарантирует, что агент будет адекватно описываться рефлекторной теорией (РТ)

Поскольку модель позволяет проводить измерение всех интересующих исследователя переменных, работа с компьютерной моделью, в отличие от экспериментов с живыми агентами, позволит выявить закономерности актуальной задачи, т е как выглядит задача с точки зрения агента (испытуемого) Далее окажется возможным сопоставление тестовой задачи с точки зрения экспериментатора с актуальной задачей Результаты модельного эксперимента следует проверить, сравнив их с результатами поведенческих и психофизиологических экспериментов, в частности, оценить выраженность известного в РТ феномена корреляции нейронной активности с поведенческими

событиями, но в условиях свободного поведения животного — при погружении его в среду, аналогичную той, в которую будет погружаться модельный агент

В исследованиях, проводимых на основе РТ, наиболее распространены методики классического и оперантного обусловливания Методика классического (павловского) обусловливания, принадлежит к категории методик предъявления стимулов и, с точки зрения РТ, позволяет формировать у испытуемого классический условный рефлекс Методика оперантного обусловливания, разработанная Скиннером, близка к идее погружения в среду и с точки зрения РТ позволяет формировать у испытуемого инструментальный условный рефлекс Задача различения классического и оперантного обусловливания была поставлена давно «Проблема взаимоотношений между классическим и инструментальным условными рефлексами, несмотря на очевидную простоту, является одним из наиболее запутанных вопросов, которые стоят перед поведенческими и нейрофизиологическими исследованиями» [Граштьян Е, 1973, с 350] Однако и сегодня эта задача остается актуальной [ВгешЬв В, е1 а1, 2004] Поэтому исследование рефлекторного взаимодействия со средой является актуальным также и для теории рефлекса Цель исследования.

Выявление особенностей рефлекторного взаимодействия агента погруженного в среду, находящегося в условиях свободного поведения Объект.

Агент (компьютерная модель, животное) осуществляющий свободное пищедобывательное поведение в среде (модельной и реальной, соответственно) Предмет исследования.

Взаимодействие агента (компьютерная модель, животное) со средой. Теоретическая гипотеза.

Взаимодействие рефлекторного агента, находящегося в условиях свободного поведения, со средой подчиняется иным закономерностям, нежели в случае, когда стимульный паттерн задается экспериментатором

Задачи исследования:

1 определить ядро исследовательской программы, на которой основана теория рефлекса, и на базе этого определения построить модель рефлекторного агента, отражающего сущность теории рефлекса,

2 сформулировать критерии к тестовой задаче пригодной для анализа результатов с помощью сопоставляющей и системной психофизиологии,

3. выявить структуру поведения рефлекторного агента при погружении его в среду тестовой задачи;

4 выявить динамику актуальной задачи при взаимодействии рефлекторного агента со средой,

5 выявить зависимость актуальной задачи от индивидуальных особенностей рефлекторного агента, работающего с ней,

6 определить степень корреляции нейрональной активности с поведенческими событиями в условиях погружения животного в среду аналогичной тестовой задачи

Теоретико-методологические основы исследования.

Теоретико-методологической основой исследования являются теория функциональных систем (ПК Анохин), системно-эволюционный подход, системная психофизиология Методы исследования.

Для эмпирического исследования была синтезирована тестовая поведенческая задача на основе сформулированных критериев, и модель рефлекторного агента, отражающая современные представления рефлекторной теории о работе головного мозга В качестве экспериментальной методики использовалось погружение модели рефлекторного агента в среду тестовой задачи в условиях свободного поведения - задача фуражирования Использовалась модель обучения парадигмы «обучение с подкреплением» В эксперименте на животных они погружались в среду инструментального пшцедобывательного поведения

Эмпирическая база исследования.

В исследовании проанализирована активность нейронов разных поведенческих специализаций, зарегистрированная у 3-х животных, рассмотрено 14 категорий модельных агентов, 9 видов морфологий, всего 920 агентов Разница морфологий заключалась в различиях структуры зрительных рецептивных полей и двигательных паттернов Разница между категориями состояла в различии алгоритмов обучения и скорости движения у агентов с разной морфологией. Проведено 5 серий модельных экспериментов и 1 серия на животных

Научная новизна работы.

Впервые проведено исследование, связанное с задачей выявления межпарадигмальных различий в психофизиологии, и направленное на формализацию аналитических особенностей применяемых в психофизиологии методик Оригинальным является выявление ядра исследовательской программы, на которой основана теория рефлекса. На этой основе построена модель рефлекторного агента, отражающая суть концепции реагирования Разработан новый алгоритм модельного обучения и показаны его преимущества перед классическим Теоретическое значение.

Проведенная формализация концепции реагирования может способствовать более глубокому пониманию достоинств и недостатков рефлекторной теории Показано, что вероятность активации нейронов в окрестности поведенческого события выше, чем вероятность возникновения события при возникновении нейронной активности Следовательно, возникновение известного в РТ феномена - повышенной частоты спайковой активности нейрона в окрестности поведенческого события, может быть объяснено иначе, нежели реакция на стимул, ввиду того, что аналогичное явление получено в экспериментах в свободном поведении Практическая значимость

Полученные результаты демонстрируют специфику экспериментальной методики погружения в среду и методики предъявления стимулов и могут быть

использованы при планировании психологических и, в частности, психофизиологических экспериментов; применяются в моделировании процесса научения; используются в курсе «Системная психофизиология» и программе преподавания по курсу «Психофизиология» Разработанный алгоритм обучения может применяться в практических приложениях в области искусственного интеллекта. Разработанный метод сопоставления нейронной активности с поведенческими событиями внедрен в программное обеспечение системы обработки психофизиологических данных - в программу №иЫи Положения, выносимые на защиту:

• При погружении в среду динамика задачи зависит от поведения агента: вероятность возникновения какой-либо ситуации зависит от предыдущей ситуации, от предыдущего действия и опыта рефлекторного агента, вариация сложности субзадач, с которыми сталкивается рефлекторный агент, порождается собственными действиями агента в среде - агент ненаправленно реструктурирует среду.

• В отличие от фиксированной актуальной задачи в методике предъявления стимулов, рефлекторный агент своим взаимодействием со средой в свободном поведении влияет на актуальную задачу, которая поэтому оказывается различной для одного и того же агента на разных стадиях обучения и для разных агентов, работающих с ней

• Ядро исследовательской программы, на которой основана теория рефлекса, можно выразить следующим образом индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал Это утверждение представимо следующей формулой1

действие^ + т) = ^ внешний сигнал^) ), где временная задержка т > О, I - время, Г - функциональная зависимость Апробация.

Результаты диссертационного исследования докладывались и обсуждались на конференции молодых ученых по проблемам высшей нервной деятельности, посвященной 90-летию со дня рождения Л Г Воронина (Москва, 1998), конференции молодых ученых «Системная организация

физиологических функций» (Москва, 1999), семинаре по когнитивной психологии Хельсинского технологического университета (Хельсинки, Финляндия, 2000), международной школе-семинаре «Обучение, приобретение поведенческой компетенции» (Вюрцбург, Германия, 2000), заседании секции психофизиологии РПО (Москва, 2003), VI всероссийской научно-технической конференции «Нейроинформатика-2004» (Москва, 2004), научном семинаре Института оптико-нейронных технологий РАН (Москва, 2004), 1-й российской конференции по когнитивной науке (Казань, 2004), 9-й национальной конференции по искусственному интеллекту с международным участием (Тверь, 2004), научном семинаре лаборатории нейрофизиологических основ психики им В Б Швыркова Института психологии РАН (2004,2006,2007), Ш-м международном научно-практическом семинаре «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2005), 14-й международной конференции по нейрокибернетике (Ростов-на-Дону, 2005), VIII всероссийской научно-технической конференции «Нейроинформатика-2006» (Москва, 2006), итоговой научной сессии Института психологии РАН (Москва, 2006), 2-й международной конференции по когнитивной науке (Санкт-Петербург, 2006), 13-м международном конгрессе по психофизиологии (Стамбул, Турция, 2006), расширенном заседании лаборатории нейрофизиологических основ психики им В.Б. Швыркова Института психологии РАН (Москва, 2007) Публикации.

По теме диссертации опубликовано 20 печатных работ Структура диссертации.

Диссертация состоит из введения, четырех глав, заключения и списка литературы

Основное содержание работы

Во ВВЕДЕНИИ обосновываются актуальность и новизна исследования, определяются его цель, задачи, характеризуются предмет, объект, гипотеза исследования, научная и практическая значимость, излагаются основные положения, выносимые на защиту

В ПЕРВОЙ ГЛАВЕ «Теория рефлекса в психофизиологии» осуществлена теоретическая проработка темы исследования1 проведен анализ содержания теории рефлекса, парадигм активности и реактивности, сформулировано ядро исследовательской программы реактивности, обоснован выбор тестовой задачи для проведения эксперимента

В соответствии с парадигмой реактивности (подробнее см. [Александров Ю.И., 2004]) поведение испытуемого рассматривается как реакции на стимулы внешней среды Адекватной экспериментальной методикой считается предъявление стимулов и регистрация последующей мозговой активности и последующих действий испытуемого, выбранных им из ограниченного набора действий, заданных экспериментатором В подобных экспериментах испытуемый на каждом шаге оказывается в ситуации задаваемой экспериментатором, и не может сам выбрать ее или создать При планировании эксперимента и при трактовке результатов основной объяснительный принцип рассматриваемого явления - внешняя причина, находящаяся в прошлом [Крутиков РИ, 1982] Лексически такой тип атрибуции часто выражается связкой «потому что».

Сделан вывод, что применение концепции «рефлекс» к какому-либо явлению означает, что его причины ищутся в прошлом и вовне данного явления, те что оно порождается, вызывается, другим внешним явлением, имевшим место в прошлом И, несмотря на все попытки модификации (см [Кругликов Р И, 1982, Батуев А С , 1991, и мн. др.]) рефлекторной теории, ее существо остается неизменным [Меницкий ДН, 1975, Швырков ВБ, 1978, Анохин ПК, 1980, Кругликов Р.И., 1982, Александров ЮИ, 1989, Судаков KB 1997, ВасилюкФЕ, 2003]

С целью выявления «ядра исследовательской программы» (термин ИЛакатоса [ЛакатосИ, 1995]) основанной на методологическом принципе реактивности нами проведен анализ исторического развития теории рефлекса начиная с представлений Р Декарта Сделан вывод о том, что ядро этой исследовательской программы можно выразить следующим образом, индивид в своем действии и состоянии объективно отражает предшествующий внешний

сигнал Данное утверждение представимо следующей формулой Y(t + т) = f( S(t) ), временная задержка т > 0, обозначения- S(t) - внешний сигнал воспринимаемый индивидом, Y(t) - действие индивида в момент t, f — некоторая функция Такая формулировка означает, что между воспринимаемым внешним сигналом и последующим поведением имеется функциональная зависимость Эта общая модель рефлекса находит свое конкретное воплощение, например, в понимании и моделировании зрения на основе РТ [Соколов Е Н и др, 2006, Черноризов А М, 2007]

На основе детерминант поведения, рассматриваемых в теории функциональных систем [Анохин ПК, 1978], были сформулированы требования к тестовой поведенческой задаче, адекватной цели исследования испытуемому должно предоставляться не менее двух альтернатив при выборе действия, позволяющих ему выстраивать индивидуальную траекторию прохождения тестового поля [Коган А Ф, 2000], должна варьировать мотивация [Seth AK, 1998, Baldassarre G, 2000]; ситуация в среде должна зависеть от совершенных агентом актов, в тч воспринимаемая агентом ситуация определяется не экспериментатором, а результатами действий испытуемого и его взаимодействием с закономерностями среды [Никольская К А, 2005], действия должны требовать контроля правильности своего исполнения [Morasso Р G., et al, 1999]; задача должна решаться последовательностью действий и результаты промежуточных действий не должны быть представлены непосредственно в среде [Colombetti et al, 1994] Следовательно, агент должен быть погружен в среду [Brooks R. А, 1991]

ВО ВТОРОЙ ГЛАВЕ «Методика исследования рефлекторного взаимодействия со средой модельного агента и активности нейронов у животного» описаны и обоснованы методики исследования методика обучения животных, методика регистрации нейронной активности, методика компьютерного моделирования рефлекторного агента

Известно, что формирование пищевого поведения в раннем онтогенезе «позволяет выработать первичные навыки удовлетворения еще не сформированнных», позже возникающих потребностей [Раевский В В, 2007,

с 193]. Поэтому модель, учитывающая формирование пищевого поведения может быть репрезентативна и для других его форм

В качестве тестовой поведенческой задачи отвечающей приведенным выше критериям мы выбрали задачу фуражирования (ее вариации см в [Araujo Е G, Grupen R.A, 1996, Baldassarre G, 2000, Seth A.K. , 1998, Barandiaran X, 2002]) - агент движется на плоскости, «поедая» пищевые объекты Среда (Рис 1) представляет собой развертку тора на плоскости, в которой изначально равномерно разбросано 42 пищевых объектов. После «поедания» агентом одного объекта, в случайном месте появляется новый объект Такая тестовая задача аналогична той, которую решает животное [Непомнящих В А., 2003], двигаясь в поисках пищи и имея ограниченный сектор обзора

Поставленная нами тестовая поведенческая задача фуражирования вписывается в контекст парадигмы «обучение с подкреплением» [Sutton R S , В art о A G, 1998] - захват пищи рассматривается как получение подкрепления и закрепляет рефлексы приведшие к этому событию.

Существующие в психологии модели процесса принятия решения не рассматривают динамику непрерывного взаимодействия человека со средой, человека погруженного в среду [Савченко Т.Н, Иванова JIВ, 2007], однако такая модель принятия решения разработана в сопоставляющей психофизиологии В современной редакции рефлекторной теории предполагается [Houk С. J, et al, 1995, Redgrave P, et al, 1999, Doya К, 1999], что принятие решений, выбор действия, осуществляется в базальных ганглиях головного мозга, и этот процесс моделируется с помощью алгоритма научения Actor/Critic парадигмы «обучение с подкреплением» [Sutton R S , Barto A G, 1998, Baldassarre G, 2002], который и был нами использован как отражающий современные представления в моделировании мозгового обеспечения рефлекторного научения [Houk С J, 1995, Baldassarre G, 2002; Мержанова Г.Х, Смирнитская И А, Фролов А А., 2005]

Далее обосновывается, что модель, реализованная нами, удовлетворяет методологии РТ [Василюк Ф Е, 2003]

Рисунок 1. Среда модели. Точки - объекты. Линией показана траектория движения агента за последние 1000 тактов Можно заметить, что за счет «поедания» объектов по линия движения агента, образуются скопления объектов в не посещенных им местах. Также имеются крупные участки, не содержащие объектов. Объекты оказываются размещенными неравномерно. Таким образом, агент, взаимодействуя со средой, реструктурирует ее.

Первые пять серий проведены на компьютерной модели В первой серии экспериментов в процессе работы компьютерной модели в данной задаче в режиме постоянной мотивации (голод) для каждого возможного действия собиралась марковская статистика переходов из состояния в состояние <состояние(1), действие^), состояние^ 1)> Для определения роли индивидуальных характеристик агента, такие данные сопоставлялись для четырех видов морфологий агента (разница морфологий заключалась в различиях структуры зрительных рецептивных полей) и при двух вариантах величины поискового шага Во второй серии использовался режим мотивации с насыщением, и регистрировалось время, которое агент затрачивает на поиск очередного пищевого объекта В третьей серии экспериментов анализировалась динамика оценок ситуаций в процессе обучения В четвертой серии сравнивались сформулированный нами алгоритм обучения БББ и известный из литературы алгоритм АсЮг/СгШс В пятой серии сопоставлялись динамика обучения рефлекторного агента, владеющего информацией только о текущей

ситуации, и рефлекторного агента, владеющего информацией о текущей и предшествующей ситуациях

В шестой серии анализировалась активность нейронов кролика в пищедобывательном поведении и сопоставлялась с поведенческими отметками (рис 2) Данные регистрации предоставлены сотрудником лаборатории нейрофизиологических основ психики Института психологии РАН СозиновымА А Нейрон считался активированным при превышении им частоты импульсации в окне (от 50 до 500 мс) в 1 5 раза выше фоновой частоты

•ЮООтя 1 ОООтя

Рисунок 2. Сопоставление активности нейрона с поведенческим событием. В верхней части показаны растры спайковой активности нейрона построенные относнтельно поведенческого события. Вертикальная линия - поведенческая отметка. Внизу -гистограмма нейронной активности. По оси ординат — число спайков в бине, ширина бина - 50 мсек.

В ТРЕТЬЕЙ ГЛАВЕ «Результаты экспериментального исследования взаимодействия со средой» и в ЧЕТВЕРТОЙ ГЛАВЕ «Обсуждение результатов исследования рефлекторного взаимодействия со средой» представлены полученные результаты и их обсуждение

Агент успешно решает данную тестовую задачу, обучаясь набору рефлексов типа «если объект справа, то поворот вправо», «если объект в области захвата, то захват». В текущем поведении он выполняет выученные

рефлексы, независимо от того, приводят ли они сейчас к положительному эффекту.

Рефлекторный агент оказывается способен продемонстрировать феномен «превентивного поведения»1 агент ищет пищу даже при отсутствии мотивации (нет голода), что позволяет ему затем сократить длительность ситуации голода В первой (модельной) серии экспериментов выявлена зависимость вероятности возникновения какой-либо ситуации от предыдущей ситуации, от предыдущего действия и опыта агента (рис 3)

Q8 OJB 0.4 02 О

Рисунок 3. Пример зависимости последующей ситуации от текущей ситуации, от действия агента и его опыта. По ординате показана вероятность возникновения соответствующей ситуации после действия «поворот влево» (неверным) в ситуации «объект виден справа». Светлые столбцы - в начале обучения, темные - в конце. (Усреднение по 100 реализациям модели.) SO - нет объекта в области видимости, S1 -один объект в области видимости, S2 - два объекта в области видимости, S+ - есть объект в области захвата Различия достоверны (р-критерий Фишера, р < 0 001).

Вследствие обучения, для агента меняется вероятность оказаться в той или иной ситуации, несмотря на неизменные закономерности тестовой задачи Например, вероятность оказаться в ситуации «видны 2 объекта» растет в процессе обучения более чем в 1 5 раза С точки зрения РТ это означает, что рефлекторный агент в свободном поведении способен до некоторой степени определять, какие стимулы он получит В другой модельной работе это свойство названо "self-selecting of input stimuli" [Nolfi S , 1993]

Показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации и от опыта агента Например, вероятность того, что объект окажется в области захвата, если до этого он был справа, составляет 0 04 в начале обучения В конце обучения эта величина составляет более 0 15. В терминологии РТ это означает, что очередной стимул зависит от предыдущего и от опыта испытуемого Такая зависимость исключается в методике предъявления стимулов, поскольку стимулы принято предъявлять в случайном порядке

Показано, что возникновение какой-либо ситуации зависит от предшествующей ситуации, от выбранного агентом действия, и от опыта агента Например, вероятность того, что объект окажется в области захвата, если до этого он был справа и совершается действие «поворот влево» (неверное), составляет около 0.05 в начале обучения В конце обучения эта величина составляет уже около 0.1 В терминологии РТ это означает, что очередной стимул зависит от предыдущего стимула, от предыдущей реакции испытуемого, и от опыта испытуемого

Для всех рассмотренных морфологий и для обоих значений поискового шага оказалось (табл 1), что правильное действие, по сравнению с неправильным, имеет более высокую вероятность успеха (завершения подхода к объекту), причем разница иногда достоверна уже в начале обучения, и всегда достоверна к концу обучения, вероятность потери объекта вследствие правильного действия достоверно ниже вероятности потери объекта вследствие неправильного действия

Таким образом, показано, что тестовая задача с точки зрения экспериментатора и с точки зрения агента могут оказываться различными Актуальная задача (те задача, с которой сталкивается агент) определяется взаимодействием агента с тестовой задачей, проявляется при погружении агента в среду, и зависит от свойств агента морфологии, алгоритма обучения, алгоритма принятия решения, структуры памяти, опыта, величины поискового шага процедуры поиска решения Формальное описание задачи, выражаемое оценкой успешности действий, зависит от индивидуальных особенностей

агента (параметров морфологии агента и величины поискового шага) Одна и та же с точки зрения экспериментатора тестовая задача может оказываться различной для разных агентов, работающих с ней (табл 1) Также, закономерности задачи оказываются различными для одного и того же агента на разных стадиях обучения (табл 1) Например, вероятность успешного завершения (подхода к объекту слева) правильного действия (поворот влево) увеличивается в процессе обучения в 2 раза, хотя это не задается экспериментатором Формальное и объективное описание, выражаемое полученными в экспериментах вероятностями переходов в графе задачи, варьирует даже в процессе обучения, а значит, может быть выявлено только в эксперименте

Таблица 1. Вероятность успешности действий в ситуации «виден объект». Роль индивидуальных особенностей агентов. БО — нет объекта в области видимости, олин объект в области видимости, Б2 - два объекта в области видимости, 5+ - есть объект в области захвата. Звездочкой помечена достоверность различий ((¡»-критерий Фишера, р < 0.001).

Параметры Вероятность успешности верного/неверного действий

М угол обучен БО Б2

М1 22 5 нет *0/0 3 0 92/0 64 0 01/0 01 0 07/0 05

М1 22 5 да *0/0 16 0 77/0 72 0 08/0 03 *0 15/0 1

М1 67 5 нет *0 01/0 82 0 71/0 18 0 02/0 ♦0.26/0

М1 67 5 да *0 02/0.81 0 52/0 18 0.07/0 01 *0.4/0.01

М2 22 5 нет *0/0 17 0 87/0 65 0.09/0 15 0.04/0 03

М2 22 5 да »0/0 11 0 72/0 77 0 19/0 07 *0 09/0.05

М2 67 5 нет *0/0.44 0.69/0 43 0 19/0 12 *0.12/0.01

М2 67.5 да *0 01/0 57 0 55/035 0 21/0 07 *0.23/0.01

МЗ 22 5 нет *0/0 6 0 9/0.37 0/0 0.1/0.03

МЗ 22 5 да *0/0 46 0 77/0 46 0 06/0 02 *0 17/0 06

МЗ 67.5 нет *0 59/0 97 0 28/0.03 0/0 *0 13/0

МЗ 67.5 да *0 46/0 87 032/011 0.03/0 01 ♦0.19/0 02

М4 22 5 нет *0/0 48 0 95/048 0 01/0 03 0 04/0 01

М4 22 5 да *0/0 38 0 76/0 54 0 15/0 05 *0 09/0.03

М4 67 5 нет 0 48/0 59 0 46/0 4 0 01/0 01 0 05/0

М4 67.5 да *0 33/0 68 046/0.27 0 1/0.03 *0 11/0 02

Показано, что агент своим поведением влияет на вероятность возникновения

какой-либо ситуации Возникновение ситуации определяется не экспериментатором, как в методике предъявления стимулов, а зависит от предыдущей ситуации, от предыдущего действия и опыта агента

Во второй (модельной) серии экспериментов было показано, что рефлекторный агент, взаимодействуя со средой, реструктурирует среду собственными действиями (рис. 1) и влияет на сложность задач, с которыми он сталкивается, что порождает неравномерное распределение сложности задач (рис. 4).

Рисунок 4. Вариативность сложности субзадачи «поиск и захват одного объекта», порожденная действиями агента. (Пример одной из реализаций модели.) По горизонтали - случаи решение субзадачи пересортированные в порядке возрастания времени решения. По вертикали - и рем я а тактах, затрачиваемое на решение.

Тестовая среда такова, что вероятность появления нового объекта в любом месте среды одинакова, поэтому объекты появляются в среде равномерно. Однако обнаруживается, что в результате действий агента, объекты оказываются распределены в среде неравномерно (рис.\). Благодаря действиям агента работающего с задачей происходит реструктуризация среды. В результате этого, агент, собрав объекты на одном локальном участке, может потратить немало времени в поисках следующего объекта (рис. 1).

Сложность субзадачи поиска очередного объекта оценивалась как время, затрачиваемое на ее решение, т.е. на обнаружение объекта, подход к нему и захват. Оказалось, что сложность этой субзадачи имеет экспоненциальный характер роста (рис. 4), что обусловлено взаимодействием агента со средой, как это описано выше. С точки зрения методики предъявления стимулов это означало бы, что испытуемому предъявляются задачи, сложность которых имеет экспоненциальный характер роста, в то время как в этой методике

принято предъявлять задачи примерно одинаковой сложности для

последующего усреднения результатов.

В третьей (модельной) серии экспериментов показано, что в парадигме обучения с подкреплением оценки получаемых ситуаций варьируют, не представляя возможным классифицировать действия на успешные и неуспешные по величине изменения оценки ситуации (рис. 5). В следующей серии было показано, что предложенный нами алгоритм научения способен это делать в данной задаче.

2,5 2S 1

Рисунок 5. Динамики оценок ситуаций в процесс обучения (А), и значения этих оценок в конце обучения (В). А: но горизонтали - время в тысячах тактов, по вертикали -оценки ситуаций. Б: по горизонтали - ситуации, но вертикали - оценки этих ситуаций. S- ~ нет объекта и области видимости, S1 - один объект в области видимости, S2 - дни объекта в области видимости, S+ - объект в области захвата, SI-1- - есть один объект в области видимости н еще один объект в области захвата, S2+ — одни 2 объекта в области видимости и еще один объект в области захвата. Переход из ситуации S1 в S- означает потер» объекта, «неуспех», ((ереход из ситуации Si в любую из $+, Si+, S2+ означает «успех». Показаны значения изменения оценки текущей ситуации при таких переходах. Видна численная вариативность значения успешного перехода.

В четвертой (модельной) серии экспериментов показано, что предложенный нами алгоритм обучения SDD имеет иной характер кривой научения, чем классический алгоритм Actor/Critic, и обучение на его основе происходит быстрее (рис. 6).

В данной задаче «правильное» действие отличается от «неправильного» не столько количественно, сколько качественно: различия в успешности статистически значимы даже на начальном этапе научения (табл.1). Алгоритм обучения SDD, построенный нами на основе выявления этого различия, доказал свою эффективность в эксперименте. Алгоритм SDD демонстрирует больший рост эффективности поведения на начальном этапе обучения по сравнению с

Actor/Critic, и иную кривую научения - экспоненциальную, в отличие от S-образной у Actor/Cntic

Рисунок 6. Средняя результативности 100 агентов, собирающих объекты, работающих по алгоритмам SDD и Actor/Critic. По горизонтали - время в тысячах тактов, по вертикали - число успешных захватов пищи за 1000 тактов. SDD демонстрирует больший рост результативности в начале обучения.

В пятой (модельной) серии экспериментов показано (рис 7), что рефлекторный агент обучается разным рефлексам взаимозависимо, рефлексы дополняют друг друга Например, агент (рис 7, кривая С) повышает успешность подхода к объекту не только особой организацией собственно поведения подхода к обнаруженному объекту, но и соответствующей подстройкой поискового поведения

Рефлекторный агент не предназначен для решения задач требующих, для принятия на данном шаге решения о будущем действии, учета не только текущей сенсорной ситуации, но и учета совершенных ранее действий и полученных результатов Однако, в этом случае (агент типа С) вследствие изменений одной части рефлексов могут поменяться закономерности актуальной задачи, что ослабляет негативное влияние на результативность другой части - менее эффективных рефлексов И за счет изменения величины поискового шага (табл 1) рефлекторный агент может увеличить свою результативность

Рисунок 7. Средняя результативность двух типов агентов. С - обладающий информацией о текущей ситуации. РС - обладающий информацией о текущей и о предшествующей ситуациях. Усреднение по 80 реализациям. Агент типа РС обучается несколько медленней, но достигает большей эффективности. По горизонтали - время в тысячах тактов, по вертикали - число успешных захватов пищи за 1000 тактов.

Рисунок 8. Вероятность активации нейронов при условии поведенческого события (левые столбцы, светлые), и вероятность поведенческого события при условии активации нейрона (правые столбцы, темные). По абсциссе: 1 — активность нейронов, специализированных относительно ранних элементов опыта, в сопоставлении с соответствующим поведенческим событием, 2 - то же, в сопоставлении с другим событием; 3 - активность нейронов, специализированных относительно более поздних элементов опыта, в сопоставлении с соответствующим поведенческим событием; 4 - то же, в сопоставлении с другим событием, 5 - активность нейронов, не специализированных относительно рассматриваемых поведенческих событий. Показаны средние данные по 36 нейронам.

В шестой серии (на животных) показано, что вероятность активации

нейронов в окрестности поведенческого события выше, чем условная

вероятность возникновения события при условии возникновения активации

нейронов (рис 8) Эффект наиболее выражен для активности нейронов,

специализированных относительно некоторого поведенческого события, при рассмотрении относительно именно этого события (рис 8, категории 1, 3) Возникновение известного в РТ феномена — повышенной частоты спайковой активности нейрона в окрестности поведенческого события, может быть объяснено иначе, нежели реакция на стимул, ввиду того, что аналогичное явление получено в экспериментах при отсутствии внешней стимуляции, задаваемой экспериментатором - при свободном поведении

В ЗАКЛЮЧЕНИИ подведены итоги выполненной работы В частности, раскрывается, каким образом результаты нашего исследования свидетельствуют в пользу того, что категория методик погружения в среду позволяет изучать более широкий класс феноменов и зависимостей по сравнению с категорией методик предъявления стимулов Рефлекторный агент, успешно решая задачи, построенные на основе методики предъявления стимулов, имеет некоторые ограничения в эффективности, решая задачи при погружении в среду Полученные данные, однако, не исключают возможности применения методики основанной на предъявлении стимулов для исследования таких форм взаимодействия испытуемого со средой, в которых он не способен влиять на ситуацию. Выводы:

1 Ядро исследовательской программы, на которой основана теория рефлекса, можно выразить следующим образом индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал. Иными словами, между воспринимаемым внешним сигналом и последующим поведением имеется функциональная зависимость

2 Тестовая задача фуражирования удовлетворяет предъявленным критериям к тестовой задаче- задача решается последовательностью действий, в каждый момент времени агент имеет возможность выбора действия, выбранное действие влияет на последующую ситуацию, однако последствия действий неопределенны

3 На уровне поведения рефлексы в данной задаче обеспечивают успешное пищедобывательное поведение, однако последствия рефлексов в

«обучении с подкреплением» оказываются неоднозначны Показано наличие зависимости вероятности возникновения какой-либо ситуации от предыдущей ситуации, от предыдущего действия и опыта испытуемого (в терминологии теории рефлекса - зависимость вероятности предъявления данного стимула от типа предыдущего стимула, реакции на него испытуемого и его опыта)

4 Закономерности актуальной задачи различны для одного и того же агента на разных стадиях обучения, и могут быть выявлены только в эксперименте

5 Одна и та же с точки зрения экспериментатора тестовая задача может оказываться различной для разных агентов, работающих с ней

6. Условная вероятность активации нейронов при условии появления поведенческого события выше, чем условная вероятность возникновения события при условии возникновения нейронной активности. Выявленная закономерность позволяет объяснить, почему известный в РТ феномен повышенной частоты спайковой активности нейрона в окрестности поведенческого события может проявляться вне связи с предъявлением стимулов

Публикации по теме диссертации:

1. Крылов А К Математическое моделирование спайковой активности нейрона на основе системно-эволюционной теории // Тезисы конференции молодых ученых по проблемам высшей нервной деятельности, посвященная 90-летию со дня рождения JIГ Воронина, М. МГУ, 1998 С 15

2. Крылов А.К Математическое моделирование закономерностей организации поведения на основе системно-эволюционной теории // Тезисы конференции молодых ученых «Системная организация физиологических функций» Труды межведомственного научного совета по экспериментальной и прикладной физиологии М • НИИ нормальной физиологии им П К Анохина РАМН, 1999 Т.8 С 374

3 Крылов А К Оценка применимости рефлекторной модели нейронной сети к поведенческой задаче // Труды VI всероссийской научно-технической конференции «Нейроинформатика-2004». Ч 2 M МИФИ, 2004 С 108-116

4 Крылов А К Неадекватность представления знаний как рефлексов в когнитивной модели мобильного робота // Материалы 1-й российской конференции по когнитивной науке. Казань ЮГУ, 2004 С 138-139.

5 Krylov А К The smartest agent is not optimal in a motivationally driven actor/cntic model // In Proceedings of the International Scientific Conferences "Intelligent Systems (IEEE AIS'04) and Intelligent CAD's (CAD-2004)". Scientific publication m 3 volumes, 2004. Vol 3. P. 21-26

6 Крылов А К Вероятностный анализ «восприятия» модельным роботом тестовой поведенческой задачи фуражирования // Труды 9-й национальной конференции по искусственному интеллекту с международным участием (КИИ-2004) M Физматлит, 2004 Т 3, С 1131-1138.

7 Крылов А К. Методика психологического эксперимента погружение в среду вместо предъявления стимулов // Материалы 9-ой всероссийской научно-технической конференции «Состояние и проблемы измерений» M ' Изд-во МГТУ им H Э Баумана, 2004, С.47-51

8 Александров Ю И, Крылов А К Системная методология в психофизиологии от нейронов до сознания // Идея системности в современной психологии Под ред В А Барабанщикова M • ИПРАН, 2005 С 119-157

9 Крылов А К Детерминация поведения в моделях искусственного интеллекта, от реактивности к активности // Философия искусственного интеллекта Материалы всероссийской междисциплинарной конференции M ИФ РАН, 2005 С 293-295

10 Крылов А К Неопределенность результата действия в парадигме Reinforcement Learning // Труды Ш-го международного научно-практического семинара «Интегрированные модели и мягкие вычисления в искусственном интеллекте» M Физматлит, 2005 С 238-243

11 Krylov A Trends m modeling a neuron from reactivity of a calculator to activity of a living cell // Материалы 14-й Международной конференции по нейрокибернетике Ростов-на-Дону. ООО «ЦВВР», 2005 Т.2 С 227-230

12 Александров Ю И, Крылов А К Системная психофизиология и моделирование работы мозга // Материалы 14-й международной конференции по нейрокибернетике Ростов-на-Дону ООО «ЦВВР», 2005 Т 1 С 199-202

13 Крылов А К Понятия управления и обработки информации в биологии неадекватны специфике живого // Труды всероссийской научной конференции «Управление и информационные технологии (УИТ-2005)» Санкт-Петербург, 2005 Т 1 С 242-245

14 Крылов А К. Тестовая поведенческая задача минимально необходимой сложности скрытая динамика // Труды международных научно-технических конференций «Интеллектуальные системы» (AIS'05) и «Интеллектуальные САПР» (CAD-2005) В 3-х томах М . ФИЗМАТЛИТ, 2005 Т.1 С 237-244

15.Крылов А К SDD - алгоритм обучения в парадигме reinforcement learning, основанный на обнаружении значимости эффектов действий // Труды VIII всероссийской научно-технической конференции «Нейроинформатика-2006» В 3-х частях Ч 2 -М МИФИ, 2006 С 38-45

16 Крылов А К. Организация эксперимента: погружение в среду против предъявления стимулов // Тезисы докладов 2-й международной конференции по когнитивной науке СПб. СПбГУ, 2006 С 328-329

17 Крылов А К Предъявление стимулов или погружение в среду модельное исследование парадигм в психофизиологии // Материалы итоговой научной конференции ИП РАН (1-2 февраля 2006г.) М Изд-во «Институт психологии РАН», 2006 С 111-120

18 Krylov А К, Alexandrov Yu.I Modeling of a reflex-based agent situated m an environment reveals the limits of the stimuli presentation paradigm Journal of psychophysiology 2006 V 61 P 327

19Крылов AK Возможности методики погружения в среду в отличие от методики предъявления стимулов модельное исследование // Психофизика сегодня М • Изд-во «Институт психологии РАН», 2007 С 44-52 20.Крылов А К, Александров Ю И Погружение в среду как альтернатива методике предъявления стимулов- модельное исследование // Психологический журнал 2007 Т28 №2. С.106-113

Подписано в печать 24 04 2007 г Исполнено 25 04 2007 г Печать трафаретная

Заказ № 458 Тираж 120 экз

Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш , 36 (495) 975-78-56 www autoreferat ru

Содержание диссертации автор научной статьи: кандидат психологических наук , Крылов, Андрей Константинович, 2007 год

ВВЕДЕНИЕ

ГЛАВА 1. ТЕОРИЯ РЕФЛЕКСА В ПСИХОФИЗИОЛОГИИ.

1.1. Методологические принципы в психофизиологии.

1.2. Раскрытие сущности парадигмы реактивности в психофизиологии.

1.3. Методологические основы организации эксперимента в парадигмах активности и реактивности.

1.4. Формулирование требований к тестовой поведенческой задаче.

1.5. Аспекты рассмотрения содержания понятия рефлекторного отражения.

1.6. Понятие «цель» в психофизиологических парадигмах.

Введение диссертации по психологии, на тему "Психофизиологический анализ рефлекторного взаимодействия со средой"

Актуальность работы:

Традиционно в «сопоставляющей психофизиологии» психические явления напрямую сопоставляются с локализуемыми элементарными физиологическими явлениями, что неизменно приводит к рассмотрению психологических и физиологических процессов как тождественных, параллельно протекающих или взаимодействующих [Александров Ю.И., 2004]. Такое положение отражается в программах редукционизма и элиминативизма, предполагающих поэтапное замещение психологии нейробиологией [Иванов-Смоленский А.Г, 1929; Churchland P.S., 1986; Gold I., DanielS., 1999].

В системной психофизиологии [Швырков В.Б., 1995; Александров Ю.И. и др., 1997; Александров Ю.И., 2004] реализуется иное решение психофизиологической проблемы (В .Б. Швырков, 1978), принадлежащее к группе «двухаспектных решений» [Спенсер Г., 1897; Бехтерев В.М., 1991; Chalmers D.J., 1995; ПристС., 2000]: психическое и физиологическое являются разными аспектами рассмотрения одних и тех же системных процессов, организующих активность физиологических элементов в пределах всего организма для достижения тех или иных полезных результатов.

Если в сопоставляющей психофизиологии используется методика предъявления стимулов, то в системной психофизиологии используется методика «погружения в среду» («embodied and situated agent» [Brooks R. A., 1991a,b]) и свободное поведение. В первом случае экспериментатор задает ситуации, с которыми сталкивается испытуемый (агент), во втором случае испытуемый, находясь в некоторой среде и воспринимая ее, сам влияет на то, в каких ситуациях он окажется.

До сих пор, однако, не был в достаточной мере рассмотрен вопрос о месте двух упомянутых типов методик в научном исследовании, об ограничениях, которые они, возможно, накладывают на тип исследования и характер получаемых результатов [Brembs В. et al., 2004]. Между тем ответ на этот вопрос позволил бы продвинуться в разработке представлений о специфике и области применения методики предъявления стимулов в психологии и, в частности, в психофизиологии. «Генеральной линией развития психологии (и смежных с ней наук) является . более глубокая разработка специфически психологических методик исследования, основанных на философски фундированной методологии» - соглашаясь с C.JI. Рубинштейном, писал А.В.Брушлинский еще в 1979 [Брушлинский А.В., 1979]. Мы предполагаем сравнить методику предъявления стимулов и методику погружения в среду применительно к решению указанной выше психофизиологической проблемы.

Согласно представлениям И.П. Павлова, специфический предмет определенной науки не может существовать независимо от того метода, при помощи которого она изучает определенный круг явлений» [Шингаров Г.Х., 1982, с.11]. Организация экспериментальный среды во многом предопределяет характер получаемых данных. Например, в ситуации предъявления стимулов удобно трактовать изменения активности организма, связанные по времени со стимулом, как реакции. Теория рефлекса достигла определенных успехов в описании активности организма в этом случае. Напротив, при «погружении в среду», в свободном поведении, испытуемый сам влияет на то, какие ситуации складываются в среде и на их последовательность. В этом случае учет только лишь рефлекторных детерминант может оказаться недостаточным [Анохин П.К., 1973]. Поэтому актуальным представляется исследование взаимодействия рефлекторного агента со средой при использовании методики погружения в среду. «Рефлекторный акт - это прежде всего практическое взаимодействие между организмом и средой» [Шингаров Г.Х., 1982, с.31]. При этом «процесс взаимодействия есть обмен изменениями» [Корнилова Т.Н., Смирнов С.Д., 2007, с. 165], поэтому для исследования рефлекторного взаимодействия следует провести анализ зависимости внутренних переменных агента от влияния среды, и зависимости среды от влияния на нее агента. В качестве агента может рассматриваться как человек и животное, так и модель, реализующие поведение [Непомнящих В.А., 2003] (обзор содержания понятия «агент» см. в [Franklin S., Graesser F., 1996]). Поскольку вопрос о том, является ли живой агент (человек, животное) рефлекторным остается спорным [Анохин П.К., 1978; Швырков В.Б., 1978; Александров Ю.И., 2004;

Schall J.D., 2001], важно изучить именно модель рефлекторного агента в компьютерном эксперименте. Такой подход гарантирует, что агент будет адекватно описываться рефлекторной теорией (РТ).

Таким образом, заведомо известно, что наш «испытуемый» полностью описывается рефлекторной теорией, и является адекватным парадигме реактивности (нами используется устоявшийся в отечественной литературе термин Т. Куна «парадигма» (1975), его можно сопоставить с терминами исследовательская программа» И. Лакатоса (1995) и «метатеория»

А. В. Юревича (2001а)). Парадигма реактивности предполагает, что такой агент исчерпывающе изучается с помощью предъявления стимулов и не может продемонстрировать феномены, не изучаемые этой категорией методик. Эта гипотеза проверяется в настоящей работе путем ее фальсификации: покажем, что некоторые закономерности взаимодействия испытуемого со средой могут быть выявлены лишь погружением в среду, даже если он адекватно описывается рефлекторной теорией. Таким образом, альтернативная гипотеза состояла в том, что такой агент, построенный в соответствии с РТ, при его погружении в среду проявит также феномены не предусмотренные РТ. Целью исследования стал анализ динамики ситуаций, в которых оказывается агент, в зависимости от его собственных действий и опыта (фазы научения). В качестве тестовой среды использовалась модель фуражирования в открытом поле, положительно зарекомендовавшая себя в модельных психологических исследованиях [Baldassarre G., 2000, 2001;

KrylovA.K., 2004] и удовлетворяющая критериям, предъявляемым нами к тестовой поведенческой задаче минимально необходимой сложности, пригодной для межпарадигмального исследования [Крылов А.К., 2005]. По нашему мнению, полученные результаты могут дать более строгое, формальное описание различий между перечисленными выше теоретическими конструктами, связанными с этими экспериментальными методиками, а также установить область применения каждой из методик.

Поскольку модель позволяет проводить измерение всех интересующих исследователя переменных, работа с компьютерной моделью, в отличие от экспериментов с живыми агентами, позволит выявить закономерности актуальной задачи, т.е. как выглядит задача с точки зрения агента (испытуемого). Далее окажется возможным сопоставление тестовой задачи с точки зрения экспериментатора с актуальной задачей. Результаты модельного эксперимента следует проверить, сравнив их с результатами поведенческих и психофизиологических экспериментов. В частности, оценить выраженность известного в РТ феномена корреляции нейронной активности с поведенческими событиями, но в условиях свободного поведения животного - при погружении его в среду, аналогичную той, в которую будет погружаться модельный агент.

В исследованиях, проводимых на основе РТ, наиболее распространены методики классического и оперантного обусловливания. Методика классического (павловского) обусловливания, принадлежит к категории методик предъявления стимулов и с точки зрения РТ позволяет формировать у испытуемого классический условный рефлекс. Методика оперантного обусловливания, разработанная Скиннером, близка к идее погружения в среду и с точки зрения РТ позволяет формировать у испытуемого инструментальный условный рефлекс. Задача различения классического и оперантного обуславливания была поставлена давно: «Проблема взаимоотношений между классическим и инструментальным условными рефлексами, несмотря на очевидную простоту, является одним из наиболее запутанных вопросов, которые стоят перед поведенческими и нейрофизиологическими исследованиями» [Граштьян Е., 1973, с. 350]. Однако и сегодня эта задача остается актуальной [Brembs В. et al., 2004]. Поэтому исследование рефлекторного взаимодействия со средой является актуальным также и для теории рефлекса.

На основе парадигм активности (термин «парадигма активности» можно сопоставить с понятием «принцип активности» Н. А. Бернштейна

1966), С.Л.Рубинштейна (1946) и др.) и реактивности построены два различных подхода в психофизике. Парадигма реактивности является основой объектного подхода в психофизике, в то время как парадигма активности - основа субъектного подхода. Отмечается, что в настоящее время имеется тенденция перехода от объектной психофизики к субъектной

Скотникова И.Г., 2003; Гусев А.Н., 2004] с переходом к рассмотрению системной детерминации [Гусев А.Н., 2007]. Однако в обоих подходах чаще всего используют методики основанные на предъявлении стимулов в случайном порядке [Гусев А.Н., 2004]. Возможно, поэтому различия между парадигмами не столь отчетливы в психофизике: «реактивное и активное поведение - это не антиподы, а дополняющие друг друга формы приспособления к действительности, между которыми не всегда удается провести отчетливую границу» [Асмолов А.Г., 1985, с.18]. С парадигмой реактивности в психофизике связывают ограниченную, одномерную, однозначную сенсорную задачу, с которой работает хорошо тренированный испытуемый [Гусев А.Н., 2004], и типичную, относительно стационарную среду, типовую ситуацию [Асмолов А.Г., 1985]. В психологии восприятия ситуация несколько иная - используются парадигма активности и методика погружения в среду (например, для исследования движений глаз [Барабанщиков В.А., 2000; Velichkovsky В.М., 2002]).

В области искусственного интеллекта (ИИ), как отмечает Р. Брукс

Brooks R. A., 1991b], долгое время предполагалось, что робот должен лишь уметь оперировать абстрактными логическими схемами, символьными репрезентациями знаний. Входные данные предоставлялись экспериментатором, а программная система должна была обработать их и выдать что-то на выход. Подход называется «sense-model-plan-act» и заключается в последовательном преобразовании входной информации, предъявляемой экспериментатором, в выходную - от распознавания до принятия решения. На основе такого подхода появились программы, играющие в шахматы, однако не удалось создать ни одного реального робота. В 80-х гг. получил распространение иной подход, основанный на понятиях «телесность» {«embodiment») и «включенность в ситуацию» situatedness») [Brooks R. А., 199la,с]. Основой реально созданных роботов, в отличие от компьютерных программ, стали понятия «погруженность в среду» и «взаимодействие со средой» роботов, обладающих физическим «телом».

Параллельно с этим, как отмечает Р. Бир [BeerR.D., 1998, 2000], в развитии когнитивной науки поначалу превалировала «вычислительная гипотеза» о том, что когнитивные процессы заключаются в манипуляциях с псевдо-лингвистическими символьными репрезентациями по неким синтаксическим правилам. Вычислительная метафора, с нашей точки зрения, относится к парадигме реактивности (см. раздел 1.2). В 90-х гг. в когнитивной науке появилось новое направление - динамический подход, в котором рассматривается непрерывное взаимодействие нервной системы с телом, и тела, погруженного в среду, с внешней средой. Поведение образуется в ходе развертывания такого взаимодействия [Сергиенко Е.А., 2006; BeerR.D., 2000]. Этот подход, на наш взгляд, ближе к парадигме активности [Пономарев Я.А., 1999]. При этом допустимо погружение в модельную среду: экспериментатор задает зависимость модификации сенсорной ситуации от действий испытуемого или животного [BrembsB., Heisenberg М., 2000]. Например, используется компьютерный тренажер вождения автомобиля, в котором испытуемый совершает поездку по виртуальному городу [Velichkovsky В.М., 2002].

Таким образом, различия в двух рассматриваемых методиках так или иначе связаны с двумя разными парадигмами в психологии и нейронауке, двумя типами процедур обучения, двумя отличающимися один от другого подходами в психофизике, искусственном интеллекте и когнитивной науке. В настоящей работе проверялось предположение о возможности эмпирического выявления различий между категориями методик предъявления стимулов и погружения в среду. При этом использовался междисциплинарный подход [Журавлев A.JL, 2003] и учитывались роль математического моделирования в психологии и ограничения на его применение [Ломов Б.Ф., и др., 1976; Крылов В.Ю., 2000; Trope Y., 2004; Савченко Т.Н., 2005].

В настоящей работе рассматривается формирование поведения в процессе научения агента и его реализация. Формирование нового навыка при научении рассматривается как формирование новой системы - элемента индивидуального опыта. На нейрональном уровне научение выражается в модификации импульсной активности нейронов. Анализ импульсной активности нейронов в сопоставлении с поведенческими событиями позволяет обнаружить поведенческую специализацию нейронов и объединить системный уровень исследования с нейрональным для психофизиологического изучения структуры и динамики внутреннего мира [Швырков В.Б., 1995; Александров Ю.И. и др., 1997], которые отражаются в закономерностях научения и поведения агента.

Цель исследования:

Выявление особенностей рефлекторного взаимодействия агента, погруженного в среду, находящегося в условиях свободного поведения.

Объект исследования

Агент (компьютерная модель, животное) осуществляющий свободное пищедобывательное поведение в среде (модельной и реальной, соответственно).

Предмет исследования

Взаимодействие агента (компьютерная модель, животное) со средой.

Гипотеза исследования

Взаимодействие рефлекторного агента, находящегося в условиях свободного поведения, со средой подчиняется иным закономерностям, нежели в случае, когда стимульный паттерн задается экспериментатором.

Задачи исследования:

1. определить ядро исследовательской программы, на которой основана теория рефлекса, и на базе этого определения построить модель рефлекторного агента, отражающего сущность теории рефлекса;

2. сформулировать критерии к тестовой задаче пригодной для анализа результатов с помощью сопоставляющей и системной психофизиологии;

3. выявить структуру поведения рефлекторного агента при погружении его в среду тестовой задачи;

4. выявить динамику актуальной задачи при взаимодействии рефлекторного агента со средой;

5. выявить зависимость актуальной задачи от индивидуальных особенностей рефлекторного агента, работающего с ней;

6. определить степень корреляции нейрональной активности с поведенческими событиями в условиях погружения животного в среду аналогичной тестовой задачи.

Теоретико-методологические основы исследования

Теоретико-методологической основой исследования являются теория функциональных систем (П.К. Анохин), системно-эволюционный подход, системная психофизиология.

Методы исследования

Для эмпирического исследования была синтезирована тестовая поведенческая задача на основе сформулированных критериев, и модель рефлекторного агента, отражающая современные представления рефлекторной теории о работе головного мозга. В качестве экспериментальной методики использовалось погружение модели рефлекторного агента в среду тестовой задачи в условиях свободного поведения - задача фуражирования. Использовалась модель обучения парадигмы «обучение с подкреплением». В эксперименте на животных они погружались в среду инструментального пищедобывательного поведения.

Эмпирическая база исследования

В исследовании проанализирована активность нейронов разных поведенческих специализаций, зарегистрированная у 3-х животных; рассмотрено 14 категорий модельных агентов, 9 видов морфологий, всего 920 агентов. Разница морфологий заключалась в различиях структуры зрительных рецептивных полей и двигательных паттернов. Разница между категориями состояла в различии алгоритмов обучения и скорости движения у агентов с разной морфологией. Проведено 5 серий модельных экспериментов и 1 серия на животных.

Научная новизна работы.

Впервые проведено исследование связанное с задачей выявления межпарадигмальных различий в психофизиологии, и направленное на формализацию аналитических особенностей применяемых в психофизиологии методик. Оригинальным является выявление ядра исследовательской программы, на которой основана теория рефлекса. На этой основе построена модель рефлекторного агента, отражающая суть концепции реагирования. Разработан новый алгоритм модельного обучения и показаны его преимущества перед классическим.

Теоретическое значение.

Проведенная формализация концепции реагирования может способствовать более глубокому пониманию достоинств и недостатков рефлекторной теории. Показано, что вероятность активации нейронов в окрестности поведенческого события выше, чем вероятность возникновения события при возникновении нейронной активности. Следовательно, возникновение известного в РТ феномена - повышенной частоты спайковой активности нейрона в окрестности поведенческого события, может быть объяснено иначе, нежели реакция на стимул, ввиду того, что аналогичное явление получено в экспериментах в свободном поведении.

Практическая значимость.

Полученные результаты демонстрируют специфику экспериментальной методики погружения в среду и методики предъявления стимулов, и могут быть использованы при планировании психологических и, в частности, психофизиологических экспериментов; применяются в моделировании процесса научения; используются в курсе «Системная психофизиология» и программе преподавания по курсу «Психофизиология». Разработанный алгоритм обучения может применяться в практических приложениях в области искусственного интеллекта. Разработанный метод сопоставления нейронной активности с поведенческими событиями внедрен в программное обеспечение системы обработки психофизиологических данных - в программу NeuRu.

Положения, выносимые на защиту:

• При погружении в среду динамика задачи зависит от поведения агента: вероятность возникновения какой-либо ситуации зависит от предыдущей ситуации, от предыдущего действия и опыта рефлекторного агента; вариация сложности субзадач, с которыми сталкивается рефлекторный агент, порождается собственными действиями агента в среде - агент ненаправленно реструктурирует среду.

• В отличие от фиксированной актуальной задачи в методике предъявления стимулов, рефлекторный агент своим взаимодействием со средой в свободном поведении влияет на актуальную задачу, которая поэтому оказывается различной для одного и того же агента на разных стадиях обучения и для разных агентов, работающих с ней.

• Ядро исследовательской программы, на которой основана теория рефлекса, можно выразить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал. Это утверждение представимо следующей формулой: действие^ + т) = f( внешний сигнал^)), где временная задержка т > 0, t - время, f - функциональная зависимость.

Заключение диссертации научная статья по теме "Психофизиология"

1. Ядро исследовательской программы, на которой основана теория рефлекса, можно выразить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал. Иными словами, между воспринимаемым внешним сигналом и последующим поведением имеется функциональная зависимость.

2. Тестовая задача фуражирования удовлетворяет предъявленным критериям к тестовой задаче: задача решается последовательностью действий; в каждый момент времени агент имеет возможность выбора действия; выбранное действие влияет на последующую ситуацию, однако последствия действий неопределенны.

3. На уровне поведения рефлексы в данной задаче обеспечивают успешное пищедобывательное поведение, однако последствия рефлексов в «обучении с подкреплением» оказываются неоднозначны. Показано наличие зависимости вероятности возникновения какой-либо ситуации от предыдущей ситуации, от предыдущего действия и опыта испытуемого (в терминологии теории рефлекса - зависимость вероятности предъявления данного стимула от типа предыдущего стимула, реакции на него испытуемого и его опыта).

4. Закономерности актуальной задачи различны для одного и того же агента на разных стадиях обучения, и могут быть выявлены только в эксперименте.

5. Одна и та же с точки зрения экспериментатора тестовая задача может оказываться различной для разных агентов, работающих с ней.

6. Условная вероятность активации нейронов при условии появления поведенческого события выше, чем условная вероятность возникновения события при условии возникновения нейронной активности. Выявленная закономерность позволяет объяснить, почему известный в РТ феномен повышенной частоты спайковой активности нейрона в окрестности поведенческого события может проявляться вне связи с предъявлением стимулов.

Использованные сокращения

РТ - рефлекторная теория

ТФС - теория функциональных систем

RL - обучение с подкреплением ("reinforcement learning")

ЗАКЛЮЧЕНИЕ

Проведенный нами анализа концепции реагирования приводит к выводу, что формулировки данные Декартом составляют «ядро исследовательской программы» (термин И. Лакатоса) основанной на методологическом принципе реактивности, и что на современном языке их можно выразить следующим образом: индивид в своем действии и состоянии объективно отражает предшествующий внешний сигнал. Применение концепции «рефлекс» к какому-либо явлению означает, что его причины ищутся в прошлом и вовне данного явления, т.е. что оно порождается, вызывается, другим внешним явлением, имевшим место в прошлом.

Обосновано, что тестовая поведенческая задача, пригодная для парадигмальных исследований в психофизиологии, должна обладать следующими свойствами:

1. испытуемому предоставляется не менее двух альтернатив при выборе действия, позволяющих ему выстраивать индивидуальную траекторию прохождения тестового поля;

2. имеются хотя бы две мотивации или рассматриваются два уровня одной мотивации;

3. ситуация в среде зависит от совершенных субъектом актов, в т.ч. воспринимаемая агентом ситуация определяется не экспериментатором, а результатами действий испытуемого и закономерностями его взаимодействия со средой;

4. действия требуют контроля правильности своего исполнения;

5. задача решается последовательностью действий, и результаты промежуточных действий не представлены непосредственно в среде. Такие требования не соответствуют методике предъявления стимулов, но соответствуют методике погружения в среду.

Тестовая задача фуражирования удовлетворяет предъявленным критериям к тестовой задаче: задача решается последовательностью действий; в каждый момент времени агент имеет возможность выбора действия; выбранное действие влияет на последующую ситуацию, однако последствия действий неопределенны.

Оказалось, что формальное описание задачи, выражаемое оценкой успешности действий, зависит от параметров морфологии агента и величины поискового шага. При этом, однако, сохраняются следующие инварианты: вероятность успеха правильного действия выше вероятности успеха неправильного действия, и различия достоверны к концу обучения; вероятность неуспеха правильного действия ниже вероятности неуспеха неправильного действия, и различия достоверны уже в начале обучения.

Агент, наиболее эффективно решающий данную тестовую задачу, вероятно, должен обучаться на основе оценки соотношения вероятностей достижения успеха каждым действием. В данной тестовой задаче и данном алгоритме обучения, марковская статистика переходов из одного состояния в другое достоверна уже на ранних фазах обучения, что делает возможным самообучение агента, основанное на оценке такой статистики. Был построен алгоритм обучения SDD, который подтвердил такую возможность. Эксперимент показал, что этот алгоритм обеспечивается более быстрое обучение, чем классический алгоритм Actor/Critic обучения с подкреплением.

Показано, что рефлекторный агент способен решать тестовую задачу в условиях неопределенности: неопределенность эффекта (последствия) совершаемого действия; вариативность сложности субзадач; нечеткость количественных различий в оценке последствий условно «правильного» от условно «неправильного» действий; неточность восприятия ситуации (неточность сенсорного аппарата). Кривая научения имеет S-образный или U-образный вид, что соответствует биологическим данным. За счет изменения части рефлексов и величины поискового шага могут меняться закономерности актуальной задачи, что отчасти компенсирует неспособность рефлекторного агента учитывать предысторию текущей ситуации.

В модельных экспериментах нами показано, что рефлекторная модель за счет ее погружения в среду («embodied and situated agent») оказывается способной демонстрировать ряд феноменов обычно относимых к прерогативе живых организмов: мотивационное поведение; превентивное поведение; поведение направленное на получение подкрепления; при принятии решения использует обстановочную афферентацию, мотивацию, пусковой сигнал; действие не однозначно детерминируется текущим внешним сигналом; за счет взаимодействия со средой реструктурирует ее.

А значит, эти феномены могут являться не следствием системной природы агента, но возникать вследствие имитации реальной биологической ситуации - погружения в среду.

Показано, что тестовая задача с точки зрения экспериментатора и с точки зрения агента могут оказываться различны. Актуальная задача (т.е. задача, с которой сталкивается агент) определяется взаимодействием агента с тестовой задачей, проявляется при погружении агента в среду, и зависит от свойств агента: морфологии, алгоритма обучения, алгоритма принятия решения, структуры памяти, опыта, величины поискового шага процедуры поиска решения.

В рамках парадигмы реактивности, при погружении тестируемых рефлекторных агентов в среду, обнаруживаются феномены, свидетельствующие, с нашей точки зрения, против экспериментальной методологии парадигмы реактивности:

• одна и та же с точки зрения экспериментатора тестовая задача может оказываться различной для разных агентов, работающих с ней;

• закономерности задачи оказываются различными для одного и того же агента на разных стадиях обучения;

• погружение агента в тестовую среду позволяет обнаружить дисперсию сложности тестовой субзадачи, порождаемую собственными действиями агента в среде, которая не могла бы быть выявлена при последовательном предъявлении стандартизированных субзадач;

• имеет значение последовательность ситуаций, с которыми сталкивается агент, что исключается при предъявлении стимулов в случайном порядке;

• агент способен (до некоторой степени) определять в каких ситуациях он окажется в дальнейшем, что исключается при предъявлении стимула по выбору экспериментатора;

• агент способен (до некоторой степени) влиять на вероятность возникновения ситуаций в среде, что исключается при фиксированной экспериментатором вероятность предъявления стимула.

Таким образом, закономерности задачи, с которыми сталкивается агент, могут быть выявлены лишь в процессе эксперимента, и не могут быть заданы экспериментатором заранее.

Погружение агента в среду, в отличие от методики предъявления стимулов, приводит к непредсказуемой заранее модификации распределения вероятностей ситуаций, в которых оказывается агент, которое обнаруживается лишь в процессе эксперимента. Это распределение зависит от поведения агента. Погружение агента в среду также порождает дисперсию сложности субзадач, с которыми сталкивается агент, и реструктуризацию среды, что может снижать эффективность агента, ограничивая его в проявлении им высокой компетентности в данной задаче (превентивного поведения).

Условная вероятность активации нейронов при условии появления поведенческого события выше, чем условная вероятность возникновения события при условии возникновения нейронной активности. Выявленная закономерность позволяет объяснить известный в РТ феномен повышенной частоты спайковой активности нейрона в окрестности поведенческого события иначе, нежели реакция на стимул, поскольку аналогичное явление получено в экспериментах при отсутствии внешней стимуляции, задаваемой экспериментатором - при свободном поведении.

Показано, что парадигма реактивности, применительно к психофизиологии, характеризуется следующими представлениями: информации представленной в текущем сенсорном сигнале достаточно для принятия решения и успешного действия; реакция может быть вариативной только в процессе обучения; испытуемый отрывается от реальности качественно (замещение взаимодействия с предметной средой информацией о среде, или искусственной средой) и количественно (обрывочное восприятие); испытуемый неспособен влиять на рассматриваемые ситуации; адекватной методикой экспериментального исследования считается предъявление стимулов.

Показано, что парадигма активности, применительно к психофизиологии, характеризуется следующими представлениями: признается внутренняя детерминация действий; вариативность отражения необходимо присутствует в процессе развертывания ранее сформированного поведенческого акта и может быть обусловлена внутренними детерминантами; сохраняется контакт с реальностью (свободное поведение, телесное взаимодействие с предметами) - взаимодействие со средой не прерывается; индивид рассматривается, как способный модифицировать среду, менять свое соотношение со средой; адекватной методикой экспериментального исследования считается погружение в среду.

Список литературы диссертации автор научной работы: кандидат психологических наук , Крылов, Андрей Константинович, Москва

1. Александров И.О. Формирование структуры индивидуального знания. М.: Изд-во «ИП РАН», 2006.

2. Александров Ю.И. Психофизиологическое значение активности центральных и периферических нейронов в поведении. М.: Наука, 1989.

3. Александров Ю.И. Теория функциональных систем и системная психофизиология // Системные аспекты психической деятельности. Под ред. К.В. Судакова. М.: Эдиториал УРСС. 1999. С.96-152.

4. Александров Ю.И. Предисловие к «Швырков В.Б. Введение в объективную психологию», 1995.

5. Александров Ю.И. Введение в системную психофизиологию // Психология XXI века. Под. ред. Дружинина В.Н. М.: Пер Се, 2004. С. 39-85.

6. Александров Ю.И. Научение и память: традиционный и системный подходы. // Журнал высш. нервн. деят. 2005. Т.55. N 6. С 842-860.

7. Александров Ю.И., Александрова H.JI. Субъективный опыт и культура. Структура и динамика//Психология. 2007. Т.4. №1. С.3-46.

8. Александров Ю.И., Гринченко Ю.В., Хвастунов P.M. Иерархическая организация поведения // Успехи физиол. наук. 1980. Т. 11. №4. С. 115-144.

9. Александров Ю.И., Крылов А.К. Системная методология в психофизиологии: от нейронов до сознания // Идея системности в современной психологии. Под ред. В.А. Барабанщикова. М.-.ИПРАН, 2005. С.119-157.

10. Александров Ю.И., Шевченко Д.Г., Горкин А.Г., Гринченко Ю.В. Динамика системной организации поведения в его последовательных реализациях // Психологический журнал. 1999. Т. 20, № 2, С. 82 89.

11. Алексеев П.В., Панин А.В. Философия. М.: Проспект, 1996.

12. Анохин П.К. Проблемы моделирования жизненных процессов и физиология мозга // О сущности жизни. М.: Наука, 1964.

13. Анохин П.К. Системный анализ условного рефлекса // Журн. высш. нерв. деят. 1973. Т.23. №2. С.229.

14. Анохин П.К. Философские аспекты теории функциональной системы. М.: Наука, 1978.

15. Анохин П.К. Из тетрадей П. К. Анохина // Психологический журнал. 1980. Т. 1, №4. С. 185-188.

16. Асмолов А.Г. Принципы организации памяти человека. М.: Изд-во Моск. ун-та, 1985.

17. Батуев А.С. Высшая нервная деятельность. М.: Высш.шк., 1991.

18. Безденежных Б.Н. Динамика взаимодействия функциональных систем в структуре деятельности. М.: Изд-во «Институт Психологии РАН», 2004.

19. Беритов И.С. Об основных формах нервной и психонервной деятельности. Л.: Изд. АН СССР, 1947.

20. Бернштейн Н.А. Очерки по физиологии движений и физиологии активности. М.: Медицина, 1966.

21. Бехтерев В.М. Объективная психология. М. Наука, 1991.

22. Бехтерева Н.П., Медведев С.В. Полиметодические нейрофизиологические исследования когнитивных процессов человека. // Выступление на 1-й российскойконференции по когнитивной науке. Казань, 2004.

23. Бобровников JI.B. Молекулярно-биологические и физиологические основы нейросинергизма. Москва, 2005.

24. Богомолов A.M., Твердохлебов В.А. Математические принципы, модели и методы технического диагностирования // Методы кибернетики и информационные технологии. Саратов: Изд. Сарат. Ун-та. 1994. Вып.1. С.3-21.

25. Богоявленская Д.Б. Принцип детерминизма в психологии // Проблема субъекта в психологической науке. М.:Изд-во «Академический проект», 2000.

26. Брушлинский А.В. Мышление и прогнозирование. М.: Мысль, 1979.

27. Брушлинский А.В. Принцип детерминизма в трудах С.Л.Рубинштейна // Вопросы психологии. 1989. №4. С.66-73.

28. Брушлинский А.В. Проблемы психологии субъекта. М.: ИП РАН, 1994.

29. Брушлинский А.В. Субъект: мышление, учение, воображение. М. Издательство «Институт практической псхологии»; Воронеж: НПО «Модэк», 1996.

30. Бурцев М.С., Гусарев Р.В., Редько В.Г. Модель эволюционного возникновения целенаправленного адаптивного поведения 1. Случай двух потребностей // Препринт ИПМ РАН№43.М. 2000.

31. Василюк Ф.Е. Методологический анализ в психологии. М.: МГППУ; Смысл, 2003.

32. Величковский Б.М. Когнитивная наука вчера, сегодня, завтра. // Материалы 1 -й российской конференции по когнитивной науке. Казань: КГУ. 2004. С.52.

33. Виноградова О.С. Нейронаука конца второго тысячелетия: смена парадигм. // Журн. высш. нерв. деят. 2000. Т.50. №5. С.743-774.

34. Витяев Е.Е., Формальная модель работы мозга, основанная на принципе предсказания // Модели когнитивных процессов. Выч. Системы, Т. 164. Новосибирск. 1998. С.3-61.

35. Витяев Е.Е, Объяснение теории движений Н.А.Бернштейна. // VII Всероссийская научно-техническая конференция «Нейроинформатика-2005». Сборник научных трудов в 2-х частях. 4.1. М.: МИФИ, 2005. С.234-240.

36. Выготский Л.С. Сознание как проблема психологии поведения // В сб.: Психология и марксизм. Л., 1925.

37. Гибсон Дж. Экологический подход к зрительному восприятию. М.: Прогресс, 1988.

38. Голицын Г.А. Информация и творчество. М.: «Русский мир», 1997.

39. Головина Г.М., Савченко Т.Н. Синергетический подход к моделированию деятельности II Синергетический подход к моделированию психологических систем. Под ред. Т.Н. Савченко. М.: Изд. ИП РАН, 1998.

40. Горкин А.Г., Шевченко Д.Г. Отражение структуры памяти в активности системоспецифичных нейронов // Психологический журнал. 1991. Т. 12. №2. С.60-69.

41. Горкин А.Г., Шевченко Д.Г. Отражение истории обучения в активности нейронов лимбической коры кроликов //Журн. высш. нерв. деят. 1993. Т.43. №1. С. 172-175.

42. Граштьян Е. Попытка разрешения временного парадокса при выработке условного рефлекса // Механизмы формирования и торможения условных рефлексов. М.: Наука, 1973. С. 332-352.

43. Гусев А.Н. Психофизика сенсорных задач: Системно-деятельностный анализ поведения человека в ситуации неопределенности. М.: Изд-во Моск. ун-та: УМК «Психология», 2004.

44. Гусев А.Н. К психофизике сенсорных задач: о возможностях системно-деятельностного подхода // Психофизика сегодня. М.: Изд. ИП РАН, 2007.

45. Демин А.В., Витяев Е.Е. Реализация модели анимата на основе семантического вероятностного вывода // VIII Всероссийская научно-техническая конференция «Нейроинформатика-2006». Сборник научных трудов в 3-х частях. 4.2. М.: МИФИ. 2005. С. 16-24.

46. Ершов Ю.Л., Самохвалов К.Ф. О новом подходе к философии математики // Структурный анализ символьных последовательностей. Новосибирск, 1984. Вып. 101: Вычислительные системы. С. 141-148.

47. Журавлев A.JI. Особенности междисциплинарных исследований в психологической науке. // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С. 7-20.

48. Зинченко В.П., Моргунов Е.Б. Человек развивающийся. Очерки российской психологии. М.: Тривола, 1994.

49. Иоффе М.Е. Инструментальный условный рефлекс как основа адапативного поведения // Доминанта и условный рефлекс. М.:Наука, 1987.

50. Карпович В.Н. Резников В.М. Некоторые аспекты формализации причинных связей // Философия науки. 1996. № 1(2). С. 68-79.

51. Кибрик А.Е. Лингвистическая реконструкция когнитивной структуры // Материалы 1-й российской конференции по когнитивной науке. Казань: КГУ. 2004. С. 110-111.

52. Коган А.Ф. Диагностика целеполагания в педагогике: общие требования к построению компьютерных тестов целеполагания. // Практическая психология и социальная работа. Киев. 2000. №2. С.22-26.

53. Конорски Ю. Интегративная деятельность мозга. М.: Мир, 1970.

54. Кругликов Р.И. Детерминизм, активность, рефлекс. // Методологические проблемы физиологии высшей нервной деятельности. М.: Наука. 1982. С.47-85.

55. Кругликов Р.И. Принцип детерминизма и деятельность мозга. М.: Наука, 1988.

56. Кружков О.А., Метод ускорения обучения нейронной сети большому количеству примеров при помощи периодического выбора «отстающего» примера. // Труды V Всероссийской научно-технической конференции «Нейроинформатика-2003». М.: МИФИ. 2004. С.55-62.

57. Крылов А.К. Оценка применимости рефлекторной модели нейронной сети к поведенческой задаче. // Труды VI Всероссийской научно-технической конференции «Нейроинформатика-2004». М.: МИФИ. 2004. 4.2. С. 108-116.

58. Крылов А.К. Тестовая поведенческая задача минимально необходимой сложности: скрытая динамика // Труды международной научно-технической конференции «Интеллектуальные системы» (AIS'05). М.:Физматлит. 2005. T.l. С.237-244.

59. Крылов А.К. SDD алгоритм обучения в парадигме reinforcement learning, основанный на обнаружении значимости эффектов действий // Труды VIII всероссийской научно-технической конференции «Нейроинформатика-2006». В 3-х частях. 4.2. М.: МИФИ. 2006. С.38-45.

60. Крылов А.К., Александров Ю.И. Парадигма активности: от методологии эксперимента к системному описанию сознания и культуры. 2007. (в печати)

61. Крылов В.Ю. Методологические и теоретические проблемы математической психологии. М.: Янус-К, 2000.

62. Кун Т. Структура научных революций. М.:Прогресс, 1975.

63. Лакатос И. Фальсификация и методология научно-исследовательских программ. М.: «Медиум», 1995.

64. Леонтьев А.Н. Деятельность. Сознание. Личность. М.: Политиздат, 1975.

65. Лешли К.С. Мозг и интеллект. М.-Л.: Соцэкгиз, 1933.

66. Ломов Б.Ф. Системность в психологии. М.-Воронеж, 1996.

67. Ломов Б.Ф., Николаев В.И., Рубахин В.Ф. Некоторые вопросы применения математики в психологии // Психология и математика. М.: Наука, 1976.

68. Лорьер Ж.-Л. Системы искусственного интеллекта. М.: Мир, 1991.

69. Лурия А.Р. Основы нейропсихологии. М.: Изд. Моск. ун-та, 1973.

70. Лурия. А.Р. О месте психологии в ряду социальных и биологических наук // Вопросы философии. 1977. № 9. С.68-76.

71. Менделевич В.Д. Прогностические способности человека и риск развития психической патологии. // Материалы 1-й российской конференции по когнитивнойнауке. Казань: КГУ. 2004. С. 159-160.

72. Менегетти А. Психосоматика. / пер. с итал. М.:ННБФ «Онтопсихологая», 2004.

73. Меницкий Д.Н. Некоторые методологические вопросы условнорефлекторной теории // Методологические вопросы теоретической медицины. JL, 1975. С.70-86.

74. Мержанова Г.Х., Смирнитская И.А., Фролов А.А. Модель отсроченного ответа на основе теории обучения по подкреплению Сатона и Барто // Материалы 14-й международной конференции по нейрокибернетике. Ростов-на-Дону: ООО «ЦВВР», 2005. Т.2. С.24-7.

75. Мосалов О.П., Редько В.Г., Непомнящих В.А. Модель поискового поведения анимата // Препринт №19, М.: ИПМ РАН, 2003.

76. Непомнящих В.А., Гремячих В.А., Подгорный К.А. Цикличность и оптимизация поведения животных // Успехи современной биологии, 1995, т.115, №4.

77. Непомнящих В.А. Фрактальная структура поведения золотых рыбок Carassius auratus L. (Cyprinidae: Pisces) / Ж. Общей биологии. 1998. Т.59. №5. С.513-530.

78. Непомнящих В.А. Аниматы как модель поведения животных // Сборник материалов «Нейроинформатика-2002»: Проблемы интеллектуального управления -общесистемные, эволюционные и нейросетевые аспекты. М.: МИФИ. 2003. С.58-76.

79. Никольская К.А., Хоничева Н.М. Особенности обучения крыс в условиях свободного выбора // Журн. высш. нерв. деят. 1999. Т. 49, №3, С.436-445.

80. Павлов И.П. Избранные произведения. М.: Изд. АНСССР, 1949.

81. Павлов И.П. «Павловские среды», Т.2, М.: Изд. АН СССР, 1949.

82. Павлов И.П. Внешняя работа пищеварительных желез и ее механизмы / Полн. собр. соч.: в 6-ти. Т. 2. кн.2. М.; Л., 1951.

83. Павлов И.П. Мозг и психика. Избранные психологические труды. М.-Воронеж, 1996.

84. Пиковский Д.Л. Элементы телеологии в теоретической медицине и практической хирургии. Н.Новгород: Изд-во Нижегородской гос. мед. академии, 2000.

85. Покрасс М.Л. Терапия поведением. Самара: Изд. дом «Бахрах», 1997.

86. Пономарев Я. А. Психология творения. М.: Московский психолого-социальный институт; Воронеж: Изд-во НПО «МОДЭК», 1999.

87. Прист С. Теории сознания. М.: Идея-Пресс, 2000.

88. Раевский В.В. Потребности в раннем онтогенезе // Тенденции развития современнойпсихологической науки. Тезисы юбилейной научной конференции. М.: Изд-во ИП РАН. 2007. С.191-193.

89. Растригин JI.A. Адаптация сложных систем. Методы и приложения. Рига: Зинатне, 1981.

90. Роуз С. Устройство памяти от молекул к сознанию. М.: Мир, 1995.

91. Рубинштейн C.JI. Основы общей психологии, 1946.

92. Рубинштейн C.JI. Основы общей психологии. Т.2. М.: Педагогика, 1989.

93. Савченко Т.Н. Развитие математической психологии: история и перспективы // Психологический журнал. 2002. Т.23. № 5. С.32-41.

94. Савченко Т.Н. Методы моделирования динамики индивидуальной и групповой деятельности. // Методы исследования психологических структур и их динамики. Вып. 3. / Под ред. Савченко Т.Н., Головиной Г.М. М.: Изд. ИП РАН. 2005. С.5-20.

95. Савченко Т.Н., Иванова JI.B. Моделирование функциональной структуры личности в ситуации принятия решений // Тенденции развития современной психологической науки. Тезисы юбилейной научной конференции. М.: Изд-во ИП РАН. 2007. С.286-288.

96. Салтыков А.Б., Толокнов А.В., Хитров Н.К. Поведение и неопределенность среды. М.: Медицина, 1996.

97. Сергиенко Е.А. Антиципация в раннем онтогенезе человека. М.: Наука, 1992.

98. Сергиенко Е.А. Раннее когнитивное развитие: новый взгляд. М.: Изд-во «Институт психологии РАН», 2006.

99. Сеченов И.М. Избранные философские и психологические произведения. Госполитиздат, 1947.

100. Сидоренко Е.В. Методы математической обработки в психологии. СПб.: ООО «Речь», 2001.

101. Скотникова И.Г. Современное состояние субъектной психофизики. // Материалы конференции «Психология: Современные направления междисциплинарных исследований». М.: Изд-во «Институт психологии РАН», 2003. С.433-442.

102. Соколов Е.Н., Вайткявичюс Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. М.: Наука, 1989.

103. Спенсер Г. Основания психологии. СПб. Изд. Сытина, 1897.

104. Судаков К.В. Рефлекс и функциональная система. Новгород: НовГУ, 1997.

105. Уйбо А.А. Учение И.П. Павлова естественно-научная основа материалистической психологии // Философские вопросы учения о высшей нервной деятельности / Под ред. Б.М. Теплова. Москва. 1954. С.82-147.

106. Фролов А.А., МержановаГ.Х., Смирнитская И.А. Моделирование импульсивного и самоконтрольного поведения на основе теории обучения по подкреплению // Нейрокомпьютеры: разработка, применение. 2006. №4-5. С. 49-58.

107. Черноризов A.M., Соколов Е.Н. Электроретинограмма темноадаптированного интактного карпа Carpio cyprinus L. на замену цветов // Журн. высш. нерв. деят. 1995. Т.45.№ 1.С. 155-162.

108. Черноризов A.M. Цветовое зрение рыбы как модель цветового зрения человека // Вестник МГУ. Сер. 14, "Психология". 1995. № 4. С.35-45.

109. Черноризов A.M. Нейронные механизмы цветового зрения. Автореф. дисс. д-ра психол. наук. М., 1999.

110. Черноризов A.M. Двумерный векторный код в хроматическом зрении беспозвоночных. // Тенденции развития современной психологической науки. Тезисы юбилейной научной конференции. М.: Изд-во ИП РАН. 2007. С.350-352.

111. Шадриков В.Д. Проблемы системогенеза профессиональной деятельности. М.: Наука, 1982.

112. Швырков В.Б. Нейрофизиологическое изучение системных механизмов поведения. М.: Наука, 1978.

113. Швырков В.Б. Системные механизмы «целевой» детерминации поведения // Психологический журнал. 1980. Т.1. №2. С.133-137.

114. Швырков В.Б. Введение в объективную психофизиологию. Нейрональные основы психики / Предисловие и ред. Ю.И.Александров. М.: ИПРАН, 1995.

115. Швыркова Н.А., Швырков В.Б. Активность нейронов зрительной коры при пищевом и оборонительном поведении // Нейрофизиология. 1975. Т.7. №1. С. 100.

116. Шевченко Д.Г. Исследование нейронов ретикулярной формации принятия решения // Проблемы принятия решения. М.: Наука, 1976.

117. Шендяпин В.М. Адаптивная модель памяти // Методы исследования психологических структур и их динамики / Под ред. Савченко Т.Н., Головиной Г.М. М.:ИП РАН, 1999. С.75-96.

118. Шендяпин В.М. Сенсорное различение: математическое моделирование // Психофизика сегодня. М.: Изд. ИП РАН, 2007. С. 123-135.

119. Шеррингтон Ч. Интегративная деятельность нервной системы. JL: Наука, 1969.

120. Юревич А.В. Методологический либерализм в психологии // Вопросы психологии. 2001а. №5. С.3-18.

121. Юревич А.В. Социальная психология науки. СПб.: Изд-во РХГИ, 20016.

122. Ярошевский М.Г. Наука о поведении: русский путь. Избранные психологическиетруды. М.:Воронеж, 1996.

123. Alexandrov Yu.I. Neuronal specializations, emotion and consciousness within culture. // Toward a science of consciousness, Tucson 2002. Research Abstracts, Arizona: University of Arizona. 2002. P. 157-158.

124. Alexandrov Yu.I., Grinchenko Yu.V., Laukka S., Jarvilehto Т., Maz V.N. Acute effects of alcohol on unit activity in the motor cortex of freely moving rabbits: comparison with the limbic cortex // Acta Physiol. Scand. 1991. V.142. P. 429-435.

125. Alexandrov Yu.I., Grinchenko Yu.V., Laukka S., Jarvilehto Т., Maz V.N., Korpusova A.V. Effect of ethanol on hippocampal neurons depends on their behavioral specialization // Acta Physiol. Scand. 1993. V.149. P. 105-115.

126. Alexandrov Yu.I., Sams M.E. Emotion and consciousness: Ends of a continuum // Cognitive Brain Research. 2005. V.25. P. 387-405.

127. Araujo E.G., Grupen R.A. Learning control composition in a complex environment. // In From Animals to Animats 4: Proceedings of the Fourth International Conference on Simulation of Adaptive Behavior. Cambridge, MA.: MIT Press. 1996.

128. Averkin R.G., Grinchenko Yu.V., Sozinov A.A., Kuzina E.A., Alexandrov Yu.I. // FENS Forum Abstr. 2002. A040.1, V.l. P. 105.

129. Baldassarre G. Cultural evolution of "guiding criteria" and behavior in a population ofneural-networks agents. Journal of memetics Evolutionary models of Information Transmission. 2001. V.4.

130. Baldassarre G. A modular neural-network model of the basal ganglia's role in learning and selecting motor behaviours. Journal of Cognitive Systems Research. 2002. V. 3. P. 5-13.

131. Balkenius C., Moren J. Computational models of classical conditioning: a comparative study// In From animals to animats 5. Cambridge, MA: MIT Press. 1998.

132. Barandiaran X. Adaptive behaviour, autonomy and value systems. Master's thesis, COGS, University of Sussex, Brighton, UK. 2002.

133. Barto A., Fagg A., Sitkoff N., Houk J. A cerebellar model of timing and prediction in the control of reaching//Neural Computation. 1999. V.l 1. P. 565-594.

134. Becker S., Hinton G.E. A self-organizing neural network that discovers surfaces in random-dot stereograms // Nature. 1992. V. 355. P. 161-163.

135. Bedau M.A. Can unrealistic computer models illuminate theoretical biology? // In proceedings of the Genetic and evolutionary computation conference. 1999. P.20-23.

136. Beer R.D. Framing the debate between computational and dynamical approaches to cognitive science (commentary on "The dynamical hypothesis in cognitive science" by Tim van Gelder) // Behavioral and Brain Sciences. 1998. V. 21(5). P. 630.

137. Beer R.D. Dynamical approaches to cognitive science // Trends in Cognitive Sciences. 2000. V. 4(3). P. 91-99.

138. Brembs В., Baxter D.A., Byrne J.H. Extending in vitro conditioning in Aplysia to analyze operant and classical processes in the same preparation // Learning&Memory. 2004. V. 11. №4. P. 412-420.

139. Brembs В., Heisenberg M. The Operant and the Classical in Conditioned Orientation of Drosophila melanogaster at the Flight Simulator. // Learning&Memory. 2000. V. 7. N. 2. P. 104-115.

140. Brembs В., Maye A., Greggers U. Order in spontaneous behavior // Soc. Neurosci. Abstr.2005. 754.2.

141. Brembs В., Hsieh C., Sugihara G., Maye A. Do fruit flies have free will? // FENS Abstr.2006. V.3. A233.7.

142. Brooks R. A. Elephants Don't Play Chess // Robotics and Autonomous Systems. V.6.1990.

143. Brooks R. A. Intelligence without reason. // In Proceedings of the International Joint Conference on Artificial Intelligence. 1991. P. 569-595.

144. Brooks R.A. Intelligence without representation // Artificial Intelligence. 1991. V. 47. P. 139-159.

145. Brooks R.A. New approaches to robotics // Science. 1991. V. 253. P. 1227-1232.

146. Chalmers D.J. The puzzle of conscious experience // Scientific Amer. 1995. V. 273. P. 62.

147. Churchland P.S. Neurophilosophy. Toward a unified science of the mind-brain. London. A Bradford Book. 1986.

148. Coelho J.A., Araujo E.G., Huber M., Grupen R.A., Contextual Control Policy Selection // Workshop on Robot Exploration and Learning (Conald'98). Pittsburgh, PA. 1998.

149. Colombetti M., Dorigo M. Training agents to perform sequential behavior. Adaptive behavior. MIT Press. 1994. V.2(3). P.247-275.

150. Dewey J. The early works, 1882 1898. London: Southern Illinois Univ. Press, 1969.

151. Doya K. What are the computations of the cerebellum, the basal ganglia, and the cerebral cortex // Neural Networks. 1999. V.12. P. 961-974.

152. Durfee E.H., Lesser V. R. Predictability versus responsiveness: coordinating problem solvers in dynamic domains. // Proceedings of the Seventh National Conference on Artificial Intelligence. 1988. P. 66-71.

153. Freeman W.J. Three centuries of category errors in studies of the neural basis of consciousness and intentionality // Neural Networks. 1997. V. 10. P. 1175-1183.

154. Gavin W.J., Blakely T.J. Russia and America: A Philosophical Comparison. Boston, 1976. (Цит. по Юревич A.B. Социальная психология науки. СПб.: Изд-во РХГИ, 2001, С.304.).

155. Gold I., Daniel S. A neuron doctrine in the philosophy and neuroscience. BBS, 22 (5), 1999.

156. Harvey I. Untimed and misrepresented: connectionism and the computer metaphor // University of Sussex Cognitive Science Research Paper. 1992. N245.

157. Heisenberg M., Wolf R., Brembs B. Flexibility in a Single Behavioral Variable of Drosophila. // Learning&Memory. 2001. V.8. N1. P. 1 10.

158. Houk C. J., Davis L. J., Beiser G. D. (Eds.). Models of Information Processing in the Basal Ganglia. Cambridge, Mass.: The MIT Press, 1995.

159. Iocchi L., Nardi D., Salerno M. Reactivity and Deliberation: A Survey on Multi-Robot Systems // In Balancing reactivity and social deliberation in multi-agent systems (LNAI 2103) M. Hannebauer, J. Wendler, E. Pagello Eds. Springer. 2001.

160. Jain S., Stephan F. Some recent results in U-shaped learning // Technical Report TR41/05, School of Computing, National University of Singapore. 2005.

161. John E.R. Switchboard versus statistical theories of learning and memory // Science. 1972. V.177. N4052. p.850.

162. Krylov A.K. The smartest agent is not optimal in a motivationally driven actor/critic model // Proceedings of the International Scientific Conferences "Intelligent Systems (IEEE

163. AIS'04) and Intelligent CAD's (CAD-2004)". 2004. P. 21-26.

164. Krylov A. Trends in modeling a neuron: from reactivity of a calculator to activity of a living cell // Материалы 14-й Международной конференции по нейрокибернетике. Ростов-на-Дону: ООО «ЦВВР». 2005. Т.2. С.227-230.

165. Lewontin R., Levins R. Dialectics and reductionism in ecology // Synthese. 1980. V.43. P. 47-78.

166. Lombrozo Т., Carey S. Functional explanation and the function of explanation // Cognition. 2005.Jun 4. P.l-38.

167. Mahadevan S. Machine learning for robots: a comparison of different paradigms. // International Conference on Intelligent Robots and Systems (IROS-96), Osaka, Japan. 1996.

168. Mataric M.J., Cliff D. Challenges In Evolving Controllers for Physical Robots" / "Evolutional Robotics", special issue of Robotics and Autonomous Systems. 1996. V.19(l). P.67-83.

169. Mirus C.V. Aristotle's teleology and modern mechanics. Ph.D. thesis, 2004.

170. Morasso P.G., Baratto L., Capra R., Spada G. internal models in the control of posture. // Neural Networks. 1999. V.12. P. 1173-1180.

171. Nilsson N.J. Teleo-reactive programs for agent control. // Journal of artificial intelligence research. 1994. V.l. P.139-158.

172. Nolfi S. Power and limits of reactive agents. // Neurocomputing. 2002. V.42(l-4), P. 119145.

173. Nolfi S., Parisi D. Self-selection of input stimuli for improving performance. //Neural Networks and Robotics / Ed. G.A. Bekey. Kluwer Academic Publisher, 1993. P.403-441.

174. Pinker S. Words and Rules: the Ingredients of Language. Basic Books, New York, 1999.

175. Pinker S., Ullman M.T. Combination and structure, not gradedness, is the issue // Trends in Cognitive Sciences. 2002. V.6(l 1), P.472-474.

176. Raudsepp M. Why is it so difficult to understand the theory of social representations? // Culture & Psychology. 2005. V.l 1. P.455-468.

177. Redgrave P., Prescott T.J. and Gumey K. The basal ganglia: a vertebrate solution to the selection problem? //Neuroscience. 1999. V. 89. P.l009-1023.

178. Schall J.D. Neural basis of deciding, choosing and acting // Nat Rev Neurosci. 2001.1. V.2(l). P. 33-42.

179. Seth A.K. Evolving action selection and selective attention without actions, attention, or selection. // Proceedings of the Fifth International Conference on the Simulation of Adaptive Behaviour. Cambridge, MA, MIT Press. 1998. P. 139-147.

180. Shultz W., Dayan P., Montague R.P. A neural substrate of prediction and reward // Science. 1997. V.275. P. 1593-1599.

181. Shvyrkov V.B. Behavioral specialization of neurons and the system-selection hypothesis of learning // Human memory and cognitive capabilities. Amsterdam. Elsevier, 1986. P. 599611.

182. Spier E., McFarland D. Possibly Optimal Decision Making under Self-Sufficiency and Autonomy// J. Theor. Biol. 1997. V.189. P. 317-331.

183. Stein L.A. Challenging the Computational Metaphor: Implications for How We Think // Cybernetics and Systems. 1999. V.30 (6). P. 1-35.

184. Sugrue L.P. Corrado G.S., Newsome W.T. Choosing the greater of two goods: neural currencies for valuation and decision making // Nature Review Neuroscience. 2005. V.6. P. 363-375.

185. Susswein A. J., Schwarz M., Feldman E. Learned changes of feeding behavior in Aplysia in response to edible and inedible foods // Journal of Neuroscience. 1986. V.6(5). P. 1513-27.

186. Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. Cambridge, MA.: MIT Press, 1998.

187. Trope Y. Theory in Social Psychology: Seeing the Forest and the Trees // Personality and Social Psychology Review. 2004. V.8. N2. P. 193-200.

188. Ullman M. T. A neurocognitive perspective on language: The declarative/procedural model // Nature Reviews Neuroscience. 2001. V.2. P. 717-726.

189. Ullman M. T. Contributions of Neural Memory Circuits to Language: the declarative/procedural model // Cognition. 2004. V.92. P. 231-270.

190. Velichkovsky B.M. Heterarchy of cognition: The depths and the highs of a framework for memory research // Memory. 2002. V. 10 (5/6). P. 405^19.