Подкрепление (в психологии). Большая российская энциклопедия

Подкрепле́ние (англ. reinforcement), процедура или процесс увеличения вероятности определённого типа поведения путём изменения стимульных условий после его осуществления. Важно различать 2 связанных термина: подкрепляющий стимул (r-стимул), или подкрепитель (reinforcer), и собственно подкрепление. Подкрепители представляют собой стимулы или события, которые воздействуют на поведение, увеличивая силу реакции (вероятность того, что она повторится в будущем). На схемах они обычно обозначаются как S^R. Выделяют 2 вида подкрепляющих стимулов: положительные и отрицательные (Skinner. 1953. P. 73). Положительный r-стимул (S^R+) – это стимул, который увеличивает вероятность повторения определённого поведения при его предъявлении или усилении. Базовые положительные подкрепители приобретают свои свойства в ходе эволюции и часто называются безусловными, или естественными. У. Баум рассматривает их как разновидность филогенетически значимых событий, наличие которых повышает приспособленность организма (Baum. 2017). Стимулы, которые приобретают подкрепляющие свойства в ходе научения путём образования связи с другими подкрепителями, называются условными. Отрицательный r-стимул (S^R–) – это стимул, устранение или ослабление которого увеличивает вероятность определённой реакции. Соответственно, подкрепление – это процесс образования положительной контингентной связи между наличием/усилением или отсутствием/ослаблением подкрепителя и определённым поведением. Другими словами, подкрепление – это процедура, при которой изменение стимульных условий после выполнения определённого действия увеличивает вероятность выполнения в будущем операнта, включающего в себя это действие. Подкрепление, таким образом, усиливает связь между поведением и его последствиями.

В зависимости от того, какие операции используются для усиления поведения, выделяют 2 типа подкрепления. Положительное подкрепление – это процедура или процесс увеличения вероятности определённого поведения путём предъявления или усиления интенсивности положительного r-стимула после осуществления этого поведения. Схематически данная операция может быть отображена следующим образом: R → S^R+, где R – это подкрепляемая реакция. Данную схему следует дополнить дискриминативным стимулом (S^D), указывающим на ситуации, в которых подкрепляется определённая реакция. Таким образом, процесс положительного подкрепления может быть описан как типичная 3-членная контингенция: S^D → R → S^R+.

Отрицательное подкрепление – это процедура или процесс, при которых устранение, ослабление интенсивности или задержка предоставления отрицательного r-стимула после совершения определённого поведения усиливает это поведение в будущем. Часто процедура отрицательного подкрепления заключается в продолжающемся предъявлении отрицательного подкрепителя до тех пор, пока не будет выполнено действие, которое устраняет или уменьшает воздействие этого стимула. В данном случае стимул, функционирующий как отрицательный подкрепитель, действует и как дискриминативный стимул, сигнализирующий о ситуации, в которой возможно негативное подкрепление реакции. Например, если родители ругают ребёнка за плохие оценки (S^R–), он может пойти в гости (R) к своему другу, чтобы избежать жалоб родителей. В результате вероятность того, что в будущем, когда родители будут ругать его, ребёнок снова уйдёт к другу, увеличится. Таким образом, поведение (реакция ухода) усиливается устранением негативного воздействия (жалоб родителей) (Sundel. 2018. P. 174). Поскольку в качестве дискриминативного стимула может действовать любой другой стимул, процедуру отрицательного подкрепления также можно описать как 3-членную контингенцию:

S^D → R → S^R–.

Некоторые исследователи выступают против различения положительного и отрицательного подкрепления (Michael. 1975; Baron. 2005). Один из их аргументов заключается в том, что предъявление и устранение стимула часто является лишь неполным и нередко произвольным описанием изменений в стимульных условиях. Бэрон и Гализио приводят в качестве примера знаменитый эксперимент Уэйсса и Латиса (Weiss. 1961), в котором крысы, содержавшиеся в холодной камере, нажимали на рычаг, включающий обогревающую лампу. Эту процедуру можно описать и как положительное подкрепление (через увеличение температуры), и как отрицательное подкрепление (через уменьшение холода). Другие исследователи, однако, полагают, что эти терминологические сложности не отменяют полезности различения положительного и отрицательного подкрепления (Sidman. 2006), и бо́льшая часть исследователей и практиков продолжают его придерживаться (Poling. 2002).

Ещё одной областью терминологических разногласий является разведение понятий «отрицательный подкрепитель» (negative reinforcer), «наказывающий стимул» (punisher) и «аверсивный стимул» (aversive stimulus). Некоторые исследователи рассматривают все 3 термина как синонимы (Pritchard. 2011), другие описывают процедуру отрицательного подкрепления, используя понятие наказывающего стимула. Так, У. Баум в качестве примера отрицательного подкрепления приводит контингентную связь между чисткой зубов и кариесом: «подкрепления, поскольку эта связь поддерживает чистку зубов (поведение), а отрицательного, поскольку чистка зубов снижает риск кариеса (наказывающий стимул)» (Baum. 2017. P. 66–67). Смешение данных понятий восходит к работам самого Б. Ф. Скиннера. Например, он давал следующее определение: «Мы определяем отрицательный подкрепитель (аверсивный стимул) как любой стимул, устранение которого усиливает поведение» (Skinner. 1953. P. 185). Тем не менее, как правило, эти 3 понятия разводят. Подкрепляющие и наказывающие стимулы обычно определяются функционально, т. е. в терминах того, как они влияют на поведение: подкрепляющие стимулы усиливают реакции, наказывающие – ослабляют (Edwards. 2020). Понятие «аверсивный (т. е. отталкивающий) стимул» указывает на то, как стимул переживается организмом (как что-то «неприятное»). Один и тот же аверсивный стимул в некоторых случаях может функционировать как наказывающий стимул (при предъявлении), в других – как отрицательный подкрепитель (при устранении). Эта симметрия, однако, не является универсальной. Кроме того, существуют исследования, показывающие, что в некоторых случаях аверсивные стимулы способны действовать как положительные подкрепители (Donahoe. 1994. P. 115).

Некоторые исследователи также указывают на возможность описания подкрепляющих событий не как стимульных условий, а как действий самого организма. Так, Д. Примак сформулировал принцип, названный его именем, согласно которому реакции, происходящие с большей частотой, могут подкреплять реакции, происходящие с меньшей частотой (Premack. 1959). Иными словами, принцип Примака описывает, как разночастотные формы поведения могут влиять друг на друга в контексте подкрепления. Он смещает акцент с рассмотрения подкрепления как стимульного последствия определённого поведения (R → S) на рассмотрение подкрепления как отношения между двумя паттернами поведения: подкрепляемым и подкрепляющим (R^{↓частота} → R^{↑частота}). С этой точки зрения подкрепление является результатом действий самого организма, а не предъявления внешних стимулов: например, подкрепляет именно процесс поглощения еды, а не само по себе предъявление пищи. Принцип Примака подчёркивает возможность использования высокочастотного поведения в качестве подкрепителя и может быть применён в различных ситуациях для поощрения желаемого поведения. Если, к примеру, просмотр телевизора занимает больше времени, чем чтение, то просмотр телевизора можно сделать зависимым от прочтения определённого количества страниц. Обычно такая зависимость увеличивает объём прочитанного текста.

Существуют различные способы организации отношений между оперантом, событиями, которые ему предшествуют, и подкрепляющими последствиями. Особенности такой организации называются режимом подкрепления (schedule of reinforcement). Иными словами, режим подкрепления представляет собой набор правил, регулирующих, как и когда будут предъявляться и устраняться дискриминативные стимулы и подкрепляющие последствия. Например, может подкрепляться каждая правильная реакция или же подкрепление может следовать после определённого количества правильных ответов. Впервые режимы подкрепления были описаны Б. Ф. Скиннером в 1930-х гг., а в 1957 г. вышел его классический труд в соавторстве с Ч. Ферстером, который до сих пор считается одной из наиболее всесторонних и обширных работ в этой области (Ferster. 1957).

Изучение подкрепления в рамках оперантного обусловливания нашло отражение и в популярной культуре. Так, в эпизоде «Отклонение Готовица» ситкома «Теория большого взрыва» (3-й эпизод 3-го сезона) Шелдон пытается изменить поведение Пенни, опираясь на работы Э. Торндайка и Б. Ф. Скиннера, и использует в качестве положительного подкрепляющего стимула шоколад. В этой же серии он ошибочно описывает лёгкий удар электрическим током как отрицательный подкрепляющий стимул, помогающий избавиться от вредной привычки. В действительности же в данном случае удар током функционировал бы как положительный наказывающий стимул (positive punisher). Примечательно, что в 5-й серии 8-го сезона Шелдон поправляет Леонарда, когда тот ошибочно называет положительное наказание отрицательным подкреплением, и отмечает, что это весьма распространённая ошибка.

Фёдоров Александр Александрович