«Дилемма заключённого»
«Диле́мма заключённого» (англ. prisoner’s dilemma), пример ситуации, анализируемой в теории игр, в которой заключённому даётся выбор – свидетельствовать против своего сообщника или нет.
Классическая версия дилеммы
Двое заключённых обвиняются в совершении совместного преступления. У следствия нет достаточных оснований, чтобы обвинить их. Заключённые находятся в раздельных камерах и не могут общаться друг с другом. Следователи предоставляют заключённым следующий выбор: если один будет свидетельствовать против другого, а другой нет, то первый будет немедленно освобождён за помощь следствию, а другой проведёт 20 лет в тюрьме. Если никто из них не выступит против другого, то оба будут задержаны на несколько месяцев. В этом смысле молчание означает, что заключённые сотрудничают друг с другом. Если оба обвинят друг друга, то каждый будет заключён в тюрьму на 15 лет. Каждый из заключённых заботится только о своём личном благополучии и не заботится о благополучии своего сообщника. В интересах каждого из заключённых свести к минимуму количество лет, в течение которых они остаются в тюрьме. Ни один из заключённых не знает точно, предал ли его другой. Каждый из заключённых рассуждает следующим образом: если мой сообщник промолчит, то мне лучше обвинить его, поскольку тогда меня отпустят; если же мой сообщник меня обвиняет, тогда мне также лучше обвинить его, потому что 15 лет в тюрьме меньше, чем 20 лет. Стратегия предательства сообщника является выигрышной в любом случае, поскольку приносит лучший результат независимо от выбора напарника. Парадокс заключается в том, что если каждый заключённый, преследуя свои личные цели, предаст своего сообщника, то каждый получит срок в 15 лет, хотя они оба могли бы оказаться в более выигрышном положении, если бы молчали. Таким образом, равновесие по Дж. Нэшу в игре не является оптимальным по В. Парето (стратегия молчать является Парето-улучшением для обоих игроков). «Дилемма заключённого» объясняет, почему рациональные игроки отказываются сотрудничать друг с другом, при том что это в их интересах.
«Дилемма заключённого» в обобщённой форме
Можно привести общую структуру описанной игры в общем случае. Есть два игрока, каждый из которых делает выбор – «сотрудничать» или «предать». Если оба игрока выбирают сотрудничать друг с другом, оба получают вознаграждение C. Если оба игрока выбирают предать другого – оба получают d. Если игрок 1 предаёт, в то время как игрок 2 выбирает сотрудничать, тогда игрок 1 получает выплату в размере D, а игрок 2 – в размере c. Аналогично, если игрок 1 сотрудничает, а игрок 2 предаёт, тогда игрок 1 получает выплату в размере с, а игрок 2 в размере D. Ниже (в таблице) приведена игра в нормальной форме (игра в нормальной форме описывается матрицей выигрышей – платёжной матрицей). Строки определяют стратегии первого игрока, а столбцы – второго, на пересечении приведены выигрыши игроков. Игру называют игрой в нормальной форме, если определено множество игроков, множество чистых стратегий каждого игрока и множество платёжных функций каждого игрока.
Каноническая матрица выигрышей «дилеммы заключённого»
| Сотрудничать | Предать |
Сотрудничать | C, C | c, D |
Предать | D, c | d, d |
Чтобы игра представляла собой «дилемму заключённого», для выигрышей должно выполняться следующее условие:
D>C>d>c
Соотношение выплат С>d подразумевает, что игроки больше выигрывают от взаимного сотрудничества, чем от взаимного предательства, в то время как соотношения D>C и d>c подразумевают, что стратегия «предать» является доминирующей (в теории игр стратегия называется доминирующей, если она приносит игроку больший выигрыш вне зависимости от стратегии, выбранной другим игроком) для обоих игроков.
Итеративная «дилемма заключённого»
В итеративной (повторяющейся) «дилемме заключённого» (iterated prisoner’s dilemma, ITD) игра повторяется неоднократно, и игроки знают о выборе сообщника в предыдущих раундах. Если игра сыграна ровно N (некая известная константа) раз и об этом знают оба игрока, то оптимальным решением будет предавать во всех раундах. Это единственное возможное равновесие по Нэшу в такой игре. Доказательство индуктивное: в последнем раунде игроку выгодно предать, так как у противника не будет возможности позже отомстить. Следовательно, оба будут предавать в последнем раунде. Таким образом, игрок может также предать в предпоследнем раунде, поскольку знает, что сообщник в любом случае предаст в последнем раунде. Чтобы сотрудничество стало привлекательным для игроков, необходимо, чтобы число раундов было неизвестным. Таким образом, у каждого игрока появляется возможность «наказать» другого игрока за предыдущую некооперативную игру. Соблазн предать перекрывается угрозой наказания, что приводит к возможности исхода с сотрудничеством. С ростом числа итераций равновесие Нэша стремится к Парето-оптимуму.
История открытия
Суть проблемы, лежащей в основе «дилеммы заключённого», была впервые описана в США в рамках проведения исследований в области теории игр в 1950 г. Был проведён эксперимент с похожей игрой (где участники сталкивались с выбором – сотрудничать или нет) между двумя игроками 100 раз. Позднее, в мае 1950 г., Альберт Такер (1905–1995), канадский математик, формализовал игровую модель с тюремными сроками и назвал её «дилеммой заключённого» во время лекции по теории игр, когда обсуждал работу своего аспиранта – Джона Нэша. Итеративная «дилемма заключённого» была рассмотрена Р. Аксельродом в 1984 г. в книге «Эволюция сотрудничества» («The Evolution of Cooperation»).
Применение в экономике
Существует множество ситуаций, которые могут быть описаны игрой, которую представляет собой «дилемма заключённого», т. е. играми с аналогичными матрицами выигрышей. Поэтому анализ «дилеммы заключённого» важен для ряда социальных наук: экономики, политологии, социологии и философии. Один из примеров, который касается ценовых войн. Например, две конкурирующие фирмы, участвующие в ценовой войне, вполне могут быть вовлечены в ситуацию «дилеммы заключённого». Фирмы лучше всего используют свою совместную власть определять цены, когда обе устанавливают высокую цену. Если же обе решат установить одинаково низкие цены, прибыль каждой будет невысока. При этом каждая фирма знает, что если у неё цены ниже, чем у её конкурента, то она привлечёт покупателей своего конкурента и тем самым увеличит свою прибыль. В этой ситуации стратегия установления низких цен аналогична молчанию в «дилемме заключённого», а стратегия установления высоких цен – обвинению сообщника. Поэтому каждая фирма, преследуя собственную выгоду, решает снизить свои цены, в результате чего ни одна из них не привлекает покупателей конкурента и обе получают меньшую прибыль.
Трагедия общин
«Дилемма заключённого» показывает, что решения, принимаемые в рамках коллективной рациональности (т. е. рациональные с точки зрения группы, обоих агентов, вместе взятых), не обязательно могут быть такими же, как решения, принимаемые в рамках индивидуальной рациональности. В «дилемме заключённого» каждый агент выбирает стратегию исходя из личных интересов и игнорирует выигрыш или проигрыш другого агента. То есть его выбор предать другого рационален с точки зрения собственных интересов (индивидуально рационален). Однако коллективное рациональное решение состоит в том, чтобы оба сотрудничали друг с другом (молчали), потому что суммарный выигрыш двух агентов больше в этом случае.
Аналогичный конфликт также можно наблюдать в ситуации, называемой трагедией общин. Трагедию общин можно рассматривать как пример обобщения «дилеммы заключённого» на случай с множеством игроков. Распространённый пример трагедии общин – пастбище. Каждый скотовод (или участник общины) выбирает – увеличить количество скота на общем пастбище или нет. Если увеличит, то это будет истощать ресурсы пастбища и снижать доходы всех участников, но за счёт того, что он увеличил численность своего стада, он всё равно остается в выигрыше при условии, что остальные скотоводы оставили поголовье своего скота как прежде. Скотовод выигрывает от увеличения поголовья. Однако если все скотоводы увеличат численность своего стада на общем пастбище, в конечном счёте все проиграют из-за истощения ресурсов. Если пользоваться терминологией из «дилеммы заключённого», то выбор увеличить поголовье – это своего рода предательство по отношению к остальным участникам общины, а оставлять всё как есть – сотрудничество друг с другом. Как и в «дилемме заключённого», Парето-оптимальным является решение сотрудничать друг с другом (оставлять численность стада прежним), но каждый агент, учитывая лишь свои интересы, выберет увеличение стада, что в итоге приведёт к нежелательному исходу для всех.
Трагедия общин указывает на то, что общественные блага всегда подвержены чрезмерному использованию. Коллективным преимуществом может быть сохранение общего природного ресурса и реинвестирование в его распространение, чтобы иметь возможность продолжать потреблять его, но у каждого человека всегда есть стимул вместо этого потреблять как можно больше и как можно быстрее, что в конечном счёте истощает ресурс. Если бы общины выбирали сотрудничество, им стало бы лучше от этого.
Проблема безбилетника также может быть проиллюстрирована в рамках игры, которая представляет собой «дилемму заключённого». Допустим, пассажиры делают выбор: заплатить или не заплатить за проезд в автобусе. В автобусе отсутствуют кондукторы и турникеты, но если большинство пассажиров не заплатит за проезд, водитель откажется ехать. В рамках индивидуального выбора (не учитывая выигрыш или проигрыш других игроков) каждому выгоднее быть безбилетником: если все остальные заплатят, автобус всё равно поедет, даже если кто-то один не заплатил. Если же все остальные не заплатят, то никто не поедет, и пассажир, который заплатил бы, в таком случае остался бы в проигрыше. Таким образом, стратегия не платить в такой игре является строго доминирующей. Однако если каждый последует этой стратегии, все пассажиры останутся в проигрыше. Как и в «дилемме заключённого», равновесие в такой игре не является Парето-оптимальным, потому что каждый игрок принимает решение, учитывая только свои личные интересы.