El Dilema del Prisionero


Este es un caso típico de la Teoría de Juegos en que la competencia de dos individuos (o más, en una extrapolación del concepto) que estuviesen interesados en un beneficio personal terminarían en una situación de mutuo perjuicio, es decir 'perder-perder'. Paradójicamente, siguiendo criterios 'irracionales' de confianza en el prójimo se logra la situación 'ganar-ganar'.

Es decir que existen contextos en los que la libre competencia no lleva a 'ganar=ganar', ni a una solucion justa, sino a la caída de todos y cada uno de los agentes!

Un ejemplo: Tom y Dick y la adquisición de dos firmas

Supóngase 2 inversionistas: Tom y Dick. Tanto Tom como Dick están interesados en comprar un paquete de acciones de la compañía Acme e integrarlos a sus respectivos portafolios. Tanto Tom como Dick conocen las intenciones del otro de adquirir las acciones de Acme. Se enfrentan al siguiente problema: Si Tom y Dick compran cada uno un paquete de Acme, el valor de mercado del paquete será 20 millones de dólares, y eso es lo que valdrá la inversión de cada uno de ellos. Si Tom y Dick compra cada uno un paquete de la compañía Apex, el valor del paquete de Apex sera 10 millones de dólares, y eso es lo que valdrá la inversión de cada uno. Tom está interesado en maximizar el valor de su inversión y tiene en cuenta que si compra Acme y Dick compra Apex entonces Acme valdrá 0 y Apex valdrá 30 millones. En cuanto a Dick, que también está interesado en maximizar el valor de su inversión, él sabe que si compra Acme y Tom compra Apex entonces Acme valdrá 0 y Apex valdrá 30 millones. No existe modo en que Tom y Dick se comuniquen para acordar una estrategia conjunta. Véase la matriz descriptiva de los dilemas de ambos jugadores a continuación:

Dick Acme Dick Apex
Tom Acme 20, 20 0, 30
Tom Apex 30, 0 10, 10


Consideraciones en torno a los razonamientos:
  • Dick inicia su diseño de estrategia asumiendo una decisión de Tom. Por ejemplo, Dick puede asumir que Tom comprará Acme. En tal caso, Dick preferirá comprar Apex.
  • Seguidamente, Dick asume que Tom comprará Apex. Igualmente, se ve impulsado a comprar Apex.
  • A su vez, Tom inicia su diseño de estrategia asumiendo que Dick comprará Acme. En tal caso, Tom preferirá comprar Apex.
  • Finalmente, Tom asume que Dick comprará Apex. Igualmente, se ve impulsado a comprar Apex.
El resultado (aparente) de esta interacción es que tanto Tom como Dick prefieren comprar Apex y descartan adquirir Acme.

Comentario: Tom y Dick hubieran preferido obtener un mayor valor para sus respectivos portafolios. Ello hubiese sido posible si ambos coincidían en comprar Acme, y no Apex. Esa posibilidad era, de hecho, factible, como se aprecia en la matriz de pagos. Pero ambos jugadores descartaron la posibilidad de adquirir Apex. Es posible imaginar por qué: ambos corrieron un análisis de lo que haría el contrincante en los diferentes escenarios. Era posible incrementar el valor del portafolio teniendo en cuenta las estrategias del contrincante. Sin embargo una efectiva maximización del valor del portafolio requería que ambos colaborasen...

... pero la premisa del modelo es que no pueden mantener contafcto entre ellos.

Me viene a la mente un ejemplo o una ilustración de la situación. Es como cuando requerimos levantar una viga larga. Sólo se puede hacer ello si se dispone de dos individuos: uno sosteniendo cada uno de los extremos de la viga. El reqquisito para que la operación tenga lugar es que haya cooperación y coordinación entre ambos sujetos. Si se carece de esto, entonces la operación es un sinsentido. Hablar de obtener máxima ganancia en el problema de interacción entre Tom y Dick es sencillamente una quimera. Parece alcanzable, pero no lo es.

Con lo afirmado no pretendo decir que no hay otras soluciones para el problema. Las hay. Pero se requiere un cambio de premisas. Algunas premisas que puede considerarse serán:
  • Que haya comunicación entre los dos agentes
  • Que al menos uno sea altruista
  • Que la operación pueda ser repetida en le futuro (esto genera preocupación por el valor dinámico dle juego)
A continuación veremos el planteamiento del dilema del prisionero en su contexto original.

Dilema del Prisionero y minimización de la pena

Dos individuos (A y B) son apresados en la escena de un crimen del cual son culpables. Ambos son además fugitivos, correspondiendo a cada uno un año de encarcelamiento para el cumplimiento de una pena anterior. Interrogados en celdas separadas, el interrogador que toca a cada uno propone lo siguiente:
  • 'Si usted prueba la participación del otro sujeto antes de que él hable, usted será liberado de inmediato, el caso será cerrado y el otro reo será encarcelado por tres años en total'
  • 'Si el otro reo se le adelanta y logra exponer detalles que lo inculpen a usted antes de que usted mismo hable, entonces él sale liberado inmediatamente, cerramos el caso y usted recibe un año de prisión por el crimen reciente, uno por ser reincidente y un año correspondiente a la pena anterior, es decir que estará en la cárcel por tres años'
Adicionalmente, cada uno de los delincuentes sabe lo siguiente:
  • Si ninguno de ellos habla, cada uno será puesto en prisión por el año de la anterior pena, ya que no podrá probarse la participación de ninguno de ellos en el reciente crimen
  • Si ambos exponen en forma simultánea los detalles que inculpan a su companero, la policía estará obligada a encerrarlos a ambos por un año adicional a los de su pena anterior (accediendo ambos a la anulación del año por reincidencia, en mérito a su voluntad de cooperación). La pena total será, pues, de dos años para cada reo.
Usaremos ahora una matriz de castigos, en lugar de una matriz de recompensas. El analisis es similar, sólo que en este caso interesa minimizar el valor del resultado descrito en la celda. Veamos la matriz que describe este caso:

B habla B no habla
A habla 2, 2 0, 3
A no habla 3, 0 1, 1


En una matriz de premios normal, todos los premios son negativos:

B habla B no habla
A habla -2, -2 0, -3
A no habla -3, 0 -1, -1


Cada uno de los reos buscará reducir la duración total de su pena. Es claro que cada uno de nuestros personajes se enfrenta a un serio dilema: hablar o no hablar.

Dinámica de los razonamientos individuales

Si fuese el caso de que A supusiera que B hablará, A prevería que quedará encerrado por tres años si no habla o por dos si decide hablar. Entonces, bajo la suposición de que B hablará, A mejoraría su situación tambien hablando, ya que así estará encerrado dos años en lugar de tres, ganando un año de tiempo fuera de la cárcel.

Por otro lado, si A supone que B no hablará, entonces decidir tampoco hablar llevará a que él sea puesto en la cárcel por un año (su companero sera encarcelado por igual período). Pero si decide hablar, su pena se reduce a cero: saldrá liberado de inmediato. Así, bajo la suposición de que B no hablará, A sentirá que su situación mejorará si el mismo sí decide hablar.

En ambos casos, A preferirá hablar. Igual análisis es válido para B. De todo esto se derivara que A tenderá a hablar y B también tenderá a hablar. El punto de solución de este problema será la confesión simultánea, con lo que cada individuo pasará dos años en la cárcel.

Aun no hemos terminado nuestro análisis: véase que la esquina inferior derecha representa una situación mejor para ambos: cada uno estaría encarcelado sólo por un año. Sin embargo, podemos ver a tal escenario como una pequena isla rodeada de un lago difiícil de atravesar: una búsqueda egoísta de bienestar individual llevará al malestar a nivel de cada individuo y a nivel del sistema.

Aplicaciones de la matriz general

El modelo del Dilema del Prisionero sirve para plantear y analizar diversos casos de competencia. Como ejemplo, supongamos el caso de dos empresas que deben enfrentar cada una la posibilidad de pagar una multa de tres millones de dólares por incumplimiento del código comercial. Cierto día dos agentes de la tesorería del gobierno visita cada uno una firma. La cooperación de las empresas puede hacer que cada una pague sólo un millón, pero la motivación por no pagar nada puede ser tan alta que derive en la situación mutuamente ideseable de pagar cada empresa dos millones de dólares. Si queremos generalizar el modelo, entonces debemos entender que cada uno de los agentes enfrenta las opciones de: actuar en la búsqueda de su propio interés (el cual, sabemos, es una importante directriz del movimiento económico), versus actuar en conformidad al interés del grupo social conformado por los dos individuos. Nuestro modelo original llevado a su forma más general queda como:

B interés individual B bienestar social
A interés individual -2, -2 0, -3
A bienestar social -3, 0 -1, -1


Las siguientes matrices corresponden a desplazamientos en dirección positiva del valor de los premios en uno, dos y tres puntos.

Matriz desplazada en un punto

Con un desplazamiento de un punto los incentivos para la defraudación ya no son reducción de un castigo sino un premio neto positivo. Veamos el siguiente caso: durante un fin de semana un espía y mercenario, luego de encontrar archivos que ponen en situación comprometedora a dos periódicos, vende a cada uno la información correspondiente al rival. Los negociadores de los diarios acuerdan mantener mutuamente el secreto sobre el rival. Los directores, sabiendo lo que su negociador ha acordado, debe enfrentar el problema de la fuerte competencia con el rival: si se aprovecha la edición del lunes para defraudar al rival, se ganará un millón de lectores y el rival perderá dos. Si se respeta el acuerdo, cada uno mantiene su mercado intacto. Si ambos revelan la información comprometedora del rival, cada uno perderá un millón de lectores. veamos ahora la matriz resultante:

B interés individual B bienestar social
A interés individual -1, -1 1, -2
A bienestar social -2, 1 0, 0


Matriz desplazada en dos puntos

B interés individual B bienestar social
A interés individual 0, 0 2, -1
A bienestar social -1, 2 1, 1


Matriz desplazada en tres puntos

Ahora veamos el caso de un desplazamiento de tres puntos. Dos partidos políticos compiten por los votos de un universo de cuatro millones de electores. Cada partido, de operar en forma individual, puede obtener un millón de votos. Se conversa sobre un pacto de ayuda mutua. Resultado de este pacto cada uno de los partidos cuenta con recibir dos millones de votos. Sin el pacto de ayuda mutua, cada uno sabe que lograra obtener sólo un millón de votos. Pero si los partidos suscriben el pacto y luego sólo uno lo defrauda, entonces el defraudador recibirá tres millones de votos, mientras que el defraudado nada habrá perdido incluso su base inicial de votantes. La siguiente matriz muestra los escenarios:

B interés individual B bienestar social
A interés individual 1, 1 3, 0
A bienestar social 0, 3 2, 2